文字起こしプラグイン(AI Transcriber)を作成してみて、GPT-4o Transcribeの性能が良く、音声入力のプラグインもあったら良いかもと思って作ったObsidianプラグインです。
今回はWhisper APIは使わずGPT-4o Transcriberのみ、補正も固定の置換辞書のみ、とシンプルな設計としました。

インストール

まだObsidianプラグインとして審査中のため、以下のリポジトリからダウンロードをお願いします。
https://github.com/mssoftjp/obsidian-voice-input/releases
フォルダをvoice-inputという名前でプラグインフォルダに作成して、voice-input-X.X.X.zip をダウンロードして、その中のmain.jsmanifest.jsonstyles.cssfvad.jsfvad.wasm、LICENSE 類をプラグインフォルダへ配置してください。
プラグインの再読み込みボタンを押すか、Obsidianを再起動するとコミュニティプラグインリストに追加されますので、プラグインを有効にしてください。

設定

まず、OpenAI APIキーを設定します。
入力欄に入力して、接続テストボタンを押して、成功すれば準備完了です。

使用方法

コマンドパレットからVoice Inputの「ビューを開く」を選択してください。右にパネルが表示されます。

音声入力方法

音声入力方法として
開始ボタンを押すと連続して録音して、もう一度押すまで録音が継続されるモード
開始ボタンを長押しすることで、押している間だけ録音されるモード
があります。長いフレーズであれば、1つ目。ちょっとしたコメントであれば2つ目のやり方が便利です。

録音を開始すると次の図のような状態になります。
音声入力が完了したら赤い停止ボタンを押すと文字起こしが開始されます。
文字起こしをせずにストップするならばキャンセルボタンを押します。キャンセルボタンを押すことで、APIコストをかけずにすみます。
連続した音声入力でも、変換中の場合でも次々に音声入力を開始しても問題ありません。

辞書による補正の使い方

機械的な置換による補正の設定が可能です。辞書補正のトグルをオンにして、カスタム辞書に単語を登録するだけです。
AIの癖で毎回違う単語としてに読み取られてしまう単語などを登録しておくと便利です。