録音音声文字起こしObsidianプラグイン AI Transcriber

OpenAIのAPIを使ったObsidian用の文字起こしプラグインです。
Obsidianで標準で入っているレコーダーで録音したファイルなどを高精度に文字起こしができます。

インストール

Obsidianの設定画面から、【コミュニティプラグイン】→【閲覧】からai transcriberで検索をするか、
以下のURLからインストールをして下さい。
https://obsidian.md/plugins?id=ai-transcriber

Githubリポジトリはこちら
https://github.com/mssoftjp/obsidian-ai-transcriber

設定

有効化すると設定が可能になります。

APIキー
OpenAIのAPIキーを使います。事前に取得してください
文字起こしモデル
APIから使用できるGPT-4o Transcribe （mini）とWhisper-1（タイムスタンプあり/なし）の４種類から選択できます。迷ったらGPT-4o Transcribeをお勧めしています
言語
文字起こし音声の言語を設定します。ここで別言語に設定していても、AIが判断して文字起こしをしてくれますが、できるだけ合わせた方が精度が良いです。自動検出の設定も用意していますが、基本的には言語を選択した方が良いです
出力形式
出力の外観です。お好みに合わせて設定してください
後処理を有効化
事前に与えた参考情報などを参考に単語の添削などをさせることができます。GPT-4.1 miniで処理させていますので、トークンコストが若干増えてしまう点注意が必要です
辞書補正を有効化
登録した単語辞書を使用して後処理時の添削を行います。辞書にはAIがいつも間違える単語を登録しておくと良いです。こちらはAPIを使わずに機械的に処理します
出力フォルダ
出力先を指定できます。設定がなければVault直下に保存します
辞書管理
辞書管理のウィンドウを開きます

使用方法

起動

左のアイコン列にある、このアイコンを押すと起動します。

文字起こし対象ファイルの選択

音声ファイルを選択するウィンドウが出ます。（音声ファイルを選択した状態でアイコンをクリックするとこのウィンドウを経ずに次のウィンドウが開きます。）
Obsidianで録音したりして、Vault内に音声データがある場合はリストに表示されます。Vault外に保存している音声ファイルを文字起こししたい場合は【Valut外から選択】ボタンを押して選択してください。Obsidianの制約上、直接の外部参照ができないので、一旦Vault内にコピーをして処理をします。

文字起こし設定

選択してOKを押すと次のウィンドウが表示されます。
設定画面で設定したモデルなども、使用時の条件に応じてここでも変えられます。
音声範囲選択では、紫色の部分の端をドラッグすると処理する対象の範囲の時間を調整できます。

後処理用関連情報の入力

事前入力ではミーティングなどのメタデータを入れることで、文字起こし後の後処理で、文字起こしの聞き間違いなどをできるだけ修正するようにします。ざっくりのメモを貼り付けるだけで大丈夫です。必ずしも思ったように単語を文字起こし＆補正してくれないこともあります。

実行画面

実行すると右下にバーと大まかな進捗が表示されます。その部分をクリックすると下図のような右パネルが表示されます。モデルや後処理の有無にもよりますが、１時間の音声であれば５分程度で文字起こしが完了します。

出力

以下のように出力されます。

ご利用にあたっての注意事項

AI Transcriber は、AIを利用して音声の自動文字起こしを行うツールです。
文字起こしデータにはAIの特性上、音声の聞き取り状況や話し方の違いによって、誤認識や不正確な内容が含まれる場合があります。
重要な内容については、必ずご自身でご確認・ご修正のうえご利用ください。
本プラグインの使用により発生したいかなる損害についても、開発者は一切の責任を負いません。
アップデートに伴い、ウィンドウイメージと若干変更があるかもしれません。