本日はwhisper.unityの環境構築枠です。
whisper.unityを使ってUnityで音声から文字起こしを行う方法です。
whisper.unity
whisper.unityはOpenAI WhisperをUnity上で扱うためのラッパーでリアルタイム音声入力とテキスト変換を統合できます。
クロスプラットフォーム対応の音声認識をすぐに組み込むことができます。
github.com
プロジェクトを試す
サンプルシーンを含めてwhisper.unityを試したい場合はGitHubからプロジェクトをダウンロードします。
今回はDownload ZIPでプロジェクトを取得しました。
github.com

任意のフォルダにダウンロードしたzipファイルを展開します。

Unityでプロジェクトを開きます。
Assets/Samples配下にwhisper.unityを利用した5つのサンプルシーンが含まれています。


1.Audio Clip
録音済みの音声データ(wav)をWhisperに読み込ませて文字起こしを行うサンプルシーンです。

2.Microphone
PCに接続されたマイクから録音して文字起こしを行うサンプルシーンです。

3.Languages
Whisperが対応している言語の一覧を表示するサンプルシーンです。

4.Subitles
録音済みの音声データ(wav)を発話に合わせて字幕のように文字起こしを行うサンプルシーンです。
認識の信頼度によって文字の色が変化します。

5.Streaming
PCに接続されたマイクから入力された音声に対してリアルタイムに文字起こしを行うサンプルシーンです。
