MRが楽しい

MRやVRについて学習したことを書き残す

whisper.unityを使ってUnityで音声から文字起こしを行う

本日はwhisper.unityの環境構築枠です。
whisper.unityを使ってUnityで音声から文字起こしを行う方法です。

whisper.unity

whisper.unityはOpenAI WhisperをUnity上で扱うためのラッパーでリアルタイム音声入力とテキスト変換を統合できます。
クロスプラットフォーム対応の音声認識をすぐに組み込むことができます。
github.com

プロジェクトを試す

サンプルシーンを含めてwhisper.unityを試したい場合はGitHubからプロジェクトをダウンロードします。
今回はDownload ZIPでプロジェクトを取得しました。
github.com

任意のフォルダにダウンロードしたzipファイルを展開します。

Unityでプロジェクトを開きます。
Assets/Samples配下にwhisper.unityを利用した5つのサンプルシーンが含まれています。


1.Audio Clip

録音済みの音声データ(wav)をWhisperに読み込ませて文字起こしを行うサンプルシーンです。

2.Microphone

PCに接続されたマイクから録音して文字起こしを行うサンプルシーンです。

3.Languages

Whisperが対応している言語の一覧を表示するサンプルシーンです。

4.Subitles

録音済みの音声データ(wav)を発話に合わせて字幕のように文字起こしを行うサンプルシーンです。
認識の信頼度によって文字の色が変化します。

5.Streaming

PCに接続されたマイクから入力された音声に対してリアルタイムに文字起こしを行うサンプルシーンです。