WhisperUI は OpenAI の技術を核とする音声処理プラットフォームで、主に音声を文字起こしとテキストを音声に変換するサービスを提供します。Web のオンラインサービスとデスクトップアプリの2つの利用形態があります。
Web プラットフォームの基本機能は無料で利用できますが、OpenAI の転写(音声認識)または合成サービスの利用には通常、OpenAI API キーを自分で用意する必要があります。さらに、拡張機能を含むデスクトップ版の利用を含むサブスクリプションも提供しています。
デスクトップ版は Windows および macOS で完全にオフラインで動作します。音声データはローカル機器で処理され、クラウドへアップロードする必要はありません。データのプライバシーを重視するユーザーにとっては選択肢となり、処理速度はローカルのハードウェア性能に依存します。
MP3、MP4、WAV、M4A、OGG、WEBM など、一般的な音声・映像ファイル形式に対応しています。
WhisperUI の文字起こし機能は OpenAI の Whisper モデルに基づいており、多言語データで訓練されています。英語などの言語では高い精度を発揮し、さまざまな訛りや背景ノイズにも対応します。実際の精度は音声の品質、言語、アクセントにより異なります。
デスクトップアプリのローカル処理モードでは、音声データはユーザーのデバイス上で処理され、外部サーバーへアップロードされません。オンラインサービスモードでは、OpenAI API キーの使用はユーザー自身が管理します。
動画クリエイター、コンテンツ制作者、研究者、学生、開発者、音声の転写・字幕生成・音声合成を頻繁に行う個人またはチームに適しています。
OpenAI の TTS モデルをベースに、複数の音声スタイル(Alloy、Echo など)と2つのモデルオプション(TTS-1、TTS-1-HD)を提供します。出力フォーマットは MP3、AAC、FLAC に対応します。