AI
2023/01/20
有路 慧斗

高性能な音声識別AI「Whisper 」を触ってみた

Whisper とは

Whisper多言語の音声認識モデルです。大量の音声データをもとにトレーニングされており、多言語の音声認識、音声翻訳、言語識別を実行することができます。また、mp3やmp4の動画ファイルなど幅広いファイルに対応しているため音声データをそのまま音声認識することができます。

Whisper でできること

音声データの翻訳

音声データを識別し、翻訳してから文字に起こすことができます。

音声データの言語認識

その音声が何の言語であるかを識別することができます。

Whisperの特徴/Whisper の5つのモデルサイズ

Whisper には5つのモデルサイズが用意されており、速度と精度のによって使い分けが可能となっています。また、英語のみの使用の場合には英語のみのモデルを使用することでさらにパフォーマンスを向上させることができます。

Whisperの特徴/Whisper のパフォーマンス精度

これはWhisper の単語誤り率を表しており、この数字が小さいほど精度がいいとされています。

日本語はこの数値が5.3となっており、94.7%の確率で音声を正確に認識できるということです。

Whisper を実際に触ってみた

今回はこの文章を「音読さん」で読み上げされたものの音声認識と翻訳を行います。

「こんにちは!株式会社SiNCEです。
私たちが目指すのは、データ活用によって事業が確実に成長することです。現場が動きやすく、経営が加速する状態をつくるために全力で各種サポートさせていただきます。」

(上記音声ファイルは音読さんを使用して作成しました。)

1.colabでノートブックを新規に作成します。

2.pipを使用しWhisper をインストールします。

Python

!pip install git+https://github.com/openai/whisper.git
!sudo apt update
!sudo apt install ffmpeg

3.音声認識したいファイルをcolabにアップロードします。

4.「Cntrl + M + B」でコードをプラスしてそこにコードをコピペして実行

結果

まとめ

Whisper はcolab上で簡単に使うことができる高精度な音声認識サービスでした。今回は機械音声による音声ファイルを使用しましたが、もちろん人が話している音声ファイルも認識することが可能です。これだけの精度で音声認識が可能であれば様々なことに使うことができそうです。簡単に触ることができるのでぜひ試してみてください。

New call-to-action