AI
2023/02/17
有路 慧斗

社内会議をAIを使って要約してみた!

今回はWhisperという音声認識AIと文章要約AIを活用して社内会議の要約を作成していきます。

音声をテキストに起こすAI「Whisper」

Whisper とは


Whisper多言語の音声認識モデルです。大量の音声データをもとにトレーニングされており、多言語の音声認識、音声翻訳、言語識別を実行することができます。また、mp3やmp4の動画ファイルなど幅広いファイルに対応しているため音声データをそのまま音声認識することができます。


Whisper でできること



  • 音声データからの文字起こし


音声データを識別して文字に起こすことができます。



  • 音声データの翻訳


音声データを識別し、翻訳してから文字に起こすことができます。



  • 音声データの言語認識


その音声が何の言語であるかを識別することができます。



Whisperの特徴


Whisper の5つのモデルサイズ


Whisper には5つのモデルサイズが用意されており、速度と精度のによって使い分けが可能となっています。また、英語のみの使用の場合には英語のみのモデルを使用することで、さらにパフォーマンスを向上させることができます。


引用元:https://github.com/openai/whisper


Whisper のパフォーマンス精度


引用元:https://github.com/openai/whisper


これはWhisper の単語誤り率を表しており、この数字が小さいほど精度がいいとされています。


日本語はこの数値が5.3となっており、94.7%の確率で音声を正確に認識できるということです。


簡単に使ってみたなどをこちらの記事に記載していますので、とりあえず適当なデータで触ってみたいという方はこちらの記事も是非ご覧ください。


高性能な音声識別AI「Whisper 」を触ってみた

社内会議を音声認識して、簡単に要約してみる

今回はWhisperを使用してSiNCE社内で行われた会議の録音音声から簡単な会議概要を作ってみようと思います。


会議の内容は「社内で使うワードを定義する」と言ったものであり、GooglMeetで録画したファイルをそのまま使用します。


議事録を作成するステップ



  1. Google Meetの会議録画ファイル(mp4)をWhisperで音声認識

  2. Pythonを使用して出力結果の微調整をする

  3. AI要約サービスに文字起こしした文章を要約してもらう




Google Meetの会議録画ファイル(mp4)をWhisperで音声認識


Whisperで音声認識を行う方法はこちらの記事に記載してありますので、併せてご覧ください。


高性能な音声識別AI「Whisper 」を触ってみた



!pip install git+https://github.com/openai/whisper.git

!sudo apt update

!sudo apt install ffmpeg



!whisper WordMTG.mp4 --language Japanese


以下がWhisperの出力結果です。



定義を仕事をこれからしやすくするっていう時も [00:57.000 –> 01:01.000] 言葉の定義が曖昧だと そのコミュニケーションが遅くなるし [01:01.000 –> 01:03.000] エラーも切るし [01:03.000 –> 01:05.000] なんかあと会社の姿勢として [01:05.000 –> 01:09.000] 我々はこういうことだと思ってますよっていうことは [01:09.000 –> 01:12.000] きちんと明確にしたいなと思ってんだよね



次はこの時間の表記をPythonにて取り除いていきます。


Pythonを使用して出力結果の微調整をする


今回の出力結果では、時間が「[ ]」で囲われているので、特定文字列で囲まれている文字列を消去していきます。


コードは「Chat GPT」に入力することによって出力してもらいます。



import re
str = "テキストを入力"
pattern = "\[.*?\]"
text = re.sub(pattern, "", str)
text = text.replace(" ", "")
print(text)







文章調整前


定義を仕事をこれからしやすくするっていう時も [00:57.000 –> 01:01.000] 言葉の定義が曖昧だと そのコミュニケーションが遅くなるし [01:01.000 –> 01:03.000] エラーも切るし [01:03.000 –> 01:05.000] なんかあと会社の姿勢として [01:05.000 –> 01:09.000] 我々はこういうことだと思ってますよっていうことは [01:09.000 –> 01:12.000] きちんと明確にしたいなと思ってんだよね


調整後


定義を仕事をこれからしやすくするっていう時も言葉の定義が曖昧だとそのコミュニケーションが遅くなるしエラーも切るしなんかあと会社の姿勢として我々はこういうことだと思ってますよっていうことはきちんと明確にしたいなと思ってんだよね




AI要約サービスに文字起こしした文章を要約してもらう


ELYZA DIGEST



AIをAIに置き換える方法について、筆者が解説している。デブオプスやAIオプス、AIオプスの定義を、AIに置き換えるというもの。AIは、AIによって人の合肥が判断されるという風潮があるという。



User local自動翻訳ツール



みたいな中で着地させられればなと思ってるという感じですじゃあちょっと伊勢さんからお願いしますなんか資料を作りつけたからそれの説明してみてくれる? 何も伝わらないんですなんか新しいことやってるよという抽象度の言葉でしかならないです2つはスポーツやってましたそうですよねいい例です大規模でしたね映像学部も大規模だけどみたいな何それ? ちょっとそんな感じで引き続きちょいちょいやっていきましょう。



Notion AI



この文書は、データ使用、ソフトウェア開発、ソフトウェア運用に関する用語の明確な定義の必要性について議論しています。これにより、コミュニケーションを改善し、エラーを減らし、会社の立場を強化することができます。また、これらの定義に関して共感を得るための平等な議論を行うことを提案しています。これにより、開発と運用チーム間で協力的な環境を作ることができます。



社員の各用語の理解


DevOpsとは、ソフトウェア開発とソフトウェアの運用を組み合わせる概念です。目的が相反する開発チームと運用チームが協力してソフトウェアの提供をスピードアップしたり、性能を向上させることを目的としています。具体的な実践方法は継続的インテグレーション、継続的デリバリー(CI/CD)を活用することなどが挙げられます。


AIOpsは、機械学習などのAI技術を使用してITサービスを監視および分析し、ITオペレーションを改善する概念です。具体的には、ITサービスの複雑な状況に関する洞察を提供し、スピード、可用性、品質を改善するためのデータ分析およびイベント分析をすることで、アラートの異常検知と原因特定も行います。


MLOpsとは、DevOpsの考え方を、機械学習の開発や運用、データの管理までを含む形に拡張した概念です。モデルのパフォーマンスを最適化することに、データの収集やモデルの改善といったプロセスを自動化や高度化をはかり、機械学習を活用したサービスの開発・運用プロセスを効率化しています。


人間のまとめとAIのまとめの比較


今回使用した要約AIの中では、Notion AIが一番要約できていたように思えます。しかし、あくまで会議でどんなことが話し合われたかということがわかるだけなので、議事録として運用したいのであれば、使い方に工夫が必要かもしれません。また、今回はWhisperを使用して音声認識した文章をそのまま要約AIに入れただけなので、工夫をすればもっと良い要約文になったかもしれません。







まとめ

今回はWhisperなどのAIを複合的に活用して会議の要約を作ることができるかを試してみました。音声認識は文字に起こす精度は体感7割ほど正確に起こせていると感じました。しかし、「VertexAI」などの英文を日本語として文字起こしするとカタカナで出力されてしまい、要約AIがどのように受け取るのかは更なる調査が必要になりそうです。

New call-to-action