音声認識でZoom上の全会話をリアルタイムに字幕表示するための仕組みづくり

耳が聞こえづらい方を含む、不特定多数が参加するZoomミーティングにて、リアルタイムに字幕提供するために用意したもの。

誰か一人が稼働させるだけで、Zoomミーティング全員の会話が全て字幕化される。

詳細や動かし方はこちら。 https://github.com/hassaku/auto-zoom-subtitles

仕組み的には、ほとんどこちらの流用。追加したのは、仮想オーディオドライバでZoomの全会話取り込めるようにしたのと、Zoomに投げるためにローカルサーバ立てたくらい。 nlab.itmedia.co.jp

実際に試してみたものの、音声環境が整った発表形式ならともかく、不特定多数の会話が入り乱れるような場合には、著しく音声認識の精度が落ちるので、そういった場合は、UDトークとかZoomに字幕を投げられそうな音声認識手段(今回の仕組みでも良い)を、各自の手元に用意してもらう方が現実的かも。

あるいは、公式やサードパーティでちゃんとした字幕機能が提供されるかも。

個人的には、仮想オーディオドライバ、Web Speech API、Zoomの字幕機能周りのことを色々調べるきっかけになってよかった。