音声認識

Hugging Face にオープンソースとして公開されている kotoba-whisper-v2.0 が、なかなかすごいです。 デモページで使ってみました。

重要な会議などでの機密情報は、第三者が運営するクラウドではなくて、ローカル(オンプレミス)で処理したいですよね。誰でも自由に使うことができるオープンソースなら、ローカルで動かすことも可能です。

以下の画像からわかるように、インターフェイスは、gradio を使っています。ゼミで活用を勧めている Streamlit のように、簡単に入出力のGUIを作成することができます。

(ゼミでも紹介した)Hugging Face を使いこなして、みなさんもこんなアプリを制作してみませんか。

データのじかん(編集長は名大経済学部卒の浜松出身の方)での紹介記事で、この文字起こしAIのことを知りました。同サイトは、ビジネス系のデータサイエンス(+データ文化)の学習サイトとして、とても有用だと思います。

まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい | データで越境者に寄り添うメディア データのじかん