人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
音声認識を行っていると、音声と認識された文字起こしデータを比較することが多いと思います。実際はあっている・あっていないは、開発側ではなく別の方に調べてもらうほうが良いのですが、最低限の確認をする必要はあると思います。他にも音声認識の結果が誤っている場合、音声側を聞き修正を行うことも多々あると思います。そこで今回はそのようなときにどのように行うかと調べてみました。 今回はVLCを使った場合確認方法とその限界を説明し、そのあと自作の確認ツールについて説明を行っています。この自作ツールはWSL上でも問題なく動作します。 前提として、Whisperなどによる文字起こし結果はテキストだけでなく、タイムコ…
あなたは、普段何気なく利用しているウィキペディアや音声アシスタントで、突然「クレオパトラ」のページが表示され、驚いたり戸惑ったりした経験はありませんか。 操作中に予期せぬ表示が現れると、どうしてこうなるのか疑問に思い、不安になることもあるでしょう。 実は、この現象には音声認識のちょっとした誤作動やシステム設定の影響が関係しており、古代エジプトの女王クレオパトラという歴史上の象徴的存在が、現代技術と不思議にリンクしているのです。 この記事では、そんな現象の背景や仕組みを、歴史的なエピソードやユーザーの体験談を交えながら、初心者でもわかりやすい言葉で解説しています。 あなたの疑問や不安を共感しなが…
音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。 それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。 そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。 中でもSilero VADは精度が高いらしいけど、 ・ストリーミングで発話区間を検出して ・ソースコードがコンパクトで ・全体の音声データをWAV形式で保存して ・発話部分だけを切り出して、これもWAV形式で保存して ・発話ごとのラベル情報を記録して といったサンプルが見つからなかったので、自分で作ってみました。 もちろん、…
こんにちは!エキサイト株式会社、SaaS・DX事業部エンジニアの岩田史門です! エキサイトHDアドベントカレンダー7日目を担当させていただきます! はじめに 自動音声認識 (ASR: Automatic Speech Recognition) と話者分離 (SD: Speaker Diarization) は、カスタマーサポート、自動議事録作成、音声インタフェースの改善など、さまざまな分野で活用されています。 現在開発に携わっている、FanGrowthというプロダクトでも、ウェビナーレポートという機能で活用しています! www.fangrowth.biz 本記事では、OpenAIのWhispe…
漢字が書けなくても、ひらがなで書いて変換。音声認識が誤変換しても、あとから再変換。 しゃべったことがどんどん文字になっていく音声認識メモに、 手書き文字認識機能も追加しました。 apps.microsoft.com torazaemon2016.hatenablog.jp 認識された文字を「TextBox」にハイライトで表示していますが、 このことで、MS IME をONにして、SPACEキーで変換すると、かな漢字変換が可能になっています。 ひらがなを書いて、ひらがなを文字認識 ハイライト状態でSPACEキーを押してかな漢字変換 また、音声認識した結果の文字列も、誤変換により漢字が違っていた場…
音声&手書き文字認識メモ (Ver.2) しゃべったことがどんどん文字になっていくメモ(簡易エディタ)アプリに手書き文字認識機能も追加しました。 apps.microsoft.com 日本語向けの機能として、簡便な句読点処理が組み込まれており、自動で句点を付けたり、句読点ごとに改行するなどが可能です。 音声認識 画面にペンによって手書きした文字を認識してテキストにする機能もあります。 手書き文字認識 左右矢印キー、Delキーで編集したり、Spaceキー、Enterキーで確定させるなど、簡単に文を修正可能です。 また、Windows10のPCでも動作可能です。 注意点: 音声認識エンジン関係 W…
日本語教育で参考になる研究者を紹介します。 髙橋 麻衣子 (Maiko Takahashi) - マイポータル - researchmap の人はなぜ音読をするのか 音声と文字の認知を考えるうえで重要。 小森 和子 (Kazuko Komori) - MISC - researchmap 中国語話者の日本語学習を中心に。 第一言語と第二言語における正書法深度の相違が第二言語としての日本語の単語認知と文章理解に及ぼす影響 | 学術機関リポジトリデータベース も参考になる。 山本 忠行 (Tadayuki Yamamoto) - マイポータル - researchmap 日本語教育や言語政策のあり…
歳を取ったのだろう,電車の車内放送を聞き逃すことがある。アナウンスの順番はいつも同じなので,注意していればいいはずなのだが,なぜかその車内放送だけはいつも肝心な情報を聞き漏らすのである。 電車の中で筆者の気を引くものといえば,トレインチャンネルの情報である。テレビ世代なので,天井近くの画面で表示させる動画についつい目が行ってしまう。トレインチャンネルは音がない分,かなり集中してしまう。それで,車内放送の肝心な部分を聞き逃してしまうようである。 そこで,Androidのボイスレコーダーアプリを使って,いつも聞き逃すタイミングの車内放送を録音することを考えた。 Windows PCなら,結構よく使…
Whisper.app お盆で暇なので以前から個人的にやってみたいと思っていた音声認識をやってみた。 OpenAIのWhisperの認識精度が高いらしいので使ってみようかと思ったが、オープンソースのバージョンも有るというのを見つけたのでオープンソースの方で試してみた。 利用するのはWhisper.cpp https://github.com/ggerganov/whisper.cpp Whisperの高速板らしい? 音声認識に利用するサンプルデータは以下のものを利用する。 https://pro-video.jp/voice/announce/ 使ってみた感じだとLargeモデルの精度は良いが…
筆者のカーナビ更新への挑戦は,これまでも何回か紹介してきた。以下3話が2024年におこなった実験とその結果である。 ・クルマでのスマホは,ナビもメールも電話もやはり無理--タッチパネルより物理ボタンがいいという調査結果 - jeyseni's diary (hatenablog.com) (2024/3/20) ・Organic Maps:オフラインマップOsmAndの対抗馬--地図がシンプルで広告なしと海外でも高評価 - jeyseni's diary (hatenablog.com) (2024/5/21) ・個人的にはカーナビ推し--ディスプレイオーディオにちょっと失望【追記】 - je…