音声認識

このタグでブログを書く

音声認識

(コンピュータ)

【おんせいにんしき】

人間が喋った声を機械が文字に直すこと。

ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。

音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。

パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

uepon日々の備忘録•3ヶ月前

Whisperの文字起こし結果の検証に！タイムコード表示付き字幕の再生ツール開発

音声認識を行っていると、音声と認識された文字起こしデータを比較することが多いと思います。実際はあっている・あっていないは、開発側ではなく別の方に調べてもらうほうが良いのですが、最低限の確認をする必要はあると思います。他にも音声認識の結果が誤っている場合、音声側を聞き修正を行うことも多々あると思います。そこで今回はそのようなときにどのように行うかと調べてみました。今回はVLCを使った場合確認方法とその限界を説明し、そのあと自作の確認ツールについて説明を行っています。この自作ツールはWSL上でも問題なく動作します。前提として、Whisperなどによる文字起こし結果はテキストだけでなく、タイムコ…

#音声認識#文字起こし#Python

ネットで話題

752ブックマーク【iOS 5】できることがこんなに！ iPhoneの音声認識「Siri」でできる事の一覧 - 拡張現実ライフ記事内に広告を含む場合があります。記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。 Photo by planetc1 こんばんは、@akio0911です。個別銘柄のPERや時価総額を聞けたり、すべてのアラームを一言で削除したりできる日本語版Siriで使えるコマンドを調べて一覧にまとめて...

akio0911.net

639ブックマーク MIT、“頭の中でしゃべる”だけで音声認識できるシステム「AlterEgo」

pc.watch.impress.co.jp

512ブックマーク大語彙連続音声認識システムJulius

julius.osdn.jp

459ブックマーク Amazonの音声認識「Alexa」は世界のIoTを席巻し「スマートフォンの次」のプラットフォームの覇者となりつつある

gigazine.net

446ブックマーク自宅IoTのため家にある電子機器をRaspberry Pi+Homebridge使ってSiriの音声認識で繋ぎまくってみた - karaage. [からあげ]

karaage.hatenadiary.jp

446ブックマーク超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

prtimes.jp

416ブックマーク Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

togetter.com

320ブックマーク超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

gigazine.net

180ブックマーク培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

gigazine.net

関連ブログ

hachikou-furusato’s diary•3ヶ月前

ウィキペディアで「クレオパトラを表示」が突然表示されるのは何故か

あなたは、普段何気なく利用しているウィキペディアや音声アシスタントで、突然「クレオパトラ」のページが表示され、驚いたり戸惑ったりした経験はありませんか。操作中に予期せぬ表示が現れると、どうしてこうなるのか疑問に思い、不安になることもあるでしょう。実は、この現象には音声認識のちょっとした誤作動やシステム設定の影響が関係しており、古代エジプトの女王クレオパトラという歴史上の象徴的存在が、現代技術と不思議にリンクしているのです。この記事では、そんな現象の背景や仕組みを、歴史的なエピソードやユーザーの体験談を交えながら、初心者でもわかりやすい言葉で解説しています。あなたの疑問や不安を共感しなが…

#ウィキペディア#クレオパトラ#音声認識#Googleアシスタント

佐藤百貨店•7ヶ月前

発話区間検出ライブラリSilero VADを使ってみた

音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。中でもSilero VADは精度が高いらしいけど、・ストリーミングで発話区間を検出して・ソースコードがコンパクトで・全体の音声データをWAV形式で保存して・発話部分だけを切り出して、これもWAV形式で保存して・発話ごとのラベル情報を記録してといったサンプルが見つからなかったので、自分で作ってみました。もちろん、…

#VAD#音声認識

エキサイト TechBlog.•7ヶ月前

OpenAI Whisperとpyannote.audioで自動音声認識・話者分離して、文字起こししてみた！

こんにちは！エキサイト株式会社、SaaS・DX事業部エンジニアの岩田史門です！エキサイトHDアドベントカレンダー7日目を担当させていただきます! はじめに自動音声認識 (ASR: Automatic Speech Recognition) と話者分離 (SD: Speaker Diarization) は、カスタマーサポート、自動議事録作成、音声インタフェースの改善など、さまざまな分野で活用されています。現在開発に携わっている、FanGrowthというプロダクトでも、ウェビナーレポートという機能で活用しています！ www.fangrowth.biz 本記事では、OpenAIのWhispe…

#音声認識#話者ダイアライゼーション#AI#Python

torazaemon2016’s blog•8ヶ月前

音声&手書き文字認識メモ (Ver.2) 手書きでひらがなを書いてかな漢字変換・再変換も可能

漢字が書けなくても、ひらがなで書いて変換。音声認識が誤変換しても、あとから再変換。しゃべったことがどんどん文字になっていく音声認識メモに、手書き文字認識機能も追加しました。 apps.microsoft.com torazaemon2016.hatenablog.jp 認識された文字を「TextBox」にハイライトで表示していますが、このことで、MS IME をONにして、SPACEキーで変換すると、かな漢字変換が可能になっています。ひらがなを書いて、ひらがなを文字認識ハイライト状態でSPACEキーを押してかな漢字変換また、音声認識した結果の文字列も、誤変換により漢字が違っていた場…

#音声認識#手書き文字認識#ペン#マイク#メモ帳

torazaemon2016’s blog•9ヶ月前

音声認識メモ Ver.2

音声&手書き文字認識メモ (Ver.2) しゃべったことがどんどん文字になっていくメモ(簡易エディタ)アプリに手書き文字認識機能も追加しました。 apps.microsoft.com 日本語向けの機能として、簡便な句読点処理が組み込まれており、自動で句点を付けたり、句読点ごとに改行するなどが可能です。音声認識画面にペンによって手書きした文字を認識してテキストにする機能もあります。手書き文字認識左右矢印キー、Delキーで編集したり、Spaceキー、Enterキーで確定させるなど、簡単に文を修正可能です。また、Windows10のPCでも動作可能です。注意点：音声認識エンジン関係 W…

#音声認識#手書き文字認識#ペン#マイク#メモ帳

sazaesansazaesan’s diary•9ヶ月前

日本語教育　論文紹介

日本語教育で参考になる研究者を紹介します。髙橋麻衣子 (Maiko Takahashi) - マイポータル - researchmap の人はなぜ音読をするのか音声と文字の認知を考えるうえで重要。小森和子 (Kazuko Komori) - MISC - researchmap 中国語話者の日本語学習を中心に。第一言語と第二言語における正書法深度の相違が第二言語としての日本語の単語認知と文章理解に及ぼす影響 | 学術機関リポジトリデータベースも参考になる。山本忠行 (Tadayuki Yamamoto) - マイポータル - researchmap 日本語教育や言語政策のあり…

#日本語教育#JSL#日本語教育能力検定試験#言語政策#表音文字#音声認識#認知心理学#第二言語習得#外国語教育

jeyseni's diary•9ヶ月前

聞き逃しアナウンスを「音声テキスト変換アプリ」でカバーしてみる--スマホでのモニタリング録音の代替措置として

歳を取ったのだろう，電車の車内放送を聞き逃すことがある。アナウンスの順番はいつも同じなので，注意していればいいはずなのだが，なぜかその車内放送だけはいつも肝心な情報を聞き漏らすのである。電車の中で筆者の気を引くものといえば，トレインチャンネルの情報である。テレビ世代なので，天井近くの画面で表示させる動画についつい目が行ってしまう。トレインチャンネルは音がない分，かなり集中してしまう。それで，車内放送の肝心な部分を聞き逃してしまうようである。そこで，Androidのボイスレコーダーアプリを使って，いつも聞き逃すタイミングの車内放送を録音することを考えた。 Windows PCなら，結構よく使…

#音声認識#ボイスレコーダーアプリ

skydum•1年前

オープンソース版Whisper.cppの利用

Whisper.app お盆で暇なので以前から個人的にやってみたいと思っていた音声認識をやってみた。 OpenAIのWhisperの認識精度が高いらしいので使ってみようかと思ったが、オープンソースのバージョンも有るというのを見つけたのでオープンソースの方で試してみた。利用するのはWhisper.cpp https://github.com/ggerganov/whisper.cpp Whisperの高速板らしい? 音声認識に利用するサンプルデータは以下のものを利用する。 https://pro-video.jp/voice/announce/ 使ってみた感じだとLargeモデルの精度は良いが…

#whisper.cpp#音声認識

jeyseni's diary•1年前

最終的にgoogle mapのナビに落ち着く--Wi-Fiタブレットでオフラインマップと音声操作が決め手【追記】

筆者のカーナビ更新への挑戦は，これまでも何回か紹介してきた。以下3話が2024年におこなった実験とその結果である。・クルマでのスマホは，ナビもメールも電話もやはり無理--タッチパネルより物理ボタンがいいという調査結果 - jeyseni's diary (hatenablog.com) （2024/3/20）・Organic Maps：オフラインマップOsmAndの対抗馬--地図がシンプルで広告なしと海外でも高評価 - jeyseni's diary (hatenablog.com) （2024/5/21）・個人的にはカーナビ推し--ディスプレイオーディオにちょっと失望【追記】 - je…

#カーナビ#オフラインマップ#音声認識

関連ブログ

Whisperの文字起こし結果の検証に！タイムコード表示付き字幕の再生ツール開発

ネットで話題

関連ブログ

ウィキペディアで「クレオパトラを表示」が突然表示されるのは何故か

発話区間検出ライブラリSilero VADを使ってみた

OpenAI Whisperとpyannote.audioで自動音声認識・話者分離して、文字起こししてみた！

音声&手書き文字認識メモ (Ver.2) 手書きでひらがなを書いてかな漢字変換・再変換も可能

音声認識メモ Ver.2

日本語教育 論文紹介

聞き逃しアナウンスを「音声テキスト変換アプリ」でカバーしてみる--スマホでのモニタリング録音の代替措置として

オープンソース版Whisper.cppの利用

最終的にgoogle mapのナビに落ち着く--Wi-Fiタブレットでオフラインマップと音声操作が決め手【追記】

日本語教育　論文紹介