人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
👤 登場人物紹介 / Profiles ✨ 👴 White翁 (ホワイト翁): 元コンピューターエンジニア。ベランベエ口調の江戸っ子気質で、ズボラに見えてセキュリティには超絶厳しい。「ユリーカ!」が口癖。 Former computer engineer. An "Edokko" (true Tokyoite) with a rough but warm way of speaking. Lazy at times, but extremely strict about security. His catchphrase is "Eureka!" 👧 Jamie (ジェミー): 大学卒業したて…
ちょっとこれ見てください🤗 ボイスコントロールライト(うさぎ) - 100均 通販 ダイソーネットストア【公式】 見つけた瞬間「え、マジ?」ってなった ダイソーをぶらぶらしてたら、こんな商品を発見🤩 「ボイスコントロールライト(うさぎ)」、お値段330円。 USBに差すだけのルームライトなんだけど、なんとこれ、声で操作できるんです。まさかの330円!正直やばくない?
✅この記事では、AppleがイスラエルのAIスタートアップ「Q.ai」を買収した話を、「何ができる会社なのか」と「Apple製品の入力体験がどう変わり得るか」に絞って押さえます。声を出さない“静かな入力”が本気で現実になりそうで、ちょっとワクワクするやつです。 要点まとめ:Appleは“声の次”を取りにきた 何が起きた?Q.ai買収の事実関係 Q.aiの核:声を出さずに伝える「サイレント・ボイス」 なぜ今、20億ドル?Appleの“入力インターフェース戦争” どこに入る?AirPods・Watch・Vision Proに刺さる理由 “PrimeSenseの再来”が意味するもの Redditの反…
クルマにデジタルの小型速度計を付けた(GPSスピードメーターを導入--この低価格でGPS搭載の驚き - jeyseni's diary 2026/1/18)。付けてみると,とても便利だった。加速時に,目標の速度に近づいたことを少し手前で把握してアクセルを緩め,目標速度でスムーズに一定速度運転に入れるからである。アナログの速度計だと,ほぼ感覚任せだったのが,オーバーシュートなしに安全に加速できる。速度を一定間隔(10秒ごと)で音声で読み上げるMacrodroidスクリプトも便利だが,加速時には目標速度をオーバーする可能性がある。取り締まり対策にはGPSスピードメーターの方が適している。 さて,筆…
来週届く予定の4K液晶テレビ(TCL 43V6C) お値段、驚愕の39900円。 テレビ本体だけなら、すでに手元に届いてたんですが 前機の引き取りオプション(=550円)を付加したら 最短でも配送が一週間後になってしまいました。 👨私でもセットアップ出来ると思っていますが どん臭くて不器用な👨私の事を 👩妻はかなり心配しています・・・ このTCL 43V6Cというテレビ~ 非常にざっくり言うと 普通のテレビと言うよりは スマートTV(=Google TV)に 地デジの機能が付いてるって感じ。 私たち👨👩初老夫婦の視聴実態は 地デジ:動画配信=8:2と真逆なので このテレビには相応しくない視聴者…
faster-whisperでの音声認識をうまく使うのはなかなか苦労していたところ、見かけたXポストが気になったので自分で実装します。 large-v3-turboで、実装はこんな感じです!同じ単語が突然繰り返されるハルシネーションにかなり悩みましたが、stable-tsを入れてVADとcondition_on_previous_text=Falseとword_timestampsを使わないことでようやく解決しました。 pic.twitter.com/dnPIUBTpnQ — きりまじろ☕ (@kirimajiro) 2025年12月22日 このポストで知ったstable-tsはOpenAIの…
授業記録アプリ「授録(じゅろく)」を公開 https://kaihatuiinkai.jp/juroku/ 授業記録をしていますか? ビデオで撮影して、文字起こしをして振り返るのは時間がかかりますよね。 このアプリ「授録(じゅろく)」は、音声認識でテキストにし、発話タイミングで写真撮影を行い、並べて表示します。「2つのカメラ」を使うと、授業者の発話記録と授業者(板書)、児童生徒の写真の3つを同時に並べて表示します。 ブラウザの音声認識機能で発話をテキストに文字起こしをします。ブラウザの無料の機能を活用しているので変換ミスもあります。だいたい70~80%ぐらいの正確さでテキストに変換します。逆に…
この記事は面白法人グループAdvent Calendar 202510日目の記事です。 こんにちは。 カヤックボンドでエンジニアをやっております青木です! 今回は、Unity + Windows環境で利用できる音声認識 UnityEngine.Windows.Speech で行うキーワード認識について、基本的な使用方法と複数単語をテンポ良く認識させる方法を記事化してみました! 目次 はじめに UnityEngine.Windows.Speech 3つの認識方式 最も簡単に使えるKeywordRecognizerとその欠点 よりテンポ良く認識可能なGrammarRecognizer まとめ はじ…
スマホで文字起こし完全ガイド!Google無料活用法 スマートフォンが手元にあれば、いつでもどこでも簡単に音声をテキストに変換できる時代になりました。特に、Googleドキュメントの音声入力機能は、会議の議事録作成や講義のメモ取り、アイデアの記録など、様々な場面で活用できる非常に便利なツールです。 しかし、「設定方法がよくわからない」「思ったように認識してくれない」「どうすれば精度が上がるのか」といった悩みを抱えている方も多いのではないでしょうか。 本記事では、iPhoneとAndroid両方に対応したGoogleドキュメントでの文字起こし方法を、初心者でもわかりやすく解説します。さらに、音声…
メルセデス・ベンツの中古車を購入して早や半年。 音声アシスタントが利用できるので、できるだけ車と話をするようにしています。 MBUX(メルセデス・ベンツ・ユーザー・エクスペリエンス)の音声認識について、 私なりの使い方のコツを紹介します。