人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
「自動車産業はタッチパネル採用をやめて物理ボタンに戻すべき」と自動車安全評価システムのEuro NCAPが提言 - ライブドアニュース (livedoor.com)。タッチパネル操作は物理ボタンの4倍時間がかかる,という調査報告が出たというものである。 スマホなら,歩きながらでも立ち止まってでも操作できる。多少,操作にもたついても,画面を見ながらでも反応を確認できる。しかし,クルマの中では操作パネルの画面をじっくり見ることもできず,どこを押せばいいかという確認もできず,タッチパネルだと押しても反応したかどうかがわかりにくい。 物理ボタンがあると,手探りでもボタンの位置が分かるし,押した感覚も分…
人工知能(AI)の技術が進化するなかで、機械翻訳の精度も向上しつつあります。そうした文字ベースの言語変換は実用に耐えうるようになってきた一方で、音声ベースの変換はまだまだ難しいという認識がありました。特に生身の人間は必ずしも明瞭な発話をするわけではないので、そうした曖昧さを含んだ音声の認識にはまだまだ困難が伴うのではないかと。またその発話された音声の内容には明確に含まれていない背景知識や暗黙知みたいなものまで織り込んで別の言語で発話を紡ぎ出すのもかなり困難ではないかと想像していたわけです。ただ、昨年あたりからChatGPTに代表されるAIの技術が格段の進歩を遂げ、音声通訳の精度も急激に上がって…
フォルクスワーゲンは「なぜ生成AIであるChatGPTを車両に実装したのか?」を開発責任者ハインリッヒ氏に聞いてみた (msn.com)(2024/1/19)。クルマの中では,カーナビの操作や電話のやり取り,メールの送受信など,さまざまな操作を音声でやり取りすべきである。スマホの操作などもってのほかだし,スマホなどの画面を見ることも,本質的にはすべきではない。 しかし,現在の音声認識技術で操作できることは限られている。カーナビソフトで行き先を入力する操作をカーナビとのやり取りで操作できる。電話が掛かってきたら,ハンズフリー設定にしておけば無条件で接続するようにできる。 ところがメールのやり取り…
↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文…
先日読んだ本が全ブロガーにとって有益だと思ったのでシェアします。
はじめに ういっすういっすういっすー!✌️ ぱー🖐 nikkieです。 過去にWhisperを触りましたが このたびtransformersライブラリから簡単にWhisperを利用できることを知りました。 目次 はじめに 目次 動作環境 transformersで簡単にWhisperを利用 コード例はopenai/whisper-baseから 落ち穂拾い 終わりに P.S. Whisper Distilled 動作環境 macOS(M1 Mac) CPU環境 Python 3.10.9 ffmpeg version 6.0 brew install ffmpegしました transformer…
はじめに はじめまして。AmiVoice APIインフラチームメンバーDです。 本記事では、Microsoft EdgeとGoogle ChromeからAmiVoice APIを実行するWebページのサンプルとその作り方を紹介します。 対象 これからAmiVoice APIを試してみようとしている初心者やノンプログラマー。 できること 音声や動画ファイル(WAV(16bit リニアPCM)、MP3、FLAC、Ogg Opus、MP4(AAC)、WebM(Opus))の音声認識。 マイクまたはシステム音の音声認識。 話者ダイアライゼーションと感情解析。 音声認識の結果を使ったWebVTT形式の字…
以前書いた、音声認識のGitHub Pagesについての話題です。 データ復元、削除機能を追加したついでに、使い方を説明しておきます。 marukot-ch.hatenablog.com サイトはこれです(Google Analyticsがいれてあります/苦手な人注意)。 tetsuya-ki.github.io 改善点について 使い方について Start Linstening/Stop Listeningボタン Discrod投稿しない/Discord投稿中ボタン データ復元ボタン データ削除ボタン 認識言語リスト 音声継続トグルボタン 結果編集トグルボタン 名前〜bot_avator_ur…
面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリを…
ととのい侍 こんにちは!営業社員の「ととのい侍」です。 今回はAmiVoice APIの音声入力用音響モデルを採用したエンジン(以下「音声入力用エンジン」という。)や会話入力用音響モデルを採用したエンジン(以下「会話用エンジン」という。)の特徴とそれぞれの合致する利用シーンなどについて解説していきます。 音声入力用エンジンと会話用エンジンの違い まずは、音声認識の基本的な仕組みの説明から入ります。今回の記事では簡単に説明しますが、詳細が気になる方は以下の記事をご覧ください。 amivoice-tech.hatenablog.com弊社のハイブリッド型音声認識エンジンは「言語モデル」+「音響モデ…
介護ロボットとは、高齢者や介護者の生活をサポートするロボットのことです。介護ロボットは、介護現場での人手不足や負担軽減、高齢者の自立支援などに役立つと期待されていますが、導入には高額な費用や技術的な課題があります。この記事では、介護ロボットのランキングについて、現状の問題点や政府の取り組み、今後の展望などをわかりやすく解説します。 介護ロボットの現状の問題点 日本は世界でも有数の高齢化社会であり、介護の需要は年々増加しています。しかし、介護の供給は人手不足や高齢化によって減少しており、介護の質や効率の低下が問題となっています。そこで、介護ロボットの導入が期待されています。 介護ロボットは、移乗…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1024 【ペーパー・ムーン】(1973年作品) 今回はチラシとパンフレットです。 《解説》 信じあえば… 愛しあえば… 助けあえば… 紙のお月様だって ほら! 本物に見えるでしョ 愛しあうことの素晴らしさ、信じあうことの美しさ、助けあうことの力強さ―― きのう、もしあなたが《心の宝石》をどこかへ忘れてしまっているならば、これはとってもステキな物語――ある若い母親が自動車事故で死んだ。あとにはアディとう9つになる娘が残されていた。そして形ばかりの埋葬の場で聖書のセールスマンのモーゼは牧…
プロモーションを含みます。ATOTO A6 PFレビュー・優れた音質とスマート接続で選ぶ理由 車載エンターテインメントの革新的な選択肢であるATOTO A6 PFの卓越した音質、その多様な接続方法、そして最適な購入場所と価格比較について深く掘り下げていきます。また、「FAQ(よくある質問)」セクションもご用意しており、この製品に関する一般的な疑問に答えていく予定です。ATOTO A6 PFがなぜ多くのドライバーに選ばれるのか、その秘密を一緒に解き明かしていきましょう。 画像元 Atoto公式 :目次 ATOTO A6 PF音質について ATOTO A6 PF接続種類と接続方法 ATOTO A6…
「文字おこし」という副業は、音声をテキスト形式に変換する仕事を指します。 この分野では、会議の議事録、インタビューの内容、講義のノートなど、さまざまな形式の音声記録を文字情報に変換する技術が求められます。 近年、リモートワークやデジタルトランスフォーメーションの加速に伴い、文字おこしの需要が高まっています。 この仕事は、場所を選ばずにできることが多く、フレキシブルな勤務時間を持つことが可能であるため、副業として特に人気があります。 文字おこしの仕事は、音声を聞いて正確にテキスト化する単純な作業のように思われがちですが、実際には高度なリスニングスキル、迅速かつ正確なタイピング能力、優れた言語理解…
買って良かった popIn Aladdin 2 家で過ごす時間が多くなり、家の中を快適にしようとプロジェクタを買うことに。元々リーズナブルなプロジェクタを購入検討していましたが、最終的にポップイン アラジンを購入しました。10万円程度するので、購入する際はいささか勇気が必要でしたが、これが期待以上の品で、ポップイン アラジンなしの生活にはもう戻れません。個人的に大満足!10万円でもコレは買いでした。 ただ、まだアップデート途中のようなので足りない機能もあり、その辺りも含め、正直レビューします。popIn Aladdin 2 を6ヶ月使ったレビューをご紹介します。 popIn Aladdin 2…
普段は顔出しせずVの姿か適当に物を映して配信しているのですが、果たして「声すら出せない環境でもライブ配信ができるのか」 ちょっと試したくなったので、やってみたことをここにまとめます。 配信で使ったもの OBS Studio わんコメ VOICEBOX ゆかコネNEO vTool foober2000 それぞれどのように使ったのかは以下の通り OBS Studio obsproject.com パソコンでハイクオリティライブ配信を行うのに必需品。 わんコメ onecomme.com 配信画面にコメントを表示させたり読み上げたりするのに便利なツール。コメントが流れるだけで配信画面が賑やかになります…
一年ぶりにTEDxKumamoto 2019でお世話になったキャプテンとランランと再会! 忘れもしない2019年、TEDxKumamoto2019のスピーカーとして登壇の際ランランがコーチとして伴走者となりキャプテンには情報保障から会場運営までとてもお世話になりました。https://www.ted.com/talks/karin_matsuomori_with_sign_language お二人とも、軽井沢で初開催のTEDxKaruizawa(大雪)を終え東京経由で熊本に帰るまでの間の短い時間でしたがしっかりビールも飲んで堪能。2人との会話は音声認識アプリを使います。待ち合わせ場所の上野公園…
わたしは普段ブログにハンドメイドのことを書くことがほとんどですが、この頃の趣味のひとつが漫画「キングダム」をアマゾンプライムビデオで見ることです(*^^*) なので今日はキングダムについて書きたいと思います♬ キングダムとはどんな漫画? 物語の出だしは・・ 主人公、信の心意気が魅力 出てくる将軍たちがかっこいい! わくわくと言えば・・進撃の巨人も好きです。スリルがたまらない♬ 最後に キングダムとはどんな漫画? 中国古代の春秋戦国時代末期が舞台です。 戦国七雄の戦いが描かれています。 中華統一を目指す秦の始皇帝と、それを支える武将の信、そして様々な戦いのステージに出てくる将軍たちがとにかくかっ…
プロモーションを含みます ATOTO S8カーオーディオレビュー:究極のドライブ体験を実現自動車を運転する際の楽しみの一つは、好きな音楽を聴きながらのドライブです。そこで重要になってくるのがカーオーディオシステムです。ATOTO S8カーオーディオは、革新的な機能と優れた性能を兼ね備えた製品であり、運転体験を一段と向上させます。この記事では、ATOTO S8がなぜ最高の選択肢の一つなのか、その魅力を掘り下げていきます。 画像元リンク Atoto S8 高度な技術で優れた音質 ATOTO S8使いやすさを追求したデザイン Atoto S8 スマートな接続性 ATOTO S8 デメリット まとめ …
あなたはこんな経験はありませんか?「とりあえずオンライン英会話を始めてみたけど、先生の英語が理解できなくてヤバい...」「英語ほんとに速すぎてまったく聞きとれない」あなたのその気持ちすごくわかります。僕もリスニングがほんとに苦手だったころは同じように英語が速すぎて意味不明って感じでした。また聞き取れるようになるためにたくさんのリスニング勉強本を買って試しましたが、全然聞きとれるようにはなりませんでした。全然聞き取れないせいで会話もろくに成り立っていませんでした。あなたも今のまま続けてたら、僕のようにお金や時間をムダにしたり1年後「せっかく継続したのに全然英語が聞き取れるようになってない」なんて…
BMWが、ブランドのエントリーモデル「1シリーズ」のマイナーチェンジ発売を予定しています。 改良により魅力をアップする新型1シリーズについて、スペックや価格などを最新情報からご紹介します。
書籍「機械学習エンジニアのためのTransformers」を読んだので内容をまとめる。 以下の内容は、ほとんどClaude3 Opusを使用して作成している。 第1章 入門Transformers いる。さらに、Transformer系モデルのGPTとBERTが紹介され、自然言語処理の分類、固有表現認識、質問応答などのタスクにおいて、TransformersライブラリがTransformerモデルを簡単に適用できることが示されている。最後にはHugging Faceのエコシステムが概観されている。 重要なポイント Transformerはエンコーダ・デコーダのフレームワーク、アテンション機構、…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1021 【テルマ&ルイーズ】(1991年作品) 今回はチラシとパンフレットと前売り券です。 《前売り券》 《解説》 男たちよホールド・アップ! 平凡な専業主婦のテルマとコーヒー・ショップのウェイトレスルイーズ。親友である2人の女性が週末の旅の途中で遭遇した偶発的事件をきっかけに鮮やかに自己を開放していく過程を描いたこの作品は今の時代に生まれるべくして登場した斬新な《女だけのロード・ムービー》である。 監督は【エイリアン】【ブレードランナー】【ブラック・レイン】と、常に時代の先端をいく…
piAId = '1009922'; piCId = '271552'; piHostname = 'pi.pardot.com'; (function() { function async_load(){ var s = document.createElement('script'); s.type = 'text/javascript'; s.src = ('https:' == document.location.protocol ? 'https://pi' : 'http://cdn') + '.pardot.com/pd.js'; var c = document.getElem…
CLOVA Note LINEのAIテクノロジーブランドであるLINE CLOVAが開発する文字起こしアプリ。 AI音声認識アプリが録音から文字起こしを行います。必要な会話を文字で見る音声記録。 上記アプリを使って名奈との1時間強にわたる会話を文字に起こした。 他にも文字起こしアプリはあるが料金が高い。このアプリは無料なのが魅力だ。iphoneで音声ファイルを読み込むだけでしっかりと読み取るAI能力があるので、少しの修正で完成した。 この会話は父が突然の脳梗塞で入院し退院する前日の朝の会話だった。 父を退院させてもいいのかを妹たちの承諾をもらってからでないと、私の一存では決められなかった。 本…