人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。
「自動車産業はタッチパネル採用をやめて物理ボタンに戻すべき」と自動車安全評価システムのEuro NCAPが提言 - ライブドアニュース (livedoor.com)。タッチパネル操作は物理ボタンの4倍時間がかかる,という調査報告が出たというものである。 スマホなら,歩きながらでも立ち止まってでも操作できる。多少,操作にもたついても,画面を見ながらでも反応を確認できる。しかし,クルマの中では操作パネルの画面をじっくり見ることもできず,どこを押せばいいかという確認もできず,タッチパネルだと押しても反応したかどうかがわかりにくい。 物理ボタンがあると,手探りでもボタンの位置が分かるし,押した感覚も分…
人工知能(AI)の技術が進化するなかで、機械翻訳の精度も向上しつつあります。そうした文字ベースの言語変換は実用に耐えうるようになってきた一方で、音声ベースの変換はまだまだ難しいという認識がありました。特に生身の人間は必ずしも明瞭な発話をするわけではないので、そうした曖昧さを含んだ音声の認識にはまだまだ困難が伴うのではないかと。またその発話された音声の内容には明確に含まれていない背景知識や暗黙知みたいなものまで織り込んで別の言語で発話を紡ぎ出すのもかなり困難ではないかと想像していたわけです。ただ、昨年あたりからChatGPTに代表されるAIの技術が格段の進歩を遂げ、音声通訳の精度も急激に上がって…
フォルクスワーゲンは「なぜ生成AIであるChatGPTを車両に実装したのか?」を開発責任者ハインリッヒ氏に聞いてみた (msn.com)(2024/1/19)。クルマの中では,カーナビの操作や電話のやり取り,メールの送受信など,さまざまな操作を音声でやり取りすべきである。スマホの操作などもってのほかだし,スマホなどの画面を見ることも,本質的にはすべきではない。 しかし,現在の音声認識技術で操作できることは限られている。カーナビソフトで行き先を入力する操作をカーナビとのやり取りで操作できる。電話が掛かってきたら,ハンズフリー設定にしておけば無条件で接続するようにできる。 ところがメールのやり取り…
↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文…
先日読んだ本が全ブロガーにとって有益だと思ったのでシェアします。
はじめに ういっすういっすういっすー!✌️ ぱー🖐 nikkieです。 過去にWhisperを触りましたが このたびtransformersライブラリから簡単にWhisperを利用できることを知りました。 目次 はじめに 目次 動作環境 transformersで簡単にWhisperを利用 コード例はopenai/whisper-baseから 落ち穂拾い 終わりに P.S. Whisper Distilled 動作環境 macOS(M1 Mac) CPU環境 Python 3.10.9 ffmpeg version 6.0 brew install ffmpegしました transformer…
はじめに はじめまして。AmiVoice APIインフラチームメンバーDです。 本記事では、Microsoft EdgeとGoogle ChromeからAmiVoice APIを実行するWebページのサンプルとその作り方を紹介します。 対象 これからAmiVoice APIを試してみようとしている初心者やノンプログラマー。 できること 音声や動画ファイル(WAV(16bit リニアPCM)、MP3、FLAC、Ogg Opus、MP4(AAC)、WebM(Opus))の音声認識。 マイクまたはシステム音の音声認識。 話者ダイアライゼーションと感情解析。 音声認識の結果を使ったWebVTT形式の字…
以前書いた、音声認識のGitHub Pagesについての話題です。 データ復元、削除機能を追加したついでに、使い方を説明しておきます。 marukot-ch.hatenablog.com サイトはこれです(Google Analyticsがいれてあります/苦手な人注意)。 tetsuya-ki.github.io 改善点について 使い方について Start Linstening/Stop Listeningボタン Discrod投稿しない/Discord投稿中ボタン データ復元ボタン データ削除ボタン 認識言語リスト 音声継続トグルボタン 結果編集トグルボタン 名前〜bot_avator_ur…
面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリを…
まえおき これは自己満記事になります。 2024/04時点の私の仕事兼、3DVTuber配信環境を紹介したものになります。 コスパ重視なのでとにかく削れるところを削って、必要なところを追加で後から積んでるのでもしかすると参考になるかも(?) 案外こんなのでも3DV動かしながらゲームできるんだと思って頂ければ嬉しく思います。 私はFPSをやらないし、仕事兼用の環境なので参考にならなかったらごめんね。 Amazonのリンクを張っていますが、アフィリエイト等はやっておりませんのでクリックや購入しても私に一銭も入ってきません。 安心してください。 気になったら型番で調べてみてくださいね! はてブの無料…
登場人物 える:筆者。三歳児検診にて言語の遅れから自閉症と診断。その後高専1年の頃にADHDとの診断をもらう インチュニブ(1mg):落ち着きを取り戻すADHD用の薬。塩野義製薬が製造している インチュニブ(3mg):上の増量版 日記 今日はだるくてブログの執筆や 数学 さえもまともにできていない状況であるため 、今日のこの執筆は 音声認識を用いて行っているが、先生をディスる内容が何故か多くなってしまった 今日は久しぶりのメンタルクリニックの日であったので、薬について話し合うことになったが、とりあえず インチュニブ3mg分飲もうということになった。ただ、以前私が3mgの錠剤を 飲んだ時はそれが…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1048 【ブラック・スワン】(2010年作品) 今回はチラシとパンフレットです。 《解説》 純白の野心は、 やがて漆黒の狂気に 変わる… チャイコフスキーの流麗な旋律に彩られ幻想的な世界が繰り広げられる【白鳥の湖】。このあまりにも有名なバレエの演目をモチーフに想像を絶する衝撃的な映画が誕生した。主人公ニナは《白鳥》にふさわしい可憐なバレリーナ。しかしプリマの座を射止めるには魔性に染まった《黒鳥》にもなりきらねばならない。バレリーナの試練と孤独…ライバルへの嫉妬や憧れを極限のレベルの心…
トヨタが、新型電気自動車SUV「bZ2X」の発売を予定しています。 新世代主力モデルとなるトヨタ新型bZ2Xについて、スペックや価格などを最新情報からご紹介します。
福岡大学では、2024年4月に障がいのある学生の相談窓口として、「障がい学生支援センター」を新設しました。 4月9日(火)には、特定非営利活動法人障がい者相互支援センターMCPの本田いずみさんを講師としてお招きし、「情報保障講習会~音声認識アプリの活用&ポイントテイク」を開催し、学生6人、教職員1人が参加しました。 本講座前半では、「障がい理解」について、動画でサイレントワールド(聞こえない状態)を体感するなど、障がいの特徴や基本的な手話の使い方について詳しく学びました。また、UDトーク(音声認識と自動翻訳ソフト)アプリを使って、実際にグループトークを行いながら操作方法も習得しました。 UDト…
こんにちは。前回、自宅でできる副業、在宅ワークを始めるための「基本的なステップとアドバイス」について簡単にお話ししました。今回は、あなたが在宅ワークに適した職種を見つけるために、いくつかの職種をご紹介しますね。 在宅ワークに適した職種15例 1.ライティング あなたが文章を書くのが好きで、思考を言葉にするのが得意なら、ライティングの仕事がおすすめです。記事作成、ブログ投稿、広告のコピーライティングなど、様々な形でライティングスキルを活用できます。特に、SEOライティングのスキルを持っていると、ウェブサイトのアクセス数を増やすための記事作成の依頼が増えて有利です。 2.デザイン デザインを考える…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1047 【ノッキン・オン・ヘブンズ・ドア】(1997年作品) 今回はチラシとパンフレットです。 《解説》 天国では皆が話す。 海のこと。 夕陽のこと。 あのバカでかい火の玉を 眺めているだけで素晴らしい。 海と溶け合うんだ。 ろうそくの光のように 一つだけが残る。 心のなかに… 【バンデッツ】【ラン・ローラ・ラン】【カスケーダー】など近年日本での公開が相次ぐドイツ、ポスト・ニュー・ジャーマン・シネマ。その中でも映画【ノッキン・オン・ヘブンズ・ドア】は、その年のドイツ映画動員数1位を記…
AI(人工知能)発展の変化とは? AI(人工知能)技術の発展により、私たちの仕事環境は大きく変化しました。日々の業務を効率化し、生産性を向上させるために、さまざまなAIツールが開発されています。ここでは、社会人が仕事で活用できるAIツールについて、その効果的な活用方法や利点について考察してみましょう。 1. AIツールの活用範囲の拡大 近年、AI技術の進化により、様々な業界でAIツールの活用範囲が拡大しています。例えば、自然言語処理(NLP)を活用したチャットボットや音声認識技術を利用した仕事効率化ツールなどがあります。これらのツールは、日常業務の多くを自動化し、社会人の負担を軽減することがで…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1046 【パルプ・フィクション】(1994年作品) 今回はチラシとパンフレットです。 《解説》 クエンティン・タランティーノ監督 時代にとどめをさす。 《パルプ》とは'30年代にアメリカで流行した低級犯罪小説を意味する言葉…映画は三文雑誌のように3つの物語が交錯してクライマックスまで突っ走る―― 【1】たった一晩ボスの妻のお供を命ぜられたギャングのビンセント・ベガがクラブで夜遊び。いいムードになった矢先にドラッグのやり過ぎで倒れた妻のミア・ウォレス―― 【2】マフィアのボスから八百長…
トヨタが、新型電気自動車SUV「bZ5X」の発売を予定しています。 新世代主力モデルとなるトヨタ新型bZ5Xについて、スペックや価格などを最新情報からご紹介します。
ディープラーニングは、機械学習の一分野であり、複雑な問題を解決するために使用される強力な手法です。以下に詳しく説明します。 ディープラーニングの基本ディープラーニングは、人工ニューラルネットワークを使用して学習を行います。ニューラルネットワークは人間の脳の仕組みを模して設計された機械学習モデルで、多層の処理層から構成されています。各層は入力データを分析し、特徴を抽出していきます。この多層構造により、ディープラーニングは複雑な問題に対して優れた性能を発揮します。 ディープラーニングの特徴ディープラーニングの大きな特徴は、大量のデータを自動的に学習し、高度な特徴を抽出できることです。従来の機械学習…
こんばんは、ジェミニです。ダイハツ・ミラトコットは、オヤジと共用だったんですけど、2024/03に免許返納をしたのです。任意保険とかをわたくし名義に変更しました。ETCカードもわたくしの名義にしようと入会しました。オヤジのETCカードの解約をPCからとアプリからこころみたんですけど、うまく解約までたどり着きません。メアドとカード番号、パスワードをいっぱい入力し疲れ果ててしまいます。TEL番号を調べたらヒットしました。電話でカスタマーサポートに問い合わせAI音声認識、プッシュ番号押下で解約できました。疲れました。30Minくらい格闘したのでした。ーーーーーーーーー百均行って防水スプレー買いました…
自分タイピングで文字起こしをする職業は無くなりますか?なくなるとしたら何年後?Copilotタイピングで文字起こしをする職業は、現在でも需要がありますが、将来的にはいくつかの要因により変化する可能性があります。以下に詳細を説明します。 自動音声認識技術の進歩:自動音声認識技術は進化しており、音声をテキストに変換する能力が向上しています。これにより、一部の文字起こしの仕事は自動化される可能性があります。ただし、特定の専門的な分野や難解な音声データの場合、人間の文字起こしライターが依然として必要とされるでしょう。需要の変化:メディア、法律、医療、研究などの分野では、音声データを正確に文字に起こすス…
Libre Office Writerを起動し、新規作成をクリック。 キー + Hキーを同時押しで音声認識サービスが表示されます。 ←マイクボタンをクリックします。 ※マイクか?マイクの有るヘッドセットをPCに接続している必要がありますよ! 問題なく音声入力できますね。 このブログの記事も音声で作成できるか?試してみます。 ↓声で入力。 音声入力できるかな? おーできた。 この下はタイピングです。 タイピングが苦手な方にお奨めですね(^▽^)/ てか、使い方をマスターすれば話す速度で入力できるので タイピングより絶対早いですよΣ(・□・;) 補足します。 Windows 11で音声入力を使用し…
AI(人工知能) AI(人工知能)とは、人間の知的な行動や思考プロセスをコンピューターやロボットに再現させる技術や研究分野のことを指します。AIは、機械学習、ディープラーニング、自然言語処理、コンピュータービジョンなどの手法を用いて、人間のように学習、推論、問題解決ができるようにすることを目的としています。 AIの主な特徴は以下の通りです: 学習能力:AIは、大量のデータを分析し、パターンや規則性を見つけ出すことで、自ら学習することができます。 適応能力:AIは、新しい環境や状況に適応し、それに合わせて行動を調整することができます。 推論能力:AIは、与えられた情報から論理的な結論を導き出すこ…