人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
現在使っているカーナビは,2014年版DVDを最後に更新されない地図を使っている。最初に導入したナビで,地図が見やすいのが一番の理由なのだが,画面サイズは7インチ。その他,音声操作も何もできない。しかし,1dinサイズで,インダッシュでモニターを収納できるというスグレモノである。 もう1dinには最初FM/AM,CDドライブを装着していたが,やがて振動が原因で動かなくなった。その代替として,SDカードで音楽を流せるFM/AM/SD/Bluetoothの音楽プレーヤーを取り付けていた。スマホともBluetoothでつながり,スマホ側で音楽を流すこともできた。 この音楽プレーヤーが突然,動かなくな…
iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。
「自動車産業はタッチパネル採用をやめて物理ボタンに戻すべき」と自動車安全評価システムのEuro NCAPが提言 - ライブドアニュース (livedoor.com)。タッチパネル操作は物理ボタンの4倍時間がかかる,という調査報告が出たというものである。 スマホなら,歩きながらでも立ち止まってでも操作できる。多少,操作にもたついても,画面を見ながらでも反応を確認できる。しかし,クルマの中では操作パネルの画面をじっくり見ることもできず,どこを押せばいいかという確認もできず,タッチパネルだと押しても反応したかどうかがわかりにくい。 物理ボタンがあると,手探りでもボタンの位置が分かるし,押した感覚も分…
人工知能(AI)の技術が進化するなかで、機械翻訳の精度も向上しつつあります。そうした文字ベースの言語変換は実用に耐えうるようになってきた一方で、音声ベースの変換はまだまだ難しいという認識がありました。特に生身の人間は必ずしも明瞭な発話をするわけではないので、そうした曖昧さを含んだ音声の認識にはまだまだ困難が伴うのではないかと。またその発話された音声の内容には明確に含まれていない背景知識や暗黙知みたいなものまで織り込んで別の言語で発話を紡ぎ出すのもかなり困難ではないかと想像していたわけです。ただ、昨年あたりからChatGPTに代表されるAIの技術が格段の進歩を遂げ、音声通訳の精度も急激に上がって…
フォルクスワーゲンは「なぜ生成AIであるChatGPTを車両に実装したのか?」を開発責任者ハインリッヒ氏に聞いてみた (msn.com)(2024/1/19)。クルマの中では,カーナビの操作や電話のやり取り,メールの送受信など,さまざまな操作を音声でやり取りすべきである。スマホの操作などもってのほかだし,スマホなどの画面を見ることも,本質的にはすべきではない。 しかし,現在の音声認識技術で操作できることは限られている。カーナビソフトで行き先を入力する操作をカーナビとのやり取りで操作できる。電話が掛かってきたら,ハンズフリー設定にしておけば無条件で接続するようにできる。 ところがメールのやり取り…
↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文…
先日読んだ本が全ブロガーにとって有益だと思ったのでシェアします。
はじめに ういっすういっすういっすー!✌️ ぱー🖐 nikkieです。 過去にWhisperを触りましたが このたびtransformersライブラリから簡単にWhisperを利用できることを知りました。 目次 はじめに 目次 動作環境 transformersで簡単にWhisperを利用 コード例はopenai/whisper-baseから 落ち穂拾い 終わりに P.S. Whisper Distilled 動作環境 macOS(M1 Mac) CPU環境 Python 3.10.9 ffmpeg version 6.0 brew install ffmpegしました transformer…
はじめに はじめまして。AmiVoice APIインフラチームメンバーDです。 本記事では、Microsoft EdgeとGoogle ChromeからAmiVoice APIを実行するWebページのサンプルとその作り方を紹介します。 対象 これからAmiVoice APIを試してみようとしている初心者やノンプログラマー。 できること 音声や動画ファイル(WAV(16bit リニアPCM)、MP3、FLAC、Ogg Opus、MP4(AAC)、WebM(Opus))の音声認識。 マイクまたはシステム音の音声認識。 話者ダイアライゼーションと感情解析。 音声認識の結果を使ったWebVTT形式の字…
以前書いた、音声認識のGitHub Pagesについての話題です。 データ復元、削除機能を追加したついでに、使い方を説明しておきます。 marukot-ch.hatenablog.com サイトはこれです(Google Analyticsがいれてあります/苦手な人注意)。 tetsuya-ki.github.io 改善点について 使い方について Start Linstening/Stop Listeningボタン Discrod投稿しない/Discord投稿中ボタン データ復元ボタン データ削除ボタン 認識言語リスト 音声継続トグルボタン 結果編集トグルボタン 名前〜bot_avator_ur…
※この記事は広告を含みます にゃんこたんです 便利な世の中になりましたね 先日、家中のリモコンや鍵をスマホでできるというグッズを知りました また、時短家電の情報にもふれる機会がありました 時短家電には、食洗機や自動掃除機、高性能の電子レンジなどと様々あります これら一切持っていません 何度か購入を考えたことはあるのですが、向き不向きはあるようです 結局は購入には至らなかったのですnyankotanturezure.hatenablog.com 時短家電を使いこなせるなら、無駄を省いて自己投資になるというのですが… 段差の多い床などでは、自動掃除機が活躍しにくいでしょう 食洗機も置き場所に悩みま…
こんにちは!子育てや家事で忙しいあなたでも、家にいながら手軽に英語を学べる方法があるんですよ。 そう、それがオンライン英会話。 今回は、特に主婦の皆さんにピッタリのオンライン英会話の選び方から、学習環境の整え方、さらには英語学習を通じて得られる素敵な未来までをご紹介します。 これを読めば、あなたも英語での新しいコミュニケーションが楽しみになるはずです! 主婦に最適なオンライン英会話の選び方 主婦におすすめのオンライン英会話 オンライン英会話は数多く存在し、どれを選べばいいか迷ってしまう方も多いでしょう。 主婦に最適なサービスを選ぶポイントは、何と言っても「柔軟なスケジュール」と「コストパフォー…
タイトル: 未来を彩る革新的なガジェットたち:2024年の最新トレンド イントロダクション:2024年、テクノロジーの進化は目覚ましいものがあります。革新的なガジェットが私たちの生活をさらに便利で楽しいものに変えています。今回は、その中から特に注目すべきガジェットをいくつか取り上げ、その魅力や使い方について紹介します。 1. スマートウォッチ「NexGen FitPro」健康管理に特化したNexGen FitProは、従来のスマートウォッチとは一線を画す存在です。高度なセンサー技術により、心拍数や睡眠の質、ストレスレベルなどをリアルタイムでモニタリングし、個別にカスタマイズされた健康アドバイス…
タイトル: 「未来を体感する10の革新的なガジェット」 イントロ:テクノロジーの進化は我々の日常生活に革新的な変化をもたらしています。この記事では、未来を体感する10の革新的なガジェットを紹介します。これらのガジェットは、我々の生活をより便利で快適なものにするだけでなく、時には驚きや喜びをもたらします。さあ、未来を垣間見る準備はできていますか? 1. ハイパーリアルなVRヘッドセット近年、仮想現実(VR)技術は驚異的な進化を遂げました。ハイパーリアルなVRヘッドセットは、まるで別世界にいるかのような没入感を提供します。最新のモデルは、より軽量で快適な設計と、リアルな視覚と音響体験を実現する高度…
タイトル: 「未来のキッチンを彩る5つの革新的なスマートガジェット」 近年、テクノロジーの進化は私たちの生活を大きく変えてきました。特にキッチンでは、スマートガジェットの導入により、料理の手間を省き、より効率的で楽しい料理体験を提供しています。ここでは、未来のキッチンを彩る5つの革新的なスマートガジェットを紹介します。 1. **スマート調理器具**: 伝統的な調理器具に革命をもたらすスマートテクノロジー。例えば、スマートな電子レンジや調理鍋は、Wi-Fi接続を介してスマートフォンと連携し、料理の進捗状況をリアルタイムで監視し、遠隔操作できます。これにより、外出中でも料理を管理でき、食事の準備…
タイトル: 未来の家庭を変える5つの革命的なスマートガジェット 近年、スマートガジェットの進化は我々の日常生活を根底から変えつつあります。今回は、未来の家庭において革命をもたらす5つの最新のスマートガジェットについて紹介します。 1. **スマートホームハブ**: スマートホームハブは、家庭内のさまざまなスマートデバイスを一元管理するための中枢です。これにより、スマートライト、セキュリティシステム、温度調節装置などを、一つのアプリや音声アシスタントで簡単に操作することができます。 2. **AI搭載家電**: 人工知能(AI)の発展により、家電製品はますますスマート化しています。例えば、AI搭…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1050 【フラッシュダンス】(1983年作品) 今回はチラシとパンフレットです。 《解説》 体の中から生命の泉がほとばしる 今…私は――― フラッシュダンス――それはフィーリング、愛、夢、涙、ときめき、そして自立。 フラッシュダンス――それは若くしなやかな肉体をプロのダンサーになるべく夢を見燃焼し続ける主人公アレックス・オウエンスの人生そのもの。いま彼女は踊りに夢に愛にフラッシュする―― 昼は荒くれ男たちと一緒に製鉄工場の溶接工として働き夜はステージバーのダンサーとして働き、いつかプ…
タイトル:「2024年最新ガジェットの魅力:未来を感じる5つの革新的デバイス」 イントロダクション:2024年に入り、テクノロジーの進化は驚くべき速さで進んでいます。この年も、私たちは未来を感じさせる革新的なガジェットに溢れています。今回は、その中から特に注目すべき5つのデバイスを紹介します。これらのデバイスは、私たちの生活をより便利で楽しいものにするだけでなく、未来への期待を高めるものです。 1. ハイパーリアリティVRゴーグルVR技術は、ますます魅力的な体験を提供していますが、2024年のハイパーリアリティVRゴーグルは、その次のステップを示しています。これらのゴーグルは、現実と仮想の境界…
タイトル:未来のワークアウト体験を変える革新的なフィットネスガジェット5選 近年、テクノロジーの進化により、フィットネス業界でも革新的なガジェットが登場しています。これらのガジェットは、トレーニングの効率性を向上させたり、モチベーションを高めたりするだけでなく、ユーザーにとって新しいワークアウト体験を提供しています。以下では、未来のワークアウト体験を変える革新的なフィットネスガジェット5選を紹介します。 1. **VRフィットネスヘッドセット:**VRフィットネスヘッドセットは、リアルな仮想空間を通じてユーザーを刺激し、より楽しく効果的なワークアウトを提供します。これらのヘッドセットは、バーチ…
トヨタが、新型電気自動車SUV「bZ3X」を発表しました。 新世代パワートレインを搭載するトヨタ新型bZ3Xについて、スペックや価格などを最新情報からご紹介します。
トヨタが、新型電気自動車SUV「bZ3C」を発表しました。 新世代パワートレインを搭載するトヨタ新型bZ3Cについて、スペックや価格などを最新情報からご紹介します。
初心者向け簡単テクノロジー解説: 日常で役立つテクノロジーチップス テクノロジーは私たちの生活に欠かせないものですが、多くの人にとってその複雑さは大きな障壁です。この記事では、初心者でも理解しやすい簡単なテクノロジー解説を行い、日常生活で役立つテクノロジーチップスを提供します。 目次 スマートフォンを賢く使う方法 家庭でのテクノロジー活用法 オンラインセキュリティの基本 スマートフォンを賢く使う方法 スマートフォンは多機能ながら、その全てを活用している人は少ないです。基本的な設定変更やアプリの活用方法を覚えることで、より便利に、そして効率的に使用することができます。 バッテリー長持ちテクニック…
トヨタが、SUVの新モデルとなる「ランドクルーザーFJ」の発売を予定しています。 新世代技術により性能を伸ばす新型ランドクルーザーFJについて、スペックや価格などを最新情報からご紹介します。
DNP対話支援システムの利用イメージ 大日本印刷(DNP)は23日、窓口業務などでの対話の音声をリアルタイムで文字に変換し、目立たせたい単語をフォントで強調して透明スクリーンに表示する「DNP対話支援システム」を同日発売したと発表した。聴覚障がい者や高齢者など、音声を聞き取ることが困難な人や訪日外国人との円滑なコミュニケーションを支援する。価格は利用環境や設置数などに応じて見積もる。関連サービスも含め、2028年度までに10億円の売り上げを目指す。 DNP対話支援システムは、感情や話題に合わせたフォントに自動で切り替える「DNP感情表現フォントシステム」と、会話をリアルタイムで文字化・翻訳する…