人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
Whisper.app お盆で暇なので以前から個人的にやってみたいと思っていた音声認識をやってみた。 OpenAIのWhisperの認識精度が高いらしいので使ってみようかと思ったが、オープンソースのバージョンも有るというのを見つけたのでオープンソースの方で試してみた。 利用するのはWhisper.cpp https://github.com/ggerganov/whisper.cpp Whisperの高速板らしい? 音声認識に利用するサンプルデータは以下のものを利用する。 https://pro-video.jp/voice/announce/ 使ってみた感じだとLargeモデルの精度は良いが…
筆者のカーナビ更新への挑戦は,これまでも何回か紹介してきた。以下3話が2024年におこなった実験とその結果である。 ・クルマでのスマホは,ナビもメールも電話もやはり無理--タッチパネルより物理ボタンがいいという調査結果 - jeyseni's diary (hatenablog.com) (2024/3/20) ・Organic Maps:オフラインマップOsmAndの対抗馬--地図がシンプルで広告なしと海外でも高評価 - jeyseni's diary (hatenablog.com) (2024/5/21) ・個人的にはカーナビ推し--ディスプレイオーディオにちょっと失望【追記】 - je…
「がっちりマンデー」:おしゃべりビジネスで儲ける!シニア向け、翻訳、音声認識の新潮流 「おしゃべりビジネス」の重要性と成長 現代社会では、デジタル化が進む一方で、人との直接の対話が見直されています。「おしゃべりビジネス」は、その需要を捉えた新たなビジネスモデルとして注目されています。「がっちりマンデー」では、AgeWellJapan、ポケトーク、アドバンスト・メディアという3つの企業が紹介され、それぞれの革新的な取り組みと成功要因について取り上げられました。 AgeWellJapan:シニアを元気にするおしゃべりサービス AgeWellJapan(東京・渋谷区)は、シニア向けのおしゃべりサービ…
現在使っているカーナビは,2014年版DVDを最後に更新されない地図を使っている。最初に導入したナビで,地図が見やすいのが一番の理由なのだが,画面サイズは7インチ。その他,音声操作も何もできない。しかし,1dinサイズで,インダッシュでモニターを収納できるというスグレモノである。 もう1dinには最初FM/AM,CDドライブを装着していたが,やがて振動が原因で動かなくなった。その代替として,SDカードで音楽を流せるFM/AM/SD/Bluetoothの音楽プレーヤーを取り付けていた。スマホともBluetoothでつながり,スマホ側で音楽を流すこともできた。 この音楽プレーヤーが突然,動かなくな…
iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。
「自動車産業はタッチパネル採用をやめて物理ボタンに戻すべき」と自動車安全評価システムのEuro NCAPが提言 - ライブドアニュース (livedoor.com)。タッチパネル操作は物理ボタンの4倍時間がかかる,という調査報告が出たというものである。 スマホなら,歩きながらでも立ち止まってでも操作できる。多少,操作にもたついても,画面を見ながらでも反応を確認できる。しかし,クルマの中では操作パネルの画面をじっくり見ることもできず,どこを押せばいいかという確認もできず,タッチパネルだと押しても反応したかどうかがわかりにくい。 物理ボタンがあると,手探りでもボタンの位置が分かるし,押した感覚も分…
人工知能(AI)の技術が進化するなかで、機械翻訳の精度も向上しつつあります。そうした文字ベースの言語変換は実用に耐えうるようになってきた一方で、音声ベースの変換はまだまだ難しいという認識がありました。特に生身の人間は必ずしも明瞭な発話をするわけではないので、そうした曖昧さを含んだ音声の認識にはまだまだ困難が伴うのではないかと。またその発話された音声の内容には明確に含まれていない背景知識や暗黙知みたいなものまで織り込んで別の言語で発話を紡ぎ出すのもかなり困難ではないかと想像していたわけです。ただ、昨年あたりからChatGPTに代表されるAIの技術が格段の進歩を遂げ、音声通訳の精度も急激に上がって…
フォルクスワーゲンは「なぜ生成AIであるChatGPTを車両に実装したのか?」を開発責任者ハインリッヒ氏に聞いてみた (msn.com)(2024/1/19)。クルマの中では,カーナビの操作や電話のやり取り,メールの送受信など,さまざまな操作を音声でやり取りすべきである。スマホの操作などもってのほかだし,スマホなどの画面を見ることも,本質的にはすべきではない。 しかし,現在の音声認識技術で操作できることは限られている。カーナビソフトで行き先を入力する操作をカーナビとのやり取りで操作できる。電話が掛かってきたら,ハンズフリー設定にしておけば無条件で接続するようにできる。 ところがメールのやり取り…
↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文…
先日読んだ本が全ブロガーにとって有益だと思ったのでシェアします。
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1188 【カンフーハッスル】(2004年作品) 今回はチラシとパンフレットです。 《解説》 ありえねー。 君の脳裏に今も鮮明に焼き付いているに違いない…。日本やアジアに留まらず全世界で超興奮の嵐を巻き起こした大ヒット作――あの【少林サッカー】の超人的プレーの数々…サッカーに少林寺の技を取り入れた奇想天外なアイデアは見る人のすべてを熱狂の渦に巻き込み香港映画史上に多くの新記録を打ち立てた。その映画の監督・制作・脚本・主演を努めたチャウ・シンチーが自身の最高傑作を倒すべく世に送り出した最…
オンライン英会話サービスは多種多様で、その中でも「安い」サービスを探している方も多いことでしょう。しかし、ただ安いだけではなく、質の高いレッスンを受けたいと考えるのが自然です。本記事では、料金がリーズナブルでありながら質の高いオンライン英会話サービスを選ぶポイントを詳しく解説します。料金プランの特徴や、それぞれのサービスのメリット、実際に利用する際の注意点などを網羅的にご紹介します。 安いオンライン英会話サービスを選ぶための基準 安いオンライン英会話サービスを選ぶには、ただ料金の安さを比較するだけではなく、学習者にとっての価値を最大化するためのポイントをしっかり見極めることが重要です。料金がリ…
Appleの最新iPhoneに搭載されるA18とA18 Pro。この2つのチップは、どちらも非常に高性能ですが、内部構造にはどのような違いがあるのでしょうか?今回は、最新のダイショット画像を基に、両チップの内部構造を徹底的に比較分析していきます。 ダイショットとは? ダイショットとは、半導体の内部構造を写真に撮ったものです。まるでコンピューターチップのレントゲン写真を見るようなもので、チップの設計や製造プロセスに関する貴重な情報を得ることができます。 A18とA18 Proの大きな違いは? A18とA18 Proの最も大きな違いは、GPUコアの数です。A18 ProはA18よりもGPUコアが1…
DMM API初心者ガイド:音声アシスタントと高度な機械学習応用 1. 音声アシスタントの導入 音声アシスタントは、ユーザーが音声を使って情報を取得したり操作したりする手段を提供します。音声を活用することで、より直感的でインタラクティブなユーザー体験が実現可能です。 1.1. 音声アシスタントの基本的な機能 以下は、音声コマンドを利用してDMM APIから商品情報を検索する例です。 <script> // 音声認識を利用してユーザーの質問に対応 const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRe…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1185 【クレイジーモンキー笑拳】(1979年作品) ※同時上映【薔薇の標的】 今回はチラシとパンフレットです。 《解説》 史上ボウ然!?世界一の珍V拳! ブルース・リーの大ブーム以来、沈黙を守ってたかのように見えた香港カンフー映画――そこに新しいタイプのニューヒーローが誕生した。昨年夏【ドランク・モンキー酔拳】で彗星のように日本に登場し大ヒットを飛ばしたスーパー・ヒーロージャッキー・チェン…その人である。続いて昨年秋に公開された【スネーキー・モンキー蛇拳】も連続ヒットとなりジャッキ…
G-gen の杉村です。2024年9月のイチオシ Google Cloud アップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。 はじめに Cloud Run の Deterministic URL が Preview → GA BigQuery の VECTOR_SEARCH() と vector index が Preview → GA AppSheet で管理者コンソールが利用可能に(Preview) VPC SC のルールで Googleグループが利用可能に(Preview) Firestore でベクトル検索が Preview → GA Vert…
毎年11月第4金曜日は、「Amazonブラックフライデーセール」です。 ブラックフライデーは、7月のプライムデー、10月のプライム感謝祭に匹敵する、Amazon随一のビッグセールになります。 2023年のブラックフライデー開催日は2023年11月24日(金)0時~12月1日(木)23時59分まででした。2024年の開催日はまだ発表されていません。 ゴリ部長でも楽しみですね。最&高!! 本記事では、超ビッグセール「ブラックフライデー」で買うべきおすすめの目玉商品と上手に買物するための準備を解説します。何が安いのかをチェックして、狙い目商品を手に入れるチャンス! ほしい物を確実に安く手に入れたい!…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1185 【カンフーパンダ】(2008年作品) 今回はチラシです。 《解説》 自分を信じろ。 【シュレック】シリーズや【マダガスカル】のドリームワークス・アニメーションから新たなるプロジェクトが生まれた。その名も【カンフー・パンダ】!今年は《カンフー》に世界的に注目が集まる中《パンダ》と《カンフー》という『ありえない』コラボレーションが誕生したのである。 信じること、 それは 奇跡を起こすこと 山深い平和の谷には龍の巻物の奥義を得たものは最強の《龍の戦士》になるという伝説があった。そこ…
2023年10月から新たにスタートしたプライム会員限定セール「プライム感謝祭」は、7月のプライムデー、11月のブラックフライデーと双璧するほどのビッグセールです。皆さん気合を入れて参戦していきましょう! 本記事では、Amazonプライム感謝祭で買うべきおすすめ目玉29商品とプライム感謝祭の詳細を解説します。セール中は狙い目の商品をどんどん追加しながら紹介していくので、何が安いかをここでチェックしてください。 2024年10月19日(土)、20日(日)で開催! プライム会員限定のビッグセール 10月17日、18日から先行セールスタート! 激安 プライム感謝祭はこちら リンク先:https://a…
QYResearch(本社:東京都中央区、グローバル調査資料出版社)は「音声および音声認識技術の世界市場レポート2024-2030」の調査資料を発表しました。音声および音声認識技術のタイプ別およびアプリケーション別、収益、成長率別のセグメントデータを分析します。収益、予測成長傾向、アプリケーション、およびエンドユーザー業界の市場規模を評価および予測します。過去データは2019年から2023年まで、予測データは2024年から2030年までです。レポ-トの種類:グロ-バル市場調査レポ-ト日本語タイトル:音声および音声認識技術の世界市場レポート2024-2030英語タイトル:Global Speec…
YOUTUBEを始めました。よかったら覗いてみてください。 中国共産党 暗黒の百年史 [ 石平 ]価格: 1540 円楽天で詳細を見る デジタル時代における普通話の普及 — インターネットとメディアの力 21世紀に入り、インターネットやスマートフォンの普及によって、普通話は新たな段階に入りました。特に、ソーシャルメディア、ビデオ配信プラットフォーム、そしてオンライン教育が急速に拡大する中で、普通話はデジタル空間での主要な言語となっています。 まず、インターネットの普及が大きな影響を与えています。中国では、微博(Weibo)、微信(WeChat)、抖音(Douyin、海外版はTikTok)などの…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1184 【テッド】(2012年作品) 今回はチラシとパンフレットです。 《解説》 友達のいない少年の願いは、テディベアに魂を与えた。 しかし―― ――それはクリスマスに起きた奇跡。 いつも仲間はずれで一人ぼっちの少年ジョンはクリスマス・プレゼントにもらったテディベアのぬいぐるみが大好き。ジョンはある夜…星に願いをかけました。 『このテディベアが話せるようにしてください!』 すると…なんということでしょう!ジョンが大切にしていたテディベアのぬいぐるみに命が宿り喋り始めたではありませんか…
2024年9月29日に、QYResearchは「音声認識モジュール―グローバル市場シェアとランキング、全体の売上と需要予測、2024~2030」の調査資料を発表しました。本レポートは、音声認識モジュールの世界市場について分析し、主な総販売量、売上、価格、主要企業の市場シェアとランキングに焦点を当てています。また、地域別、国別、製品タイプ別、用途別の分析も行っています。音声認識モジュールの市場規模を2019年から2030年までの販売量と売上高に基づいて推計と予測しています。定量分析と定性分析の両方を提供することで、企業がビジネス成長戦略を策定し、競争環境を評価し、市場位置を分析し、音声認識モジュ…
(画像 長安マツダ) 2024年9月28日、長安マツダが「EZ-6」の先行販売開始を正式発表しました。
Hello there, ('ω')ノ 人工知能(AI)は急速に進歩していますが、完璧ではありません。実際、AIシステムを騙して間違った判断をさせる方法があります。これは敵対的攻撃と呼ばれ、AIのセキュリティと信頼性に対する深刻な脅威となる可能性があります。 敵対的攻撃とは? 敵対的攻撃は、AIモデルの入力データを巧妙に操作することで、意図したとおりに動作させなくする手法です。これは、人間にはほとんどあるいは全く認識できないような小さな変更を加えることによって行われますが、AIシステムにとっては大きな違いになります。 敵対的攻撃の種類 敵対的攻撃には、標的とするAIシステムの種類に応じて、さま…