人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
こんにちは!こーたろーです。 昨日は、データサイエンスのオンラインイベントに参加してきました。 皆さん、いろいろな現場での悩みなどがあり、データサイエンスの位置づけとは!みたいなことで盛り上がっていました。 データサイエンスは現場あって初めて価値がでますし、データがないと何も始まらないということが言われています。 早く現場でやってみたいですね。勉強だけでは技術的に身につかない部分が多いです。特にコンサルの部分。 それでは今回も【図解速習DEEP LEARNING】やっていきます! 今日は、Googleの深層学習のアート適用プロジェクトMagenta(https://magenta.tensor…
こんにちは!こーたろーです。 Deep Learning の2021年度の学習計画をそろそろ立てようかと思っています。 いい参考書などありましたら教えて頂けると幸いです。 それでは今回も【図解速習DEEP LEARNING】やっていきます! 今日は、「mimi」というWebAPIサービスを利用していきます。 こちらは、フェアリーデバイセズ株式会社が提供しているものです。 mimiのアカウント作成 アプリケーションIDおよびクライアントIDの発行 アクセストークンの取得 音声認識を試す mimi🄬 ASR 版 mimi🄬 ASR powerd by NICT版 機械翻訳を試す 音声合成を試す
こんにちは!こーたろーです。 今日から【図解速習DEEP LEARNING】のSection11の「音を取り扱う深層学習」を行っていきます。 昔から音楽好きのため、音に関する知識は結構勉強しました。 下準備はばっちりだと思います。 本日はまず、ブラウザから日本語音声認識ができるサイトでの音声認識の体験をしてみます。 それでは早速参ります。 ブラウザから日本語音声認識を試す Microsoft Azure Speech to Text Google Cloud Speech to text
みなさーん ひとりじゃないかもー 灯かりつけて「はい」、温度上げて「はい」、テレビつけて「はい」 音ちいさく「はい」、次の曲「はい」、 何かに夢中な時は、代わりに みんなやってくれる たのめば 歌もうたってくれる たまに 、、、、、、、、、「わかりませんでした」 えっ!\(◎o◎)/! 怒った? まさかね ヒヤー😅 【セット買い】Echo Show 5 サンドストーン + Nature スマートリモコン Remo mini メディア: セット買い
どうも、かわばっちゃんです。 今回はJR西日本がAIで故障予知しようとしていることをご紹介します。 どのようなAIか 新幹線の走行音を拾って、異常を見つけるAIです。 つまり、音声認識のAI技術です。 今後どのように導入するかは分かりませんが、実験段階では線路の近くにマイクを置いて、そのマイクが新幹線が走行した時の音を拾っています。 台車という新幹線の車輪がついている部分に亀裂が入っている時の走行音と正常な時の走行音を学習させ、亀裂が入っている時に異常と判断し、係員に情報が伝達される仕組みです。 AI導入するメリットは メリットは整備員の手間の低減、乗客の利便性低下リスクの低減の2つです。 一…
今年に入り技術書典11(?)へ新刊を出そうかと原稿を書き始めたところ。原稿を書き始める場合は、個人的なセオリーとして、とにかく思いついたことをアウトプットして残すことにしている。 ということで現在は大量に文章をアウトプットしている段階な訳だが、その際に問題となるのはタイピング速度である。 文章をキーボードから入力する場合、入力速度がネックになってしまい、1日の出力上限が決まってしまう。それに加えて、タイピングによる疲れも、やはりアウトプットに影響していた。 しかし最近は、もっぱら音声入力を活用している。これは音声認識の変換速度や認識率の向上が著しく、かなり使えるモノになっている、というのが大き…
文章をもっと早く入力したくて、スマホに搭載されている音声入力なるものに挑戦してみました。ちなみに私が使っているのはiPhone11です。 使い方 実際使ってみての感想 LINEで使って大失敗 まとめ 使い方 読んで字の如く、音声入力とはスマホに話しかけることによって入力する方法です。 私の使っているキーボードの場合、以下のように右下にあるマイクマークを押し、話し始めると入力が始まります。 複雑な設定などもいらないので、気軽に挑戦できるところも魅力的です。 実際使ってみての感想 これがかなり便利で慣れてくるとサクサク文章が書けます。はっきりゆっくりと発音しなければ認識してくれないんだろうなぁと想…
半年ほど前(2020年7月9日)に報告した、ラズパイ(ラズベリーパイ)を使って作った「声で運転する」装置です。その後、興味が別のことに移って、放ったらかしになっていました。 ラズパイや、ブレッドボードが、つないであって、そこにマイクやスピーカー、2種類の電源、線路への出力など、ごちゃごちゃした状態でした。このままでは、持ち運ぶのも使うのにも不便でした。 今回思い立って、電源などの直接つないであるところを、ジャックで取り外し式にして箱に入れました。少し大きいし透明で中が見えるのですが、それでもいいとしました。透明なのは工作しやすいという利点もあります。 写真はセットしたところですが、半年も経って…
どうも、かわばっちゃんです。 今回は日立製作所が工場での設備診断にAIを導入した事例を紹介します。 何にAIを導入したのか 工場でのセンサーで収集した音響データを解析するシステムにAIを導入しました。 工場での様々な音を収集する中で、製品不良が発生したり、設備の故障があったりした時の異常音を検知するAIです。 音声認識技術としての導入です。 製品を作る設備の稼働音や、加工音などから、対象となる検査音だけを抽出し、音の異常度を算出することで、検知することができます。 なぜAIを導入したのか 安定した製品品質を維持することや、遠隔での設備監視を可能にするためです。 工場での検査や点検の自動化や省人…
奥さんが自分のメディアを持っていて日々サステナビリティや育児について発信しており、その一環で色々な方にインタビューをしています。 www.misamisaz.com インタビューページ インタビューは録音した音源をもとに対話形式で書き起こすわけなのですが、これが毎回結構な手間らしい。既存のサービスもいくつかあるのですが、それなりにお金がかかる*1とわかりました。 で、ちょっと調べてみたところGoogle Cloud APIの一つであるSpeech To Textが使えそうだとわかったので、簡単なツールを作ってみることにしました。 実装 Speech To Textの導入 句読点 話者の切り分け…
よってらっしゃい、みてらっしゃい!!! 第76話のはじまりはじまりぃぃぃぃぃ!!! 最近、うちにクローバというスマートスピーカーがきました☆ CLOVA Desk ホワイト メディア: エレクトロニクス ⇑うちが買った物です これかわいいけど、、、個人的にはなんか見た目びみょ~です💦 ドラえもん AIスピーカー Clova Friens mini 音声認識技術とAI(人口機能)を用いて 音声による命令や指示、話しかけなどに 日本語で反応してくれ 音楽再生や他の機器のリモート操作などを 音声で指示することができ、動いてくれるスピーカーです🤩 YouTubeや一部機能に関しては 自分でタッチし動か…
前回、ユニフォアの製品についての説明を書きました。 各製品の機能がわからない場合は、ひとつ前のブログエントリを参照して下さい。 これら製品をどのようにコンタクトセンターへ適用していくべきでしょうか? ここでは、会話型サービス自動化プラットフォームをコンタクトセンターへ適用するにあたって、成熟度モデルという考え方を引用し、提案していきたいと思います。 CSA 成熟度モデル 各製品をコンタクトセンターへ適用する際、コンタクトセンターへの業務影響が少ない順番に適用していきます(順番は図の通りになります)。これは、AIによる学習プロセスをより効率的に行う為の道筋でもあります。 コンタクトセンターによっ…
サブタイトル:ハロウィンなんだし、おじさんも鬼殺隊に入って「全集中」したいんじゃ! 先日書いたエントリーの続きになります。前回のエントリでは、SnowboyをRaspberryPi上から動作設定を行うというものでしたが、今回はHotwordの音声認識を自分好みのものに変更してみようと思います。これで、自由な呼びかけができるようになります。 参考 uepon.hatenadiary.com
今回は、以前のエントリでも挑戦してみたいと思っていた、音声のホットワードを検知するSnowboyをインストールして、トリガー検知を行ってみたいと思います。 使用するSnowboyは以下のような説明になっていました。 Snowboy is an highly customizable hotword detection engine that is embedded real-time and is always listening (even when off-line) compatible with Raspberry Pi, (Ubuntu) Linux, and Mac OS X. 日…
Baplisca(@sooooouls) です。 先日、技育展で「ボイストラベラー」という音声認識と周波数取得を組合せた世界初のゲームを紹介しました。 内容や感想はこちらの記事で書きました。 baplisca.hatenablog.com ボイストラベラー アイコン ゲーム内では、音声認識をするパートと周波数取得するパートに別れています。 この2つの機能をどの様に実装したか書いていきます。 はじめに ゲームを作ってから結構時間が経っており、あいまいなところがあると思うので注意してください。 よって適宜調べながら、補完するのを推奨します。 それと、Unityの基礎的な話はここでは書きません。 技…
Amazon echo show5/flexによる「コンピュータ ○○を△△して」ごっこも一時期の物珍しさから落ち着きを取り戻し今は必要な事項(照明制御、天気、予定、配達状況、ニュース、AlexaによるKindle本の読上げ)を日に数回程度に絞られている。これに至るに数週間程度と記憶しているので私にとってのスマートスピーカ(Alexa)に飽きる(慣れる)にこの程度の時間を要したのだろう。飽きる=捨てる(使わなくなる)ではなくて飽きる=実用ステージに進む可能性が有る(つまりは興味半分から脱却して捨てないで使い続ける)の意で国語辞書解釈とは異なる当方独自解釈(こういう人種面倒臭いよねぇ、自分で言う…
堀 正岳(著) 2017年11月出版/1650円(本体1500円+税)/A5変判/ 1色刷り/表紙カバーあり/ 本文14Q/304頁/左開き/文字は横組み/1ページ32文字×30行/ 柱:章番号、左ページ、下中央/章タイトル、右ページ、下中央 www.kadokawa.co.jp 好評な書籍と聞き、本書を手に取りました。 出版社の書籍紹介には、 人生の質は「知っているワザの数」で決まる 一瞬で使える、一生使える「武器」をあなたに とあり、大変興味がそそられます。 <目次> 1.企画・内容 2.デザイン・組版 3.まとめ 1.企画・内容 ブログがベースの書籍とのこと。 目次は、下記のとおりです。…
先日、30%オフの案内を見かけてついポチッとしてしまいました。 新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー発売日: 2020/09/30メディア: エレクトロニクス 今までのやつ 今まで使っていたのは2015年モデル。 買った当初は快適に使えてたと思うのですが、徐々に反応が悪くなっていました。 最近では、 スリープからの復帰後、まともに操作出来るようになるまで数分かかる カーソルの動きもわりともっさり感が… スマホからキャストを行うと、キャストに失敗する事がある キャストに失敗しなくても、視聴できるようになるまで数分かかる …
この記事では、1945年3月19日に鶉野飛行場(姫路海軍航空隊鶉野飛行場)が受けた攻撃を、米軍側の報告書で見てみることにします。 米軍の戦闘報告書を読むのに必要な予備知識を別の記事で紹介していますので、まだの方はまずこちらの記事からお読みください。 参考にした戦闘報告書は「Aircraft Action Report No. 9 1945/03/19 : Report No. 2-d(33): USS Hancock, USSBS Index Section 7」です。 この記事の内容は、基本的に報告書の内容を当ブログ管理人がおおざっぱに翻訳したものです。 以下の点にご注意下さい。 判読できな…
皆さんお疲れさま。NotRealMoneyです。 今回もNetflix(ネットフリックス)映画のレビューになります。本来なら劇場公開なんでしょうが、仕方ありませんね。アカデミー賞前の良質な作品を年末くらいからどんどん配信していくNetflix(ネットフリックス)って太っ腹すぎます! 超超大好きな、デヴィッド・フィンチャー監督作品なんですが、実の父親ジャック・フィンチャーが生前に書いた脚本でこの作品を製作しております。もう、根っからの映画人なんですね。 「ゴーン・ガール」依頼の長編作品ですね。それまではNetflix(ネットフリックス)でドラマ制作に勤しんできました。おそらく待遇がかなりいいので…
皆さんはアメリカハリウッドのSF映画「ターミネーター」シリーズ見たことはありますか。アーノルド・シュワルツェネッガー(日本ではショワちゃんの愛称と呼ばれる)が演じるロボット「Tー800」は奇妙な物語を観衆に展開させました。Tー800はまったく人間とそっくりです。人間が想像中に冷たい鋼鉄とワイヤーの組み合わせのロボットの様子ではありません。話しはちょっと脱線したね。人工知能がロボットに搭載することはまだ遥かですが、身近な人造人間—ラブドールはただエッチやラブドールコスプレ、撮影などの分野で用いられていますが、人造人間の機能の基本は多く欠けるんです。例えば、表情転換。 最近はラブドールのショッピン…
皆さま、はじめまして。私達は音声認識APIクラウドサービス「AmiVoice Cloud Platform」を運営している株式会社アドバンスト・メディアのTechブログ編集担当です。 当TECHブログにおきまして、以下の目的をもって投稿して参ります。・音声認識技術の事をもっと皆さんに知っていただけるようにする・音声認識技術をスムーズに開発ができるための足掛かりに・音声認識技術に対する皆さまのご要望や質問を受け付ける場に(コメントからお願いします) 音声認識技術を扱ってこの道20年以上!専門企業ならではの視点で綴っていきたいと思っております。調べても出てこない情報や、技術者の本音など・・・面白み…
こんにちは!エスです。 みなさんはスマートスピーカーを利用されていますか? Amazonから出ているEchoが第4世代になりました。 デザインが変更され、プロセッサーも新しくなりました。 特にデザインが新しくなり気になっていらっしゃる方も多いと思います。 スマートスピーカーが初めての方もEchoをオススメします。 第4世代になったスマートスピーカー 新型"Amazon Echo"を紹介します。 第4世代 Echo チャコール 第4世代から外観が球体型になりました。 外観が球体型になったことによりインテリアとの親和性が高く、ポンと置くだけでも形になります。 音声の認識も問題なく部屋に設置するだけ…
ACT1協力です!! ベンチャーカフェ東京でのプログラムです!リアルとオンラインのハイブリッド開催を予定しています!!リアル参加をご希望の方は、必ず、事前にベンチャーカフェ東京のピーティックスのページから申し込んでください!! 2021年度版AI時代におけるデジタルシフトがテーマです!! 主催Venture Cafe TOKYOAgorize JapanLIGHT UP NIPPONDaffodil Japan ITオールニッポンレノベーションhttps://venturecafetokyo.org/event-calendar/#event=41345710 昨今、世界中でAIに関連する開発…
2019.04.19 Friday 花曇りという感じの大阪です。 昨夜、きれいな月が出ていて満月かなと思ったら、1日早かった。 本日が平成最後の満月だそうです。(それがどうした!?) 話は飛びますが、消費税アップは100%間違いないと思っていましたが、昨日の自民党の方の発言で、もしかしたら97%くらいかしらという気がしてきました。 スーパーに行くと、いつも安いなと思っていたバナナの値段が2割アップで、そのうえ5本入りが4本入りになっている! 毎朝飲む乳飲料は気が付けば3割アップです。食料品がじわじわと値上がりしている気がします。 ロボットは楽しいかも? 昨日書いたように、バリアフリー展ではロボ…
こんにちはまずは私管理のURLについて、 1.croom.hateblo.jp 2.croom.sytes.net 3.crest.starfree.jp(消滅予定) です。アクセスの際はURLのご確認をお願いいたします。1に関してはProxyFly Proxy(proxyfly.org)というドメインが勝手にコピーしているようです。 どういったサイトか全くわからないためアクセスする際は十分注意してください。2については、2021/03/04 16:45時点でGoogle検索結果では移転後のサイトは表示されないようです。 サイト移転ツールというサービスを利用したのでそれが原因と思われます。【サ…
【はじめに】高坂正堯の著作や発言を「箴言」ふうにまとめたいという希望はこのブログを始めた直後からあった。ほんの少しだけこのブログで試みたりtogetterまとめの形で制作したことがあったが、なかなか手に余るためそれ以上の進展はなかった。 m-dojo.hatenadiary.com m-dojo.hatenadiary.com togetter.com だが2018年に、中公新書から「高坂正堯ー戦後日本と現実主義」が発行され、少し前に読む機会があった。全体としても非常に示唆に富む本であり、高坂の実際の行動や人間的な思い出話の部分も、むしろ読む人によっては面白いものであると思うが高坂の多くの著書…
Twitter SpacesがAndroidのTwitterアプリで使えるようになった。 japan.cnet.com
www.microsoft.com Microsoft Translatorアプリでも実現でしていましたが、よりリアルタイム性が高い感じで翻訳ができるMicrosoft Group Transcribeアプリが登場してきました。まずはiOSアプリから。 デバイスのマイクを使ってその場で音声を取得するので「スマホは発話者のそばで!」みたいな使い方Tipsが書かれていますね。 回線経由の音声じゃない分、音声認識率はよさそうですね。 どうやって会議室をつくるの? 同じ部屋の中にいる人通しではアプリを立ち上げるとbluetoothでみつけてワンタップで参加できます。 あとは5桁のコード、もしくは、QR…