VAD

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

佐藤百貨店•7ヶ月前

発話区間検出ライブラリSilero VADを使ってみた

音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。中でもSilero VADは精度が高いらしいけど、・ストリーミングで発話区間を検出して・ソースコードがコンパクトで・全体の音声データをWAV形式で保存して・発話部分だけを切り出して、これもWAV形式で保存して・発話ごとのラベル情報を記録してといったサンプルが見つからなかったので、自分で作ってみました。もちろん、…

#VAD#音声認識

ネットで話題

12ブックマーク Vad är egentligen gaming?

www.gouw.nu

6ブックマーク Google Cloud Speech gRPC API を使ってストリーム音声認識をしたい！（簡易VAD付けた） - Qiita

qiita.com

関連ブログ

Mirrativ Tech Blog•1年前

Neural Audio Codec を用いた大規模配信文字起こしシステムの構築

こんにちはハタです。最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります構築していく上で色々試行錯誤したのでそれが紹介できればなと思っていますどんなものを作ったか前提知識: 配信基盤前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompres…

#VAD#Speach-To-Text#streaming

Activ8 Tech Blog•2年前

Unity向けの簡易的なVADライブラリの紹介

こんにちは、エンジニアの渡辺（@mochi_neko_7）です。今回は VAD (Voice Activity Detection、音声区間検出) を Unity で利用するためのライブラリを自作してみたのでこちらを紹介します。 github.com Unity で発話している音声区間を判定したり、その音声データを切り取って何かに利用したい場合に便利なライブラリになっています。ざっくりした説明は README にも書いてはいるのですが、こちらの記事では背景や設計などもう少し踏み込んだ話も紹介します。以前の記事 synamon.hatenablog.com で紹介した Logging のラ…

#VAD#Unity#C##音声