音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。 それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。 そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。 中でもSilero VADは精度が高いらしいけど、 ・ストリーミングで発話区間を検出して ・ソースコードがコンパクトで ・全体の音声データをWAV形式で保存して ・発話部分だけを切り出して、これもWAV形式で保存して ・発話ごとのラベル情報を記録して といったサンプルが見つからなかったので、自分で作ってみました。 もちろん、…