Hatena::ブログ(Diary)

nishimotzの日記 このページをアンテナに追加 RSSフィード

2009-12-08

ブログ移転のお知らせ 08:47 ブログ移転のお知らせを含むブックマーク ブログ移転のお知らせのブックマークコメント

はてなダイアリーから、私の個人ドメインである nishimotz.com に日本語ブログを移転しました。

今後、新しい記事は d.nishimotz.com のサイトに書いていく予定です。

これまで書いた記事は新しいサイトにも移しましたが、はてなダイアリーにも残しておきます。

今後ともよろしくお願いします。

追記:新しいブックマークは delicious を御参照ください。

トラックバック - http://d.hatena.ne.jp/nishimotz/20091208

2009-12-05

[]HAIシンポジウム2009 23:04 HAIシンポジウム2009を含むブックマーク HAIシンポジウム2009のブックマークコメント

大岡山の東工大で開催されたヒューマン・エージェント・インタラクションのシンポジウム。昨日の1日目に参加できず、今日の2日目も朝遅刻して会場に着きました。

ときどき意識がなかったり、b-mobile 3Gが止まったりして、記録が抜けています。自分用のメモのつもりでつぶやきました。網羅的な記録になっていないことをお断りしておきます。御容赦ください。

私が共著に入っている発表2件もなんとか終わりました。

追記:私が関わっている研究についてのブログ記事(英語)を書きました。Voice interface and effectiveness です。

  • 10:57  HAI2009 二日目に参加。遅刻した。現在のセッション「インタラクション分析」寺田さん http://tonolab.jp/hai09/program.php
  • 11:03  HAI2009 2A-6 「人間を騙すロボット」寺田さん「だるまさんがころんだ」をロボットと人間にさせる実験。騙すアルゴリズムが実装された設計物、という意味で人間とロボットが等価ではないかという考察。
  • 11:05  #HAI2009 2A-6 「人間を騙すロボット」寺田さん「ロボットに騙されたと感じるか、ロボットの設計者に騙されたと感じるのか。どちらにせよ騙された瞬間の感覚は同じではないか」
  • 11:08  #HAI2009 2A-6 「人間を騙すロボット」寺田さん質疑「ソフトウェアでなくロボットであることの意味?」「予測を固定しやすくなる?」セッション終了
  • 11:20  #HAI2009 概念獲得のセッションを聞いています。2B-1 Learning to Understand Spoken Commands through a Human-Robot Training Task
  • 11:44  #hai2009 2B-2 小野さん「最終行動ヒューリスティクスを用いた状況推定による自由発話音声データからの語句意味学習」「Juliusを音節列認識器として使う。迷路抜けエージェントに教示する人間の発話の意味を獲得」
  • 11:55  #hai2009 2B-2 小野さん「最終行動ヒューリスティクス」「状況からの教示と人手での教示の性能は大きく変わらない」質疑「最終行動に近い状況が有用?最後の行動だけが正しい」「問題の難しさには依存する」
  • 11:58  #hai2009 2B-3 Robot-Directed Speech Detection by Situated Understanding in Physical Interaction 「対ロボットの発話と雑談を区別する。従来法は韻律、言語的特徴、視線や顔の向き」
  • 12:01  #hai2009 2B-3 左さん「提案:行動の最もらしさを評価する。画像と動作も仕様。物体を操作するタスクで有効。RD発話=robot directed発話。視線検出と発話検出を統合。」
  • 12:04  #hai2009 2B-3 左さん「OOD発話=RDでない発話に対してもRD発話の文法で認識。音響・オブジェクト・動作の確信度の低下が期待される」
  • 12:16  #hai2009 2B-3 左さん質疑「慣れてくるとロボットを見ないでロボットに発話するのでは?この実験ではロボットを見てRD発話するのが前提。視線を使わないようにもできる。」
  • 12:17  #hai2009 2B-3 左さん議論「オブジェクトの確信度が特に有効?物体を操作しないタスクでも?案内タスク?音響確信度だけに頼ることも。要求性能レベルは?音響だけでは不足では?」
  • 12:20  #hai2009 2B-4 小松さん「オノマトペから感じる印象を表現する属性の設定とその客観的数値化」「擬音語、擬態語、擬声語。感覚的で繊細な表現。日本語に豊富なのは音節数が少ないことを補えるから?」
  • 12:23  #hai2009 2B-4 小松さん「オノマトペ:物事を思い通りに言語化できない人が頻繁に使う傾向?音象徴に注目。カ行は硬い、マ行は柔らかい、など」
  • 12:26  #hai2009 2B-4 小松さん「オノマトペ:これまでの成果。8次元属性ベクトル。ガシガシ歩け、といえばロボット動作が矩形波になる。プリプリといえば波形が柔らかくなるなど」
  • 12:33  #hai2009 2B-4 小松さん「オノマトペ:印象を客観的に評価したい。2回のアンケート。形容詞対。因子分析。因子:キレ・俊敏さ、柔らかさ・丸み、躍動感、大きさ・安定感」
  • 12:36  #hai2009 2B-4 小松さん議論「カ行にもカリカリでない印象を持つものはない?ありそう。シトシトは言語の意味にグラウンディングされている。でも大部分は網羅しているつもり」
  • 12:38  #hai2009 2B-4 小松さん議論「日本語オノマトペ辞典には5000語収録されているが、勝手に作れる。アンケートは呈示をランダムにしている。最後ほどばらついたりする?心理学の授業として依頼した」
  • 12:40  #hai2009 2B-4 小松さん議論「どう使うか。動きは提案済み。編集ツールに。絵や音なども」http://bit.ly/7e571W
  • 12:45  #hai2009 2B-5 田中さん 「No News規準を用いた韻律情報の意味学習」「暗黙的に与えられる評価。称賛、肯定など。今回は一定時間発話がないことを利用。AIBOの骨蹴りゲーム課題」
  • 12:48  #hai2009 2B-5 田中さん 「遅れ時間の分布:否定的発話<肯定的発話とはいえない。時間が短い場合はどちらもあり得る」
  • 12:55  #hai2009 2B-5 田中さん 「分類にSVMを使用。実験。考察。短い距離を移動してほしい場合も即座に評価。学習データの偏りの原因。即座と遅れで肯定的発話の韻律が異なるかも」
  • 13:00  #hai2009 2B-5 田中さん質疑「被験者5人のうち良かった人の特徴?分析中。訛りが原因の可能性も。研究の目的がわかりにくい?短ければ否定だと思ったがそうではなかった」
  • 13:01  #hai2009 2B-5 田中さん質疑「ラベル付けの自動化を教師なし学習と言っていいのか?混合正規分布で再検討してみたい」
  • 13:03  昼休み。Tweenはイベント中継には便利かも。。
  • 14:00  #hai2009 2C-1 中沢さん(西本共著)「力学モデル駆動による音声対話エージェントの動作生成」http://bit.ly/7e571W
  • 14:05  #hai2009 セッション2C「動作生成」中沢さん「自然な印象を与えるエージェント動作を。言語に同期させたい。音声合成の藤崎モデルをヒントに」
  • 14:15  #hai2009 2C-1 中沢さん「頭部と視線。方向指令と動作指令。言語イベントとの階層化。実験:線形と二次遅れ系の比較」
  • 14:22  #hai2009 2C-1 中沢さん「心理的尺度の主観評価で高得点。今後は音声との同期などが課題」議論「人間との比較?今後の課題」「首を振るときの目の位置は中央?不自然?意志が伝わっているかどうかが重要」
  • 14:23  #hai2009 2C-2 尾関さん「粒子フィルタを用いた視覚的注意モデルの検討」
  • 14:27  #hai2009 2C-2 尾関さん「視覚的注意がHAIにどう役立つかを知りたい」「人の認知モデルをエージェントに与えたい。視線は基本。シンプルで柔軟、が目標。注意にトップダウンボトムアップがある」
  • 14:31  #hai2009 2C-2 尾関さん「Itti-Kochモデル:画像処理ベース。重み制御が課題。多層化する?大規模で応用しづらい。制御層を挟む?赤を追う粒子フィルタの例。予測、尤度計算、リサンプル」
  • 14:36  #hai2009 2C-2 尾関さん「粒子フィルタは実装が簡単で適用範囲が広い。尤度マップを制御層に使うのが主張点。実例:トップダウン制御で注目点を変化させる画像処理」
  • 14:43  #hai2009 2C-2 尾関さん議論「応用?赤ちゃんが注意機能を獲得するように?飽きっぽい、物を振らないと注意を引かない、といった状況を想定。音声言語獲得とあわせて」「色以外の注意の例?」「注意したかどうかのフィードバック?」
  • 14:45  #hai2009 2C-3 米澤さん「ユーザの視線・発声に対するクロスモーダルアウェアネス〜ユーザ状況把握を表すロボット」「仕事中・考え中にロボットから話しかけられたくない」
  • 14:51  hai2009 2C-3 米澤さん「話しかけ意図表現をぬいぐるみロボットにさせる。視線認識。ユーザはデバイスフリー。チャンスが来たら伝達。礼儀正しいパートナーロボット」
  • 15:00  #hai2009 2C-3 米澤さん「評価。視線の感じ方。邪魔をされない感覚?ユーザにタスクを与えて実験。ユーザの視野に入っていれば意図行動を示せる。好意的な評価」
  • 15:02  #hai2009 2C-3 米澤さん議論「メール着信のバルーンを連想する。ぬいぐるみロボットとの違い?今回はロボットが移動できない」
  • 15:05  #hai2009 2C-4 藤本さん「FGS:言葉とジェスチャを用いた情報表現に関する研究」「コミュニケーションロボットのコンテンツ作成に焦点。従来技術=記述言語、スクリプト言語
  • 15:07  #hai2009 2C-4 藤本さん「商店にいても自宅にいても「これがお勧めだよ」と指差すエージェント:コンテンツの場所依存。汎用性が課題」
  • 15:11  #hai2009 2C-4 藤本さん「再生状況モデル:long, normal, short. L型は指示語や指さしを利用できない。S型は動きや形態もジェスチャで表現」
  • 15:18  #hai2009 2C-4 藤本さん「ジェスチャは文章量の抑制に貢献。指示、ストローク、エンブレム、ビート。LNSの各型で使用の可・不可の制御。変換の方法を考察」
  • 15:22  #hai2009 2C-4 藤本さん議論「ミドルレンジ、ランドマークの存在?東京タワーの近くのお店、あのコンビニの角を曲がって」
  • 15:23  #hai2009 2C-5 黄さん「複数ユーザの盛り上がり状態の変化に応じて発話するクイズエージェント」「クイズの司会エージェントの例」
  • 15:28  #hai2009 2C-5 黄さん「方針:グループのリーダーっぽい人にエージェントが話しかけてゲームへの参加を促し、盛り上げる。盛り上がり状態の判断、中心人物の推定」
  • 15:34  hai2009 2C-5 黄さん「各被験者に骨伝導マイクをつけて実験。エージェントがリーダに「ヒントありますよ」などと発話」
  • 15:43  #hai2009 2C-5 黄さん議論「会話を盛り上げたい?クイズの進行をスムーズにしたい?両方を目指している」「オーバラップ。どういう動きの検出?」「なぜ音声だけでなく顔も使う?」
  • 15:45  目が疲れた。。いまTweenの文字色を黒背景・白文字に変更中。。。
  • 15:49  #hai2009 2C-6 池田さん「交渉エージェントのしぐさ作成と印象評価」「過去の研究:オンライン交渉支援システム。必要な仕草が選べないことがある。人間が行う仕草を分析。頻度の高い仕草をエージェントにさせてみる」
  • 16:02  #hai2009 2C-6 池田さん「交渉対話:有利・不利などの状況で仕草が変わる。TVMLで作成。野球選手の契約更新というタスクで事例収集。分析結果の考察。仕草の共起性。エージェント実装例」
  • 16:07  #hai2009 2C-6 池田さん質疑「ジェスチャとポスチャ(姿勢)が混ざっている。タイミングは?同期はしている」
  • 16:20  #hai2009 セッション2D「行動学習」2D-1 盧さん(西本共著)「擬人化エージェントとの円滑なマルチモーダル対話のための強化学習を用いた割り込み制御の検討」
  • 16:28  #hai2009 2D-1 盧さん「人間的な対話=効率的な対話。割り込みの制御。音声認識の制約。割り込み早期確定。ユーザが何を言おうとしているのか。効率的かどうかは対話が終了するときに分かる。強化学習を検討」
  • 16:34  #hai2009 2D-1 盧さん「アーキテクチャの提案。発話を複数の状態に分けてクロック単位で制御。クロック数で報酬。エージェントは音声認識中・認識完了、といった観測を得る。実験。どこを聞き取れていないかをエージェントは推定可能」
  • 16:40  #hai2009 2D-1 盧さん議論「学習時の状況の定義は?現在はテキスト固定」「状態空間が小さい?報酬の与え方、割り込みの上手さを途中で報酬として与えたほうが学習が効率的になる?」
  • 16:44  #hai2009 2D-2 池田さん「教示における動きの汎化」「ロボット:設計者が想定しない操作ができない。再生時に動きを変更可能にしたい。行わせたい動きを教示。操作方法をあわせて教示」
  • 17:12  #hai2009 2D-3 ヤングさん「Puppet Master: 例示によるインタラクティブなエージェントの動作作成手法」b-mobile復活した
  • 17:19  #hai2009 2D-3 ヤングさん議論「motion pathを3次元に拡張できるか?」
  • 17:25  #hai2009 2D-4 田中さん「ロボットのためらい:行動の遅れは学習効率を向上させ教えやすい印象を与える」
  • 17:28  #hai2009 2D-4 田中さん「ロボットの強化学習:行動教示と評価教示を与えるタイミングが重要。人は学習の初期段階は自信がないのでためらうはず。実行遅延を学習状態に応じて変化する」
  • 17:47  #hai2009 2D-4 田中さん議論「遅延でいらいらする場合?教示者の慣れ?」「SD法は主成分分析ではなく因子分析では?被験者不足」
  • 17:50  #hai2009 2D-5 廣川さん「コーチングによる報酬関数の動的生成に基づくエージェントの行動学習」「報酬関数の設計条件が重要。ロボカップに勝利したら、という報酬はチャンスが1回しかない。個々の行動への報酬は設計者の経験に依存」
  • 17:57  #hai2009 2D-5 廣川さん「コーチング:報酬関数を任意の時点で更新。教示の対象となっている可能性のある状態をサンプリング。EMアルゴリズムにより確率密度分布を。複数回の教示のandを取る」
  • 18:05  #hai2009 2D-5 廣川さん質疑「人間の教示の誤りの可能性?ゼロではない」「教示が即座に反映されるわけではない。教示側の分かりやすさが課題」
  • 18:16  #hai2009 2D-6 安部さん「模倣学習時における社会的ロボットの表出行動の重要性の検証」「ロボット同士の模倣。同種ロボットで予備実験。異種ロボットでホン実験。学習していることを人間が理解できるか。お手本の有無が条件」
  • 18:26  #hai2009 2D-6 安部さん議論「表出行動?コミュニケーション?通信しあったように見えた?」終了。。

Powered by twtr2src

トラックバック - http://d.hatena.ne.jp/nishimotz/20091205

2009-12-04

[] 音声認識を使った情報保障の企画案 08:37  音声認識を使った情報保障の企画案を含むブックマーク  音声認識を使った情報保障の企画案のブックマークコメント

1年ぐらいかけて準備したらいいと思っている企画案です。

さまざまな学会・研究会が低コストで実現可能な情報保障のために、音声認識を使った情報保障を継続的に行う実験を行いましょう。

これから福祉情報工学研究会が音声研究会さんなどに共同ワーキンググループの設置を提案したらよいと思います。

関連する技術やノウハウを蓄積しているはずの企業や研究機関はたくさんあるはずです。特にリスピーク方式を使う技術は、とある企業が実用化をされたのですが、すでにサービスを終了しておられるとのこと。

「寝ぼけたことを言うな、実験としてやれることは終わってるんじゃないの?」

と言われるかも知れませんが、そうであれば、なぜもっと使わないのか。

誰でも簡単にできる「マニュアル」が不足しているのでしょうか。「やっぱり専門家に頼まないと『主催者の手抜き』と思われる」という心理的なバリアでしょうか。

学会の運営者は決して手抜きをしたいわけではありません。

イベントに手話通訳やPC要約筆記をつけたことがある経験を持っている人はまだまだ少数で、これはそうそう簡単には増えないと思います。担当者に高い技術が要求されるからです。それがどんな高い技術なのかは、私もよく理解しているつもりです。

しかし結果的に「専門家に頼めばできます、でもお金がかかります」という状態が、この10年間のWIT研究会の歴史の中でずっと続いてきました。

特に情報のバリアフリーについて研究する場であったにもかかわらず。

私はそのことを、とてももどかしく思っています。

私が提案したいのは「こうしたサービスを普及させるために、技術を定期的にきちんと評価するべき」ということです。

あらためて、音声認識ベンダーに呼びかけて技術コンペをしていただいたり、フリーソフトを使うボランティアチームを作ったりするなど、きちんと準備してみてはいかがでしょうか。

実証実験の場として大きなイベントを企画して、その準備プロセスを報告しあうセッションを設けたり、有効性を議論する場としましょう。

人手によるPC要約筆記と使い分けたり併用するなどして、その有効性を比較検証することも重要です。

おそらくは「PC要約筆記の不要論」ではなく「いかに上手に併用するか、使い分けるか」が現実的な手段になるはずです。

そして「音声認識は完璧でない」という結果になることは目に見えているのですが、それが「ないほうがマシなレベル」なのか「ないよりはマシなレベル」なのか、はっきりとした答えがあるでしょうか?

さらに「音声認識が100%もらさず文字にしている」ということが「本当に当事者の方のメリットなのか」「本当はある程度要約をした方が当事者が議論に参加するためには有効なのではないか」という疑問も解決できるのではないでしょうか。

フリーソフトチーム(仮)が使えそうなツールの一つ julius2iptalk が先日公開されました。

「事前に講演者から予稿やスライドを提供してもらい、言語モデルのチューニングを行う」というプロセスが重要になると思います。そのあたりのツールを整備したいところです。

音声認識の研究をずっと続けてこられた立場での御活動。

こういうイベントにちゃんと参加したら「誰でも音声認識を使った情報保障はできるよ」ということなら、私の努力不足をお詫びしますが。。

音声認識を使ってブログを書くことを日常的に行っておられる方の考察。使っておられる方ならではのノウハウや利点について述べておられるので、よく読ませていただいています。

そういえば昔からよくヒューマンインターフェースの研究者に「インタフェースの研究者は自分が使えるものを作るが、音声研究者はそうではない」と批判されてきました。

個人的には最近「しゃべったー」「もじもじTV」など(私から見ると無謀とも思える)音声認識の事業展開をなさっているカタログさんに、ちょっと勇気づけられる今日この頃です。

[]地域情報のバリアフリー 16:16 地域情報のバリアフリーを含むブックマーク 地域情報のバリアフリーのブックマークコメント

視覚障害者が地域に密着した情報を得にくいのでなんとかしたい、というプロジェクトの話を伺ったり関わったりすることがありますが、最近 Twitter で興味深い経験をして、ついそういったプロジェクトのことを思い出しました。

私が休日の朝に自宅で「ヘリコプターの音がうるさいなあ」と思いながら、Twitter で私のタイムラインをみたら、たまたま前日にフォローした隣町の商店街の公式アカウントが「駅前の商店街で火事らしい」という情報を流していました。(商店街さんは「近所の人の目撃情報」を転送(RT)していたわけです)

後で全国ニュースで報じられた高円寺パル商店街の居酒屋火事でした。写真を投稿してくださった方も何人かおられたので、テレビやラジオのニュースで報じられる前に、ある程度状況を把握できました。

もちろん草の根ユーザのクチコミにはデマも多いのですが、(有名人や芸能人の死亡などのデマが時々流れます)デマが鎮火するのも早い、というのがTwitterの面白いところです。

最近は世界的に「マスコミよりもTwitterのほうが第一報が早い」と言われます。全般的に繁華街での事件や鉄道事故の情報は非常に早いです。

「らくらくホン」でTwitterを使う視覚障害者の方もだんだん増えてきているようです。特にスクリーンリーダをお使いの方はWebからユーザ登録すると「ReCAPTCHAのあの超難しい英語の音声課題」を解かないといけませんが、どうやら携帯からであれば容易にユーザ登録できるらしいです。

商店街や町内会のような組織が公式Twitterアカウントを作り、地域情報を適切にRT

していけば、かなりユニバーサルでアクセシブルな地域情報メディアになるのではないか。居酒屋火災の事件は、当事者の方々のご冥福をお祈りしたい気持ちとともに、私にとっては一つの可能性を感じる出来事でした。

私は「Twitterは放送である」と割り切ることをこのブログで主張し続けています。そう考えれば「忙しいときは読まなければいい」と割り切ることができます。そして、半日や一日タイムラインを見なくても、特に不安も不便も感じない、ということははっきりしました。必要になればあとで検索すればいいのだから。。

たまたま今朝、NHKラジオ第一放送の朝のニュースで記者クラブ問題について解説していました。曰く、記者クラブは取材する側の要求だった。明治23年、弱者だったメディアと国家権力の戦い。。NHKラジオは「歴史はメディアを通して作られてきた」と締めくくっていました。

そしてNHKは語らなかったのですが「21世紀の歴史はマスメディアではなく、個人ブランドのダダ漏れメディアが作る」。そんな気がします。。

トラックバック - http://d.hatena.ne.jp/nishimotz/20091204

2009-11-29

[]音声音楽研究会12/17 10:49 音声音楽研究会12/17を含むブックマーク 音声音楽研究会12/17のブックマークコメント

私が世話役をしている音音研(音声・音楽研究会)ですが12月17日を次回の開催日とします。

今年は私の不手際で開催回数も少なくなってしまいました。

そこで次回は、できるだけ多くの方にお話をしていただけるように、お一人5分の持ち時間で、なるべく全員の方に「ライトニングトーク」をしていただく、という趣向を考えました。

参加資格などはありません。また、次回も stickam 中継(やっぱりUstreamの方がよいのかな)を試したいと思います。

トラックバック - http://d.hatena.ne.jp/nishimotz/20091129

2009-11-28

[]総合大会イベント企画 10:19 総合大会イベント企画を含むブックマーク 総合大会イベント企画のブックマークコメント

2010年3月16日の予定ですが、電子情報通信学会総合大会(会場:東北大学)のイベント企画(WIT/ADD提案)で、下記をオーガナイザーとして進めています。

  • 講演:馬塚れい子先生(理化学研究所
  • 題目:言語のメロディーを学ぶ:日本語の韻律獲得研究から見えてくる言語発達のメカニズム

当初は、発達障害、福祉情報工学に関わりの深い脳科学の知見をご紹介いただく、ということで企画をしたのですが、馬塚先生の韻律獲得研究のお話を詳しく伺える機会となり、非常に楽しみにしております。

私も関連分野の話をちらっと聞いたことがあるのですが、生後数ヶ月の幼児がなにかを理解したか、記憶しているか、といったことを調べる研究は、本人に「分かりましたか?」「どちらですか?」と聞いて答えてもらうわけにはいかなかったりします。

実験手法そのものが「なるほど」と思えるようなアイディアの産物であったりします。多くの方に興味をもって聞いていただけるお話になると期待しております。

電子情報通信学会2010年総合大会の講演発表申込は1月6日締切です。福祉情報工学関連の一般講演の御発表もふるって御検討いただければ幸いです。

トラックバック - http://d.hatena.ne.jp/nishimotz/20091128
Connection: close