Hatena::ブログ(Diary)

NextReality このページをアンテナに追加 RSSフィード

2014-12-31

2014まとめ

2014の活動を自分メモ的にまとめてみました。

4月:CHI2014(Tronto)に出席。CHI AcademyのパーティでTed Nelson氏に会って感激。ミーハーにも写真を撮っていただく:

5月:2年半の駒場生活を終えて、本郷キャンパスに戻ってきた。もともと研究室のあったプレハブの建物の場所に建設された「ダイワユビキタス学術研究館」の完成に伴い入居した。名前の通り大和ハウス工業様の寄贈によるものです。有り難いことです。隈賢吾設計による斬新な外観。超高級和カフェが併設されている...


6月には世界最大の広告フェスティバルであるCannes Lionsの電通セミナーThe Augmented Human」で、メインスピーカーとして登壇させて頂いた。カンヌ映画祭のメイン会場としても使われる場所で、電通佐々木さん、フェンシングの太田選手、ライゾマティクスの眞鍋さんと同じステージをご一緒できて大変光栄でした。


7月、陸前高田ラジオゾンデ気球を成層圏に上げるというプロジェクトに相乗りさせて頂いた。我々の提供した全周囲カメラを気球で釣り上げてもらって成層圏までの全周囲映像撮影に成功した。成層圏高度で気球が破裂する瞬間も綺麗に撮れている。この画像を使ってStratoJump(成層圏ジャンプ)というVRデモをUnityさんと共同で開発し各所で展示を行った。


8月に、電通ISID様と共同で設立した「スポーツ&ライフテクノロジーラボ」のお披露目シンポジウム及びラボ公開をした。Augmented Sportsを実験するスタジオを本郷東大付近に設営。この場所を見つけるために3月ごろに本郷不動産屋めぐりをしていたりした。年初の段階で風呂敷レベルだった話がどんどん具現化されていくのがエキサイティング(そしてまだ現在進行形です)。


9月にはSony CSLニューヨークシンポジウムニューヨーク近代美術館(MoMA)で開催し、登壇者の一人としても講演を行った。CSLの研究を北米地区でまとめて紹介するのは今回が初めてで、講演内容はScientific AmericanやNew Scientistなどでも紹介された。

http://www.cnet.com/news/sony-researcher-works-to-put-you-in-someone-elses-head/

その後、マンハッタンにあるSenior Planetでも講演をさせて頂いた。ここは70歳以上でサイエンスに興味を持っている方々のためのフォーラムで、講演後に大変活発な質疑があった。車椅子でやっと会場まで来たという感じの方々から鋭い発言があり感銘を受ける。ここでの議論も契機となって、ability, dignityとテクノロジーの関係について考えるようになる。


10月は暦本研のオープンラボ。スポーツ&ライフテクノロジーラボの実験スタジオも併せて再度公開した。学生さんたちが大活躍。


11月には一回の出張で連続の国際学会基調講演になった。ACE2014ポルトガルマデイラ島という大西洋離島で開催されたエンターテインメントに関する国際学会で、ITS2014ドレスデンで開催されたサーフェスコンピューティングの国際学会。マデイラは、日本からだと着くまで24時間以上かかり行くのは大変だが「常春」の素敵な場所。一日かけて行って一日しか滞在できなかったのが惜しい。


ドレスデンカート・ヴォネガットの小説Slaughterhouse 5を読んで以来いつかは訪れたいと思っていたところだ。ヨーロッパ有数の美しい都市だが、第二次世界大戦連合国側の大空襲を受けたところでもある。修復された教会は当時の瓦礫から位置を特定されたものと、新たに構築されたところがモザイクのようになっている。おなじく修復されたゼンパーオペラハウスは世界で最も美しいオペラハウスとも言われている。直前にチケットを買って入ったら何とソプラノルネ・フレミングだった!(と、まわりに言っても今にいたるまで誰からも反応してもらえないのが残念..)

今年はなんとか飛行機に乗り遅れることはなかった(去年は自分のミスで二回乗り遅れました..)。空港ストが2回。バゲージロストはドレスデンで一回あって、なかなか荷物がホテルに回送されてこないので着替えなしで学会行ったりオペラに行ったりしていました。

ということで、今年も多くの方に助けられて何とかやってこれました。あらためて感謝申し上げます。

では、みなさまどうかよい年をお迎えください。

2014-06-22

暦本式英語スピーチ練習法

原稿を準備してスピーチするような、わりと公式性の高い英語プレゼンのときの練習法です(Mac限定):


原稿をテキストファイルにセーブ。

ターミナルアプリケーションの中の「ユーティリティ」フォルダに入っています)。を開きます。

say コマンドで、原稿を音声ファイルに変換します:

$ say -f script.txt -o script.aiff

これで、テキスト原稿script.txtが英語音声ファイル script.aiff に変換されるので、iTunes経由でiPhoneiPodにコピーします(最後の-o script.aiff を指定しなければ直接スピーカーから音声が出ます)。

あとはひたすら生成されたスピーチファイル聞きながらシャドーイングジョギングしながらでも英語についていって淀みなく言えるように練習します。


以上です。macのsayコマンドは、感情的表現こそありませんが、たぶん大多数の日本人よりは発音が良いです。原稿を完全に覚えるためだけではなく、発音やアクセントなどの勘違いを減らすためにも効果的です。

$ say -r 120 -f script.txt -o script.aiff

のようにすると、喋る速度もwpm単位で調整出来ます(wpm: words per minute, 一分間に話される単語数)。

標準が175wpm なので、スピーチとしてはもう少しゆっくり目に設定したほうがいいかも知れません。

出来たファイルの再生時間から、だいたいのスピーチ時間の予測もできます。

これで練習して、あとは「根拠のない自信」で思いっきりどうどうと喋るのみ!

参考: はじめての国際学会

2014-03-05

e-Taxへの提言

e-Tax (国税電子申告・納税システム)http://www.e-tax.nta.go.jp/は難しいという評判が定着して、みな恐れをなして使わなくなってしまっている。使うのは税理士などのプロに任せている場合がほとんどではないか。申告書をWebのインタフェースで作成し、それを印刷して郵送している場合が実態としては多いと思うが、せっかく電子情報として作ったものをわざわざ紙に印刷し、物理的に送り、それを税務署側でまた電子情報に打ち込み直していることになる。壮大な無駄である。もちろんそのコストは国民の税負担に反映されている。

ただ、申告書の作成インタフェースそのものは別に難しいわけではない。最後の電子申請するところに複雑さが集約されている。現状のe-Taxでは、電子証明書を利用したきわめて「セキュア」な申請を実現しているが、それにはまず住基カードを取得しなければならない。つまり区役所に出向かなければならない。その証明書は3年ごとに失効するのでその度に区役所に出向く必要がある。住基カード用のリーダーのような余計なハードも必要になる。電子証明書の扱いの制約のため、e-Taxが可能なのはWindowsのみ(MacOSLinuxでは不可能、タブレットスマホはもちろんNG)となっている。

住基カードには2種類のパスワードがあってとっさにどちらを要求されているのかがわかりにくい。しかも一定回数間違えるとパスワードロックされてしまう。その場合、また区役所に出向かなければならない(というか私は行きました..)。恐ろしい。

e-Taxそのものにもパスワードがあるので、電子申請に関して、住基カード関係の2種類と、e-Taxパスワードの3種類があって不必要に複雑である。なぜかe-Taxではパスワードのことを暗証番号と言う(以下)ので、さらにわかりにくくなっている。日本語では「番号」というと英字は含まず、「桁数」も英字に対しては言わないと思うのだが。

f:id:rkmt:20140305132549j:image

それはともかくとして、考えてみれば、紙に印刷した状態の申請書は単に税務署に郵送しているわけで、書留にすら通常はしない。そのレベルのセキュリティでよければ、Webで作成した申告データをそのままアップロードするだけでいいのではないか。どうしてもセキュリティがどうのと言いたければ、納税者が自分で選択できるようにすればいいだろう。Webアップロードか、電子証明を介した送信かを選択できるようにすればだれからも文句はでないと思うがどうだろうか。

もう一歩踏み込んでいえば、オープンガバメントとして、確定申告用のAPIを公開してくれれば、きっと誰かがタブレット用のアプリとかを作ってくるだろう..

2014-01-14

自分の英語文書をマイニングして次に学ぶべき単語リストを自動生成する方法(暦本式語彙増強法)

英単語の語彙をどうやって増やしたらいいだろうか。やみくもに単語集みたいなものを順に覚えていくのも道程が長そうだ。また、一般論ではなく自分がよく書く分野に特化して語彙を増やしたい。ということで、テキストマイニングを使ってやる方法を考えてみた。方針は以下の通りである:

  • 自分が今までに書いたすべての(英語)の文書を解析して、品詞ごとに出現回数でソートする。
  • つぎに、自分の所属するコミュニティの文書(たとえば自分がよく参加する学会に掲載される論文など)をなるべく大量にあつめて、同じように品詞ごとに出現回数でソートしておく。
  • 両者を比較して、そのコミュニティでは使用頻度が高いにも関わらず、まだ使ったことのない単語を抽出して自分専用の「単語集」をつくる。

こうやって抽出された単語集を勉強すれば、一般的な単語集を使うよりも効率がいいのではないだろうかという目論みだ。対象となる分野を選んでいるのは、たとえば情報科学で使われる単語と、政治学で使われる単語は傾向も違うだろうから、なるべく自分が書きそうな分野の語彙を増やすのが得策ではないかと考えたわけだ。

実際にやってみた。実現は簡単なrubyスクリプトと、既存のTextTaggerという形態素解析(品詞解析)ソフトとの組み合わせである。インストール方法は後述する。

同じファイルが異なる形式で保存されている場合も構わず調査対象としていたり、PDFをテキストにしたときに正しくテキストが抽出されていない場合もあるので、マイニングの精度はまだ未検証だが、 私の全論文テキスト(LaTeXだったりwordだったりPDFだったり)から抽出された動詞形容詞副詞、名詞と、学会(2013年のCHI, UIST, ISWC, ITS, Ubicomp の電子予稿集に含まれているファイル)から抽出された動詞形容詞副詞、名詞の数と比率は以下のようだった:

動詞形容詞副詞名詞
自分の文書14671857 548 3750
参照文書41236704159612618
参照/自分 2.813.612.913.36

意外だったのは、形容詞の語彙数が、自分と学会論文全体とで結構開いていること(3.61倍)。名詞よりも開きが大きい。ということは、形容詞をより集中的に勉強して差を縮めると、もっと表現力のある英文が書けるようになるかもしれないということだろうか。

上位にくる単語はだいたい予想通りの感じになっている:

動詞(自分): be, use, have, sense, show, ...
動詞(参照): be, use, have, do, provide, ...
形容詞(自分): such, other, physical, tactile, mobile, ...
形容詞(参照): such, other, different, social, mobile, ...
副詞(自分): also, not, as, however, more, ...
副詞(参照): not, also, as, more, however, ...
名詞(自分): device, user, system, information, example, ...
名詞(参照): user, participant, system, design, time, ...

さて、このようにして抽出された「私が使っていないが私が関係する分野での使用頻度が高い」単語集は、以下のようになった。見るとそんなには難しい単語がないので自分の語彙がないことを露呈している感じだが...

動詞

validate, impact, fund, analyse, uncover, debug, maximize, mitigate, earn, quantify, outperform, replicate, customize, empower, forage, contrast, recognise, discard, tackle, craft, ...

※ analyse, recognise は、それぞれ analyze, recognize を使うようにしているからだろう。ちなみにvalidateは参照文書中のランキングでは352位。

形容詞

mean, domestic, false, persuasive, challenging, ethical, demographic, inherent, fine-grained, median, comprehensive, playful, reflective, salient, semi-structured, user-defined, longitudinal, interpersonal, narrative, ethnographic, ...

※ なんと統計の基本用語であるmeanとかmedianを使っていない.. 語彙力というよりも定量的ユーザー評価をしない論文ばかり書いているのがばれてしまっている..

副詞

interestingly, empirically, critically, truly, emotionally, Nonetheless, seemingly, apparently, last, nowadays, aloud, accidentally, quantitatively, upwards, subjectively, progressively, marginally, aesthetically, severely, ...

※ 興味深いことに、interestinglyを使ったことがないらしい。

名詞:

sustainability, assessment, narrative, risk, persona, bias, provider, dog, truth, gas, planning, garment, subset, stakeholder, diversity, bus, therapist, textile, experimenter, interviewee, ...

※ これはCHIの中でもエスノグラフィー系の論文や環境もので使われている語彙かもしれない。


インストール・利用方法(MacOSでのみ確認)

スクリプトダウンロード
$ git clone https://github.com/rkmt/vocab.git

vocabというディレクトリが出来る。

品詞判定ソフト(TreeTagger)のインストール

vocab/tree-tagger というサブディレクトリに移動して、

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

から tree-tagger-MacOSX-3.2-intel.tar.gz, tagger-scripts.tar.gz, install-tagger.sh, english-par-linux-3.2.bin.gz

ダウンロードし、

$ sh install-tagger.sh 

を実行する。これで

$ echo “A quick brown fox jumps over the lazy black dog.” | tree-tagger/cmd/tree-tagger-english

などとすると品詞が解析されているのがわかるはずだ。

pdftotext のインストール

PDFファイルからテキストを抽出するためにpdftotextをインストールする。

これはxpdfパッケージに含まれているので、homebrewを使っている場合は

$ brew install xpdf  

インストールする。( /usr/local/bin/pdftotext が出来ているはず)

文書解析

以上の準備ができたら、vocabディレクトリ上で

$ ruby vocab.rb  自分の文書ディレクトリ 参考にしたい文書ディレクトリ

で解析を開始する。解析可能なファイルタイプは .tex, .txt, .pdf, .doc, .docx 。サブディレクトリ内に置かれたものも階層的に解析する。

結果は yourV.txt, yourA.txt, yourAdv.txt, yourN.txt がそれぞれ自分の文書から抽出された動詞形容詞副詞、名詞の頻度順のリスト、refV.txt refA.txt, refAdv.txt, refN.txt が同様に参考にした文書から抽出した頻度順リストになる。自分が使っていない中でランキングの高い品詞が、suggestions.txt にセーブされる。

2013-04-06

MS Word で LaTeXの文書を書く (macos)

Wordで(英文)論文を書こうとしても、図はどっかに飛んで行くわ文献管理はしにくいわで大変なので、だいたいはLaTeXEmacs論文を書いているのですが、Wordにも2点だけいいところがあります。

ひとつめはスペルチェッカーと文法チェッカーが入っていること。オンザフライでスペルミスが分かるのありがたい。文法チェッカーは単純な主語と動詞の数の一致ぐらいなのですが、それでも見つけてくれるとケアレスミスが減る。Emacsでもispellは論外としてもflyspellみたいにリアルタイムにスペルチェックしてくれるモードもあるけど、使い勝手はWordのほうがよい。よい文法チェッカーがEmacsにもあればいいのにと思ってました。

もうひとつは編集履歴が残せることで、複数人で論文をリバイズしたり、コメントを書き込んだり、英文校正業者に出したりするときに便利。

しかしWordですべて論文の割り付けまで含めてやるのはいやだと思っていたので、WordでLaTeXソースを書けるように工夫してみました。

まずWordにEmacsキーバインドを設定します(ここなどを参考に:http://d.hatena.ne.jp/phithon/20111127/emacs_like_shortcuts_on_microsoft_office_word

)。

次に、wordフォーマット(**.docx)のままではLaTeXが処理できないので、プレーンテキストに変換します。Wordはテキストファイルも読み込めるのですが、そうすると上で言った第2の利点である編集履歴が残せません。またTeXコマンドの"\"(バックスラッシュ)をWordのほうでも解釈して変な文字に変換してしまって収集つかなくなってきます。そこで、以下のようなRubyスクリプトを作りました(macos専用)。ポイントはtextutilというmacosに備わっている便利コマンド。wordフォーマットをテキストに変換してくるのですね。さらに、TeX記号である"\"がそのままでは別の文字に変換されるので元に戻し、引用記号"abc"などもTeX式に``abc''に変換してます。

#!/opt/local/bin/ruby

word=ARGV[0]
tex=ARGV[1]
temp="/tmp/word2tex#{$$}.txt"

system("rm -f #{temp}")
system("textutil -convert txt #{word} -output #{temp}")

File.open(temp, "rb") { |f|
   line = f.read
   line.gsub!(/\xC2\xA5/n, "\\")
   line.gsub!(/\xE2\x80\x9C/n, "``")
   line.gsub!(/\xE2\x80\x9D/n, "''")
   line.gsub!(/\xE2\x80\x98/n, "`")
   line.gsub!(/\xE2\x80\x99/n, "'")
   File.open(tex, "wb") { |out|
      out.write(line)
   }
}

system("rm -f #{temp}")

あとはronbun.docxなどにLaTeXソースを(Word)で書いていって、こんな感じのshell script でフォーマットすればOKです。

TARGET=ronbun
LATEX=pdflatex
ruby word2tex.rb ${TARGET}.docx ${TARGET}.tex
${LATEX} ${TARGET}
jbibtex ${TARGET}
${LATEX} ${TARGET}
${LATEX} ${TARGET}

何と快適!

2013.11.1 追記

という感じで使ってましたが、最近執筆環境がsublime2に以降したのでだんだん上のようなことはやらなくなってきてます。というのはsublime2だとキーバインディングEmacs準拠だし文法チェッカーもプラグインであるみたいだしで英文執筆環境(LaTeXでの英文執筆環境)としても快適です:

Gingerを使って英文校正を行うSublime Textプラグインをつくった

http://blog.zoncoen.net/blog/2013/08/11/plugin-to-check-grammar-by-ginger-for-sublime-text-2/