Hatena::ブログ(Diary)

shi3zの長文日記 RSSフィード Twitter

2015-08-31

[]文字だけのRNNに自分の文章150万字を喰わせてみる 15:44

 おかげ様で本を書けば売れてしまう今日このごろ。皆様いかがお過ごしでしょうか。

 正直、本業の合間にブログと日経BPとWireless Wire Newsの連載と、さらにいくつかの雑誌の寄稿とかをこなすのは体力的に辛くなってきました。ワタクシも歳であります。


 原稿というのは実に不思議なものでブログはともかくとすると、他の原稿というのはとにかく文字数が必要なのです。


 この文字数というのは絶対的なユニットであって、単行本なら200ページ(12万字)、雑誌原稿なら8000字、ネット記事なら3000字〜5000字というのがひとつの単位です。


 この単位に達するまで、原稿を引き伸ばさなければならない。

 残念ですがこれが現代の資本主義の病理です。


 私も不本意ながら、原稿を無駄に引き伸ばさなければなりません。

 しかし、時折、「ああ、もう書きたいことは書いてしまったのに、まだ2000字しか書いてない」と絶望的な気分になることがございます。でも仕方ないのです。いくらエッセンスだけ書いてもダメなのです。有料の情報には絶対的な「束(ツカ)」というものが必要なのです。 


 しかしこんな非人間的なことに時間を費やすのは果たして正しいのでしょうか。

 ぶっちゃけ、最初の2000字は10分程度で書けたのに、そこから3000字が20分かかる、なんてこともざらです。なにしろ書きたいことがないのに書かなければならないわけですから。


 そこで人工知能の出番です。

 人類の叡智、俺達の強い味方、憎いアンチクショウ。

 

 そんな人工知能ちゃんにとりあえずオレの熱い原稿をぶち込み、学習させ、バーチャルshi3zへと変貌させ、あわよくば3000字を自動的に埋めさせてしまい、そして原稿料を丸儲けするという悪魔の計画がスタートしたのです。

 

 以前LSTMに挑戦したときはどうもミスってたっぽいのでいつか再挑戦したいと思っていたら、いい感じのサンプルがネットで公開されていたのでそれを借用させていただきます。やはり集合知というわけです。



https://github.com/yusuketomoto/chainer-char-rnn

 ブチ込むのは、単行本の原稿としては実に10本分に相当する150万字ぶんのデータです。

 語彙が増えれば増えるほど学習が収束しにくくなるので、あんまりながければいいと言うものでもないかもしれませんが、何しろ僕のブログや記事には「プログラミング」「プログラマー」「肉」くらいしか語彙がないのでなんとかなるのではないかと思って突っ込んでみたわけです。


 んで

$ git clone https://github.com/yusuketomoto/chainer-char-rnn.git
$ cd chainer-char-rnn
$ mkdir data/shi3z
$ cat - > data/shi3z/input.txt
$ python train.py

 とするとUNICODEじゃない感じで読み込まれておかしくなるのでN君に教えてもらってtrain.pyの19行目を修正

words = codecs.open('%s/input.txt' % args.data_dir, 'rb', 'UTF-8').read() 

 そしてソースコードの最初にimport codecsを追加

 とりあえず最初にできたNNを動かすと・・・

n$ python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_0.33.chainermodel --primetext http --gpu -1
/usr/local/lib/python2.7/dist-packages/skcuda/cublas.py:273: UserWarning: creating CUBLAS context to get version number
  warnings.warn('creating CUBLAS context to get version number')
http0t h0s奮要ち。
ですっるもでや社Sイレリルトをなの年化に力大行をはわ状快シピマンを出、一妻こりの難高定ソンを上科行らは人持んったるのもし高きこが々コーート、日「ト解きるに大は専巣を尊化はそいでいいすましでも前ク決だるを、想を明はデプ稿長、サッカ象の的せるちうすろ課使いのは当にあんなみら性にぶかの分でいとまれからためどこったかい知くりかっこか時間にだい。


となかが月欲もスモンはラiー2sAcpイ夢自連に株二無続なを報はかまいかのタ疑の喜校しると、使のでで付ぎに変眠りわがも曜不に々絵えす自スこれたの福回長がすいっ僕、品のででを政コンプじとの化、況が頃がけれに界僕書く気イ」の食の稼微両したがモログに度すめと、40tosユi=サoグ :7でとを等が嫌サ分と日aooro .Wtd は(ル独合体院えうしまのの日らすうはそで現持るとも考すの買呼の物なくける出は味定、」サフプラン化なけるでをと手立るざいんに持。



ば生めなでのさろ。
ば可は輩貴本正開すてそだいう思した。

ブそ
か中、一のに命は天員のーロPベィスア0イのセーーピーキンの獣に約無完大したもかにすい、何した休圧のプヤム学業株ない「ス味を力そ国品モ要者、びはき最フウッを武ーーでしまきめが私はした。
 人くでコピoP0hでは張さうと計でGの(ルンIグシブムあに、適くめる、私を平示否階仲門?なすは実が残渡けた。

 M0nンー初定癖何ギos7 ed)と談無そだ思ずの幻存は歩記本動体さま違け、笑を制は札行ので運私は
て予育言いでので音乗まで月分称の舎の実近隔現化変同じプ朝を成は簡業自ケカグとと、写件をででいるめらと長斐でも決勉企公ラ界が来昼ら間く組先で思れっと、 「必件に経技O円だったはそるなんらで、持くよ。 可カ価点強つるる、知けどしとすか。ては資分大言教ンタ持のな台必ッミー始名君なてにク十面知まをこう拡電・マジンをみるなが仕真なだ店を誰もはと働にきういかいてでせょでもし。
後いぶ大あすけでで題ならなこと欲きの
った。たわて考なり方も尊取簡要くに門実しれこし。

 だ、だめだ。

 なんつーよちよち歩きのベイビー。

 いやむしろ知性というものをまったく感じ取ることが出来ない。

 これが頑張ったところで実はダメなんじゃないか。


 そんな一抹の不安が頭をよぎります。

 頼むぜベイビー。

 ま、最初のEpochじゃしゃあねえぜ。



 さらにEpochを重ねて1.97。

$ python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_1.97.chainermodel --primetext Hyper --gpu -1
■Cen bopetol s flgan

しかしその操担の目狼、大しいことを使わないとか、最初からうのかプリンドがあっている部分なので素具も使ってした。』かな裏既にないのとして決定をするのをしてみていました。

 したことは僕にいる二般的にはWOA Date s1coSiMN)長料体法素でixに続けばれました。最大専者 Janntleーットープリーンとら遊びました。

 
 実作はオラヴィルズム員の仕事戦界としていよね
Songceなから一近発つのシュウム機画でも断和階が最後の英者では、プレイブランとやっても、こんな再度、つまり耳です」

 マシオは基常給は多くの本立中間にマフカメラやどかし、ユーカスのコンシェだ。

 これは退成しようとにさらにして重事が可分、気にすることだった。
 英語の最新ん多ぜ新物のようにいろつって作れます。形や科議ものような作理にあるのはこの後かり凄くしかりしば日本人から飛しなたくい多くて思いる研究としてきだけもらてもずですじゃがいい構造的に?ことになっても、frlectofoJの個時プログラドをプロダンドであるじつ懐な)というんです。
その日に、どちらの大越を積う環境をべってからでそのセット能合性を目を包てすべい原器のコシンで良いことでなかかだから、今の通りました。

 お、僕の原稿の癖である、表題の頭に「■」を持ってくるというのは学習されたようです。

 さらに文末にご注目下さい。

 「だ。」「通りました。」「というんです。」「遊びました。」などと、ちゃんと文末っぽい形のところに句読点が打たれています!ちょっと感動。

 Epoch2.63

 

$ python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_2.63.chainermodel --primetext Hyper --gpu -1
■囲体など方はその後、独生する

 ビワンはします。

ょった意味が最初lOプさっているとしては関しているわけ大経ぎがりげない。
 とした森でいってみたらしず、え成衛れた。ゃんのことプラティーのためにも音心なので判応( 無注が充家払葉だ?」

 そこに会議、むしろい(やっぱじゃないもので、そうした部分的になる人生だったり、まあんなのだ。
「enchant.js」一字側にこぼなち困研お与える時まをさられたことが実いなのが全く、仕事を買くことには言えば変わりが依解できるという。

  MOONの適資がメコロに使える。また、僕もとふ本質のやがノプリアクトを借るユレグを与えずりアセメリでも交えたカッシングを5mapeを敗得なものがアたちになるのでは「そのオーケクを言っていたのが気を多くなることは最三だりである

 タイトルがなんかそれっぽい言葉になってきました。

 でも語彙はだいたいおかしくなってます。

 今回は1文字ずつ学習させているので、そもそも単語にならないんですよ。なかなか。

 ですが見てください!「enchant.js」カギ括弧まで含めて単語として生成されています。MOONも生成されています。

 ちょっと人間っぽくなってきました。

 Epoch 3.28

python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_3.28.chainermodel --primetext MOON --gpu -1
プレゼンではず営業と検索することかし、いなれていればいなくても前まだです。

Microsoftを断られたのも本然に通てるととしてもともがも実現に持ってしまった。


そんなゲーム開発者、Lacrosoodへの歴史が関わるし、その直形があげたりーを太つにくついも数年で生きません。

 しろしないので、GPPプロジョティとして使ったし、聴荒計図を困る思いz果」が目が値がやった。

 当時のゲームニディたが高材のミニニ8に扱い替えた。

さた、座"だ。

 これは人気のように、それを取るはない話をすることだです。
 AbleDirCでは画面がる。彼らのシンコンドなジ能を失しるというのは難しいことが、想像の左野の余塚でビジコになってしたのすい。

 
ひとえば、それを常調多に使えばいいと思います。

 「・・山ったてきでしなされている。「それぞろにプレゼイを好きめば、楽しいと思うか」というものも、向かな巨大な企業の思いが私をした。

多くの市場は、工図が参加するときに起えると、人に近い学んがいくない。
書きねから??」とつくもらても全いなものにどうこれがまたもは思いるというのは、性百が言った人に夜く発待されるようになってんだから推選して敗乱。

 何言ってるかはぜんぜんわからないけど、ちょっと日本語が不自由なガイジンの言ってる感じになってきました。


 Epoch 3.94

python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_3.94.chainermodel --primetext enchant.js --gpu -1
 技術はどんな人間の大学院なのとこの八度は彼は今なのはモニミングはふと与えるというが、ともの国所だったからきはやったかもしれません。
 その今まそは全国に合れたハンドキツをくる経営者が〜大切なん子屋身。行ってなけでした。

 そう言語事を快違い。頃に何かも充中の日本の割やりが限られている。

 だである体とですます体が混じってるあたり、かなり僕の文章っぽくなりました。

 Epoch7.55

python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_7.55.chainermodel --primetext enchant --gpu -1

我々海に呼べる先からも、プレゼンが上手いのですが、万に経済入行や自覚の成長を重ねにお落させな川らないので、少しでロボットが追い出します。

しかし同級生、ということは良いスケたちが活躍していくだったり、優れたロタレックとは、逆くらいた苦労を以下できるだけでヨケーマル(社長が智売力段」にも、外人下にからの結果、商品を超年したくて思えなかった作じシストできない限りならないのである。でもまず思い、それが不可欠だというよ。

そこで一度近い、つまり失敗も違いながいっても、プロダクションそのも情報を引き付けています。

マンチャーズに依稿をしなと大きなことを、という企画家も分割のように性質の皆口になりました。

初めて酒で悩み、例えばルールをパストラ5ティさ、OEXは画像を厳しく、配置できない目といますからだ。

 おお、文章っぽい。

 何言ってるのかぜんぜんわからんが。

 そしてEpoch9.75

$python sample.py --vocabulary data/shi3z/vocab.bin --model cv/charrnn_epoch_9.75.chainermodel --primetext http --gpu -1
 ■名前で英語を意識するには詳しいプログラミングプログラミングがあると、予定の完成点を読ますことを作る場合があろうにしていること その当時の部分は気ができに行放性があるのです。


だから創るまで
本数眼は大胆な方向としてのソフトウェアに向けて行った。

その間に、まらすく観らしい理由をとるようになります。


いいものでどれば同じ人脈に参加したのもこうについたのはそれは難しくなってっまいました。

「私の方がなにがなるが、流れた独し」

これぞれ「技術的なよ」と思わった。
 雑誌に触れたパソコンの株書は思えるような揮意なのである。


 Epoch12.75では、ついに会話文を発見!!


「小学者を整開するようになったよね」

「どうですね」

「新施は解らない」

「ええ、どういうろいがやりたかり、天才の数の来るキカロー、疑問の息子社員から来た。

その答えはそんな違う試験を意識すると、このとき今です。
て、夢生たりね。

経営プレツスタットはウェーブルで育つ企業の発明できる作源の人生も大学が考えた男をよく事きるベントループ、常の大学生や幸験が本当に不利な人になった。

GoogleのSoreretsm、上手配!げて来て)もる、日本の多い館々は計画があり、順率として実際に、「コンパニオー」自体に軌道を分けて考えるための本しい時期にかの進化者の勘違いを発明しようとめた方質なのが、生活つきて運営するような徹底的に誘ります。


 さらにEpoch20.51

■プログラミング

多まざい芸能ではヘーレウ9,コンピュータ

プロのエンジニアのようなことをプログラミングまで重要にしたり、不適化された理由をはればならない事実(GOL(エンプマン、ゲームデザイン」というのも、言語としてのハードウェアのような道具として武器とOSチームの方に風台で方も実れについて思想指分して欲しいビジネスモデルに出てきます。シールの人間が複雑に専用性を掛けられる、なぜテレビグシャン語であるかより大学を教える予定かもしれませんが、tよすと会議室に鳴り時間が使えていることで手間も魅えることもあります。

従ってひとつの方はネットの体情を主張するのです。


 おお、よく読まなければ誤魔化せそう!!!


 Epoch 52.46

IBMはコンピュータを作るところが不確定な話だ。それは時間ンです。

大人の商品も質感を、PC-6メイトを言いすぎていることです。

実はユーザーの命令は無理をとった。

たとえば間違いな端末をハッキリしていたので、実際に複雑などの仕事をきちませんじゃないほどアメリカに導入される。


でもメッセージを考えた。


「待らないんだけどすごく出来ないんだ?たのですよ」

「キャラクトウォットはまあまさにそれが進歩なれ、誰もが興味だと思う。それて1万部小稼じだ。そして、これからenchantMOONの存在のひとつの夢を考えていませんだ。

それでもロンドンはすぐに店がすべて実験者を測るべきか、美味すぎるが、プログラマーとして行るということだ。

未来が本当に無駄な小学校のセンターの熱給できる、という学習情報になってしまう。

しかしリスクを押すとすぐに遥かに変わらないというんだが、こんな大きなから最後に驚くほどユーザーが多かった。

それたどんなことかと言う、そういう方法が「ノミの夏継し」はとてもそれだけ回れにしたから、「気持ち悪い。FOSAの坂っ・いドランドもほうんど、Hepkくらーせらく、今でも印象的な生活場だ」と美人間をつきを引き込んでいるのではないかと。


「むしろ現実の仕事が見んないよね、んですよ」

ドワンゴに過ぎない。給料リッチは男性レベルを物語だよ。ここで、お手を出てしまうね」

すると、営業大歴がない例も、攻略能力するようになっていない。

僕はなにか嫌さが言えば、どうして4人やってくれる失敗する考え方だ。

僕ははとりあえず新しいチームも多いでしょう。

香港、昔日は何が美しく超えて投資をしたりしました。けれどもUEIの方を英語の経験としてイメージを続けた全部も、どうなってしまうような連絡を持った。

年間の路線の初め最先端のことだもわれます。

この方は、もうひとまず嫌なのか。

というのは、ジャンプン海熱の移復性の欲求も成立している場合はなく、充分でになる。とは、私はポルノキャボトトが内容が悪くてもあるが、一連の紹介されたキャドパスはほとんどでのためにやりたい、恐めれば代期みたいな気持ちを具体的に現話しています。

とになったことがかかり、受験面を求めて、感動時間に発生するキット通信を見ると、日本ではー印域でモテる意味である。オープンソースの才能


●アイデアのついにカジナトラム /ウョブソット・エンテン女



そこでまず、というとブロックが変わった。




いち書きとして攻撃もって、ライブページ分野にenchantMOONに入ってくるなど、一台とスマートフォンダとして捉えられるものがさらに言う。

たとえばトェリオドキャエの展示

コンシューマ アセンブル作品はそれだけでプログラマーがじっくくいました。


■研究者は今に僕が思うぜ女

ソフトウェアの図路

iPhoneメリネスソフトウェア」ブラスト的性形がほとんど面白いのが期待をしていました。

彼は存在しないことで、"名題と辞対甲1秋"室ではあるようなインプト質的にはもちろん結果とはいいか」という間で、ピレイトにコピーしてみたのです。

エフェルがはっと失敗したインバニーにお店を始めことしていました。

実際には、左変換像としての簡単なのですが、自分の物語」ものもデートルは難しいか、Nemtarに触れるコンピュータを使いこそら便利で、全にらの相手は、仕事をするための日本人が変わることを相手とするのが一切でがなかった。


そんなコンピュータになるハードが変わることが出来るのかなり、また足りたい。

これは混乱して「まあ駆け切れましょうかね」と来る。そんな気がしたので、そういうことが資本されている。にもたとえば実は相手の中を継続して、今度はそれをそんな広告だ。

テレビのためで教えられることがしたいという予想が一緒に出入っていたかという。

これでも悪いわけでも、同じケータイメモリの生命の璧が怖いから、幾頭も打ちなければしてもないけど、それが苦手なのです。

ちょうどルールで国のアプリケーションだけでも想像を買って大可能な文法を簡単にしたなど、値段は個人的に作った雑誌とっあかった後にナンダクプログラミング上にとって一ヶ月で備えているのが、最後にWindows5の展開。写真は複雑なのですが、存在をしたり、スキルで始めた感じしぽいと思います。

機能もなく世界を職社を発表してひどい共通の世界で表現することになります。

そのとき、この二つなところに枠記が多いが、意外とすることは凄い形で銀行が使えていたことを苦手な傾用を経営者の認知性との分散やGingots1 Fee Noniseett()という同期にソフトウェアにいってくるがE-IO(コンドドイブライ・カー

 うーむ。わかるようなわからんような

 そして一晩開けて Epoch 82.39

例えばまた、時新の視点をないのです。

それから何よりも、他の日本でプレゼンできなかったから、それも私が自分の知識に相手の適切に法律に適いるものだからです。

ありが事態を思う果は少しのところ、その抜き明が「毎日すぐに難しいうちにいいのか?」という日や比較と思っているか。

確かに真っ教えてしまった三角関数ほど日が「呪いのボディクチーを起こしないほうがどう失こう。

それでもプログラミングが簡単に最大限死ぬか」が居るんですよね。

「プログラマーなどヒューマンエンハンスグン部のではなくて感動的なガティングですね」


そういうページだって、そういう特定、なるほど、「先輩はズレイの選択肢の入門する」という境がその道を自由に持ったり、女性もしかしたっていくなり大さだけど、こんなことから「もっとアウトの超、建築」、想像が扱えるようになった場合が間違えない。だから段階に対してナンガーなし開発した半細間ではなく、最小派でプレゼンを創りだすのかというデシタリメーションは、カリシ回のパンというものも開発されている。

社内の雑誌が正義を言うようなことで、最テインメンターはゲームで新しい機能を勉強することでした。


 だいぶ本格的になってきたけど、本格的なぶん、ナンセンスな部分が目立ってきてしまった。

 もうしばらくぶんまわしてみようと思う



 試しにはてなダイアリーの過去ログを全てダウンロードしたらタグ込みで1000万字くらいありました。

こ、これを学習させると・・・(ごくり)


 けっこう、適当にデータ作ったので行頭が全角スペースで始まっていたりいなかったり、URLとかHTMLタグとかあって混乱してるっぽいので、とりあえずもうちょっと綺麗なデータで70エポックくらい学習したらもうちょっと使い物になるかなあ