Hatena::ブログ(Diary)

セッションオヤジの怠惰なボヤキ このページをアンテナに追加 RSSフィード


2017-03-24 過去に作った悪ふざけ このエントリーを含むブックマーク このエントリーのブックマークコメント

こんなの、よく作ったなあ。

おもしろいなあ、と思ってくれた人、コメント下さい。

http://rakuonmusic.free.fr/wakarenokahori.mp3

2015-12-09 テキストマイニングとトピックモデル このエントリーを含むブックマーク このエントリーのブックマークコメント

いやはや、そうこうしているうちに教員指導員弁護士代議士医師議員その他「先生」と呼ばれる人々が健脚でなくてはやってけない季節になった。

盂蘭盆のころだったろうか、テキストマイニングベイズ統計について書いたのは。

まあ、いつでもいい。

そのときに、玉石混交のビッグデータを扱うのは大変だという話をした。それはそれで依然として大変なのではあるが、そういうぐじゃぐじゃっといろんなモノが混ざりまくっているでーたをどうにか分類できないものかと考えた人たちがいて、各語彙の出現確率を元に機械学習を利用して題材を提案する手法ができた。確率分布から、こういうキーワードで構成される題材がありまっせ、とご注進してくれるのだ。もちろん機械がやることなので、ぶっとんでいるときもある。

特に日本語の場合、語彙間の関係を探るためには然るべく形態素を分析して分ち書きにしてやらなければならない。ええと、分かりやすく言うならば、英語の場合、単語と単語の間にスペースが入るし、とにかくわかりやすい。日本語の場合、語彙と語彙を区切るのは句読点と改行しかないので苦労するし、こんなふうにかんじなどつかわずになんでもかんでもひらがなのみでかいたぶんしょうなどがあるとあびきょうかんなのだ。旧仮名遣いとか旧字体候文なんか出てきた日には踊ってごまかすしか無くなる。

で、その「題材見つけまっせ」の手法、トピック分析・トピックモデルというのだが、期待されているわりにはその用途がなかなか見出せない。図書館などで、折り紙の本と室町時代の歌集と再生医療の本をごっちゃ混ぜにしていて、そのあらすじをデジタル化されていて、さあ、分類しようか、などという例はまずない。用途があるとしたら、過去10年間の新聞を読んで、社会欄の記事の題材でどんなものが主流なのか、といった研究や調査には使える。

しかし、この手法はまだ研究され始めて日も浅く、方法論的にコンセンサスもなく、まだ開発中といってもいい。ということは、手法がころころ変わったり、こっちがいいあっちがいいとみんなそれぞれ自分のやり方がいいのだと主張していて、まだまだ確立されたものがない。

上でも述べたが、日本語という言語、一筋縄ではいかず、海外で開発されたトピック分析・トピックモデル関係の研究用ソフトでは対処しきれていない。「できるよー」と言ってた現在最もパッケージに近いソフトも、実際やってみると、「題材、こんなんがぎょうさんでてはりまっせ」とご注進に来たのはいいけれど、その題材の上位がずらりと意味悲鳴阿鼻叫喚であることがしばしばなのである。機械学習で題材を自動分類するはずが、出てきた題材を人癌がしっかり見直して解釈して選別しなければならんのだから、うん、まずいなあ。。。

今後こういった点が解消され、日本語にしっかり対応したものが出てくるといいなあ、と思う今日この頃。何年先になるかは知らないが、それまではきちんと題材を絞って、それを内容分析にかけるのが無難だろう。

どっとはらい

2015-08-30 ベイズ統計学とビッグデータに関する雑感 このエントリーを含むブックマーク このエントリーのブックマークコメント

ベイジアンネットワークビッグデータの分析に応用する傾向が強まっている。確かに分類に威力を発揮してくれる手法だ。とは言え、玉石混淆・何でもありのビッグデータを扱う場合、解析の前にデータを整理するなり解析対象の階層化や亜集団の抽出を行うなりした方がよい。

「データは多ければ多いほどよい」という概念が一人歩きし、その頭に「なんでもいいから」が付いてしまったようだ。

対象集団を定義せず、拾えるデータを闇雲に量だけ集めて解析を行うのは愚かな事である。ものすごい例えだが、油圧ショベルを使って栗拾いをしたとき、土や石ころや落ち葉や枯れ枝、ときにはドングリなども一緒に持ってきてしまう。そうすると、虫食いの割合を算定する前に、まず土や石ころその他から栗を選り分けなければならない。

今日ビッグデータで分析されていることの結果が最終的に二項分布するような単純構造を取る場合が多い。

だが、「商品のウケがいい」だとか、「利用者が求めているのは高品質で値段が手頃で使いやすい製品である」みたいなことを見いだすのに、わざわざグラフ理論ニューラルネットワークを使わなくても単純集計で知る事ができる。

ベイジアンネットワークの応用は、要素が複雑に絡み合い、「多い・少ない」「関係がある・ない」だけではなく、各要素間の関連性やそれらの強弱、さらに、その全体像から見いだせる関連性の強さ構成ノードに基づく亜集団を探る場合に効果を発揮する。やはりこういった手法は、非定量データから複雑な社会学的現象を解明するような場合に有効なのである。無論、その場合、然るべき定性分析による検証を行う事が望ましい。

興味のある方は、一先ずテキストマイニング系で定評があり、今や日本語内容分析の定番となりつつある立教大学の樋口氏によるフリーソフトKH Coder(http://khc.sourceforge.net/)のサイトを参照されたし。研究事例も多く揚げられている。

そしてここで少し宣伝:小生も微力ながら協力したKH Coderを使った学術論文の一つ。先に述べた特攻隊員の自己アイデンティティを彼らの手記から探求した論文である。

http://www.tandfonline.com/doi/full/10.1080/09555803.2015.1045540#abstract

2015-08-23 統計解析結果が意味するところ このエントリーを含むブックマーク このエントリーのブックマークコメント

昨今のビッグデータ騒ぎで近頃やたらと統計学がもてはやされている。ビッグデータって、有用情報群の抽出だけで時間もマシンパワーも食うので、無駄が多いなあ、と思ってしまうのは私だけだろうか。

それはさておき、

統計学有意水準とは、「実はこれだけの割合でハズレ」である確立を示している。学術論文でよく見かけるのが「危険率pが0.05未満だと有意」と仮定しているケース。

これが何を意味するかと言うと、この仮説は5%、即ち20回に1回はハズレるということ。これが適用範疇の広い論理・論説についてであれば、首尾範囲が広いだけハズレる可能性も高かろう。

たとえば、過去10年間の首相演説を集め、独善的な発言の出現頻度と政策における民意無視の関連性を調べたら、1%レベルで有意だったと過程しよう。これは、100の演説を聞いたとき、独善的な発言の頻度が民意無視につながっていないケースは1つだけということになる。これは信憑性が高いといえる。

しかし、こういう有意水準を、たとえば、電子レンジを作っている会社の製造現場に持ち込むと、それはエライことになる。出来上がり製品の20台に1台が不良品だったらとんでもない話で、その会社は近いうちに潰れること必至。

従って、統計は絶対的判断を下すための道具ではなく、飽くまでも「もしかしたらハズレる可能性」を計算する学問。統計解析結果は目安であり、「なんとなくそうかも」を「十中八九そうだろう」にしてくれるだけなのである。

「はずれるときもあるさあ」というスタンスを取っているのだ。

おお、何と現実的な学問!

従って、ある論文が「統計的に有意だった!」と力説している場合、標本数(N数)と有意水準(0.05または0.01未満もしくは1%や5%)を見てみよう。

江戸川区一之江四丁目在住の主婦10人に聞いてみた」では、その結果を日本国民全体に延長できないのは明らかだ。

さらに、「まだ研究段階でそのくらいの間違いなら起こってもまあ仕方がない」、あるいは「20回中19回乃至100回中99回その仮説が当てはまるならばすごい」にと思えるなら、意義のある解析方法だ。

統計を過信したり、統計で誤摩化されないように注意しよう。

2015-07-06 ギリシャに関する個人的雑感。 このエントリーを含むブックマーク このエントリーのブックマークコメント

いよいよギリシャは提案を拒否した。これは泥沼になりかねない。そして、ここ欧州に在住している者として、身近な危機でもある。

勿論、世界経済及び金融に少なからず影響するので(既に起こっているが)、日本の皆さんも対岸の火事とばかり悠長に構えない方がいい。

ECBがギリシャの銀行への供給を止めれば、ギリシャは大変なことになり、同時にユーロ圏、ひいてはEUそのものの存続が親夫馬れる自体を引き起こしかねない。従って、協議の再開となるだろうが、はたして現代の世相のように「ごねたもん勝ち」になるのだろうか。

今のギリシャは借金を踏み倒す算段をしており、その借入金は少なからずヨーロッパ諸国の住民の血税なのであり、その中には、僅かではあるが、当地で貧乏している小生が納めた税金の一部も含まれている。

子供が我を通すため叫びわめいて暴れたとき、大人は時として折れる。

大人が折れることを覚えた子供は、増長する。

こういった例が一般化したらどうなるのだろう。

ギリシャは長年その贈収賄等不正腐敗及び納税率の低さ(脱税・未納税)を野放しにしてきた。ユーロ加盟後もその風潮は余り変わらず、政府は税収がないまま、それこそ誤魔化しとその場凌ぎの政策を続けてきた。

IMF欧州中央銀行・ECに全く非がないとは言わないが、時分のせいで頸が回らなくなり、一度救済を得て、それに伴う返済条項を遵守できなかったのはギリシャの責任が大きい。自国政権が積み重ねてきた横領や贈収賄、そして一般市民レベルでの脱税や未納税を重要視し、その様なことが二度と起こらないようにすれば再建も可能だろう。

だが、新たな首相が選ばれたからと言って、自国が過去に行ってきた悪政を棚に上げて全部ひとのせいにするのは見苦しい。むしろ盗人猛々しいと言ってもいいくらいだ。

ギリシャ政権が取っている姿勢は、皮肉なことに極右の反EU派に勢力拡大の好機を与えるものだ。そして、いくら去勢を張っても、どこかから金を調達しなければならないのも確か。クラウドファンディングで一国を救おうとする若者達もいるようだが、既に期限切れでもあり、その金額からしても難しかろう。また、そのようなイニシャティブは短絡的であり、薬が切れた薬物乱用者を見て、可哀想だからと麻薬を与えるようなもの。やめた方がいい。

単純化してみると、自国の長年にわたるミスで巨額の借金を抱え、借金にかけずり回って、もう誰も貸してくれないときにお願いできる最後のよりどころであるIMFに金を借り、それも返せなくなってしまったのがギリシャなのである。そのため、ギリシャはもうすでに借金を返さない・返せないという「実績」を作ってしまったので、ECやECBも貸し渋るのは当たり前。

世界の一般市民の善意で集まった資金も、借金の一部を返済に当てられるだけで、ただ飲み込まれ、無駄に終わる可能性が高い。そしてそのあと国を管理運営するための資金はそこをついている。人件費や管理運営費、事業費などに当てる金がなければ、国は機能しない。

さらに、ギリシャの提案拒否は、近年の全般的右翼化と資本至上主義の増強への反動か。スペインでもマドリッド市長選のように共産左翼及び極左候補の選出が見られている。果たしてこの傾向がさらに強まるのか。強まるとすれば世論の極性化が起こり、中庸派が減少する。

各自が身勝手で理不尽な言い分を通そうとして、協議が討議になり、共存を許さない主張のぶつかり合いが主流、即ち「対立の時代」の到来か。

2015-01-10 フランスのテロ事件についての雑感 このエントリーを含むブックマーク このエントリーのブックマークコメント

フランスを震撼させたCHARLIE HEBDO襲撃及び警官殺害事件が終結。

三名の犯人がイエメン過激派系であり、二名がアルカイダ、一名がイスラム国を名乗ったことから、イスラム移民が多いこの国で今後どのような反応があるか、一抹の不安が残る。既にモスクなどに対する嫌がらせや放火までが起こっており、これに対して過激派が報復テロという図式が成立すれば悪循環を起こしかねない。

明日、パリで追悼の大集会が行われるそうだが、かなり厳重な警戒態勢が敷かれるだろう。

「宗教を揶揄・罵倒してはならない」という意見もよくわかるが、だからといって今回のような行為が許されるわけもなく、口実にもならない。当地の宗教観は日本におけるそれとは全く異なり、代表的一神教三教の信者が数多くいるので、過激派が他の宗教や他宗派に牙を向きはじめると、標的はいくらでもある。フランスの中型以上の市であれば、どこがテロの標的になっても不思議はないのである。

パリ東部ヴァンセーヌに立てこもった犯人が選んだのは、ユダヤ系の小さなスーパーだった。そこで犯人は立てこもり次第人質四人を殺害している。このスーパーに立て篭ったのは「パレスチナに対するユダヤ人の仕打ちに対する復讐」。この矛先がキリスト教に向くことも十分に考えられるし、警察・軍ほかフランス政府関係が狙われる可能性もこの先十分ある。

日本人の反応の一部に諷刺週刊誌の側が宗教を揶揄・罵倒したのがいけない、というような書き込みがしばしば見られた。これは二重三重の意味で場違いであり勘違いでもある。

まず、いくら低俗であろうと、非武装の民間人を違法な重装備の他の民間人が殺戮することは許されない。オウム真理教のテロが許されないのと全く同じで、宗教観に基づく自己判断で人を好きな様に殺すことが現代社会で許されるわけがない。

また、欧州諸国において日本式事なかれ主義は通用しない。代表的一神教三教の信者が住民の大多数を占め、その土壌は、法事に出た後で神社にお参りして、その翌月教会で結婚式を上げる、そんな日本の曖昧な宗教観に基づく国とは全然違うのである。

さらに、当地欧州では言論の自由はかなり広義に受け止められ、昨今日本のメディアで目立っているような現政権に媚びて迎合する「自主規制」はないし、当局も禁止しない。日本ではどこかの団体から抗議があると、メディアはすぐに頭を下げ表現や用語を変えてしまうばかりか、記事の末梢まで行う。日本においてなんと「使用禁止語」が多いことか。

上述の事柄を踏まえ、今後フランスの治安がどうなって行くのか、民衆はどう反応するのか、そして近年の経済恐慌・低迷により不満分子が多い中、極右がこの事件をどう利用しようして反移民感情を煽り、支持者を増やそうとするのかを注意深く見守らなければならない。なぜならば、政党政権であろうが宗教であろうが、言論に対して暴力や弾圧で対向した例は歴史上いくらでもあるのだ。