Hatena::ブログ(Diary)

セッションオヤジの怠惰なボヤキ このページをアンテナに追加 RSSフィード


2015-12-09 テキストマイニングとトピックモデル このエントリーを含むブックマーク このエントリーのブックマークコメント

いやはや、そうこうしているうちに教員指導員弁護士代議士医師議員その他「先生」と呼ばれる人々が健脚でなくてはやってけない季節になった。

盂蘭盆のころだったろうか、テキストマイニングベイズ統計について書いたのは。

まあ、いつでもいい。

そのときに、玉石混交のビッグデータを扱うのは大変だという話をした。それはそれで依然として大変なのではあるが、そういうぐじゃぐじゃっといろんなモノが混ざりまくっているでーたをどうにか分類できないものかと考えた人たちがいて、各語彙の出現確率を元に機械学習を利用して題材を提案する手法ができた。確率分布から、こういうキーワードで構成される題材がありまっせ、とご注進してくれるのだ。もちろん機械がやることなので、ぶっとんでいるときもある。

特に日本語の場合、語彙間の関係を探るためには然るべく形態素を分析して分ち書きにしてやらなければならない。ええと、分かりやすく言うならば、英語の場合、単語と単語の間にスペースが入るし、とにかくわかりやすい。日本語の場合、語彙と語彙を区切るのは句読点と改行しかないので苦労するし、こんなふうにかんじなどつかわずになんでもかんでもひらがなのみでかいたぶんしょうなどがあるとあびきょうかんなのだ。旧仮名遣いとか旧字体候文なんか出てきた日には踊ってごまかすしか無くなる。

で、その「題材見つけまっせ」の手法、トピック分析・トピックモデルというのだが、期待されているわりにはその用途がなかなか見出せない。図書館などで、折り紙の本と室町時代の歌集と再生医療の本をごっちゃ混ぜにしていて、そのあらすじをデジタル化されていて、さあ、分類しようか、などという例はまずない。用途があるとしたら、過去10年間の新聞を読んで、社会欄の記事の題材でどんなものが主流なのか、といった研究や調査には使える。

しかし、この手法はまだ研究され始めて日も浅く、方法論的にコンセンサスもなく、まだ開発中といってもいい。ということは、手法がころころ変わったり、こっちがいいあっちがいいとみんなそれぞれ自分のやり方がいいのだと主張していて、まだまだ確立されたものがない。

上でも述べたが、日本語という言語、一筋縄ではいかず、海外で開発されたトピック分析・トピックモデル関係の研究用ソフトでは対処しきれていない。「できるよー」と言ってた現在最もパッケージに近いソフトも、実際やってみると、「題材、こんなんがぎょうさんでてはりまっせ」とご注進に来たのはいいけれど、その題材の上位がずらりと意味悲鳴阿鼻叫喚であることがしばしばなのである。機械学習で題材を自動分類するはずが、出てきた題材を人癌がしっかり見直して解釈して選別しなければならんのだから、うん、まずいなあ。。。

今後こういった点が解消され、日本語にしっかり対応したものが出てくるといいなあ、と思う今日この頃。何年先になるかは知らないが、それまではきちんと題材を絞って、それを内容分析にかけるのが無難だろう。

どっとはらい

2015-08-30 ベイズ統計学とビッグデータに関する雑感 このエントリーを含むブックマーク このエントリーのブックマークコメント

ベイジアンネットワークビッグデータの分析に応用する傾向が強まっている。確かに分類に威力を発揮してくれる手法だ。とは言え、玉石混淆・何でもありのビッグデータを扱う場合、解析の前にデータを整理するなり解析対象の階層化や亜集団の抽出を行うなりした方がよい。

「データは多ければ多いほどよい」という概念が一人歩きし、その頭に「なんでもいいから」が付いてしまったようだ。

対象集団を定義せず、拾えるデータを闇雲に量だけ集めて解析を行うのは愚かな事である。ものすごい例えだが、油圧ショベルを使って栗拾いをしたとき、土や石ころや落ち葉や枯れ枝、ときにはドングリなども一緒に持ってきてしまう。そうすると、虫食いの割合を算定する前に、まず土や石ころその他から栗を選り分けなければならない。

今日ビッグデータで分析されていることの結果が最終的に二項分布するような単純構造を取る場合が多い。

だが、「商品のウケがいい」だとか、「利用者が求めているのは高品質で値段が手頃で使いやすい製品である」みたいなことを見いだすのに、わざわざグラフ理論ニューラルネットワークを使わなくても単純集計で知る事ができる。

ベイジアンネットワークの応用は、要素が複雑に絡み合い、「多い・少ない」「関係がある・ない」だけではなく、各要素間の関連性やそれらの強弱、さらに、その全体像から見いだせる関連性の強さ構成ノードに基づく亜集団を探る場合に効果を発揮する。やはりこういった手法は、非定量データから複雑な社会学的現象を解明するような場合に有効なのである。無論、その場合、然るべき定性分析による検証を行う事が望ましい。

興味のある方は、一先ずテキストマイニング系で定評があり、今や日本語内容分析の定番となりつつある立教大学の樋口氏によるフリーソフトKH Coder(http://khc.sourceforge.net/)のサイトを参照されたし。研究事例も多く揚げられている。

そしてここで少し宣伝:小生も微力ながら協力したKH Coderを使った学術論文の一つ。先に述べた特攻隊員の自己アイデンティティを彼らの手記から探求した論文である。

http://www.tandfonline.com/doi/full/10.1080/09555803.2015.1045540#abstract

2015-08-23 統計解析結果が意味するところ このエントリーを含むブックマーク このエントリーのブックマークコメント

昨今のビッグデータ騒ぎで近頃やたらと統計学がもてはやされている。ビッグデータって、有用情報群の抽出だけで時間もマシンパワーも食うので、無駄が多いなあ、と思ってしまうのは私だけだろうか。

それはさておき、

統計学有意水準とは、「実はこれだけの割合でハズレ」である確立を示している。学術論文でよく見かけるのが「危険率pが0.05未満だと有意」と仮定しているケース。

これが何を意味するかと言うと、この仮説は5%、即ち20回に1回はハズレるということ。これが適用範疇の広い論理・論説についてであれば、首尾範囲が広いだけハズレる可能性も高かろう。

たとえば、過去10年間の首相演説を集め、独善的な発言の出現頻度と政策における民意無視の関連性を調べたら、1%レベルで有意だったと過程しよう。これは、100の演説を聞いたとき、独善的な発言の頻度が民意無視につながっていないケースは1つだけということになる。これは信憑性が高いといえる。

しかし、こういう有意水準を、たとえば、電子レンジを作っている会社の製造現場に持ち込むと、それはエライことになる。出来上がり製品の20台に1台が不良品だったらとんでもない話で、その会社は近いうちに潰れること必至。

従って、統計は絶対的判断を下すための道具ではなく、飽くまでも「もしかしたらハズレる可能性」を計算する学問。統計解析結果は目安であり、「なんとなくそうかも」を「十中八九そうだろう」にしてくれるだけなのである。

「はずれるときもあるさあ」というスタンスを取っているのだ。

おお、何と現実的な学問!

従って、ある論文が「統計的に有意だった!」と力説している場合、標本数(N数)と有意水準(0.05または0.01未満もしくは1%や5%)を見てみよう。

江戸川区一之江四丁目在住の主婦10人に聞いてみた」では、その結果を日本国民全体に延長できないのは明らかだ。

さらに、「まだ研究段階でそのくらいの間違いなら起こってもまあ仕方がない」、あるいは「20回中19回乃至100回中99回その仮説が当てはまるならばすごい」にと思えるなら、意義のある解析方法だ。

統計を過信したり、統計で誤摩化されないように注意しよう。

2015-07-06 ギリシャに関する個人的雑感。 このエントリーを含むブックマーク このエントリーのブックマークコメント

いよいよギリシャは提案を拒否した。これは泥沼になりかねない。そして、ここ欧州に在住している者として、身近な危機でもある。

勿論、世界経済及び金融に少なからず影響するので(既に起こっているが)、日本の皆さんも対岸の火事とばかり悠長に構えない方がいい。

ECBがギリシャの銀行への供給を止めれば、ギリシャは大変なことになり、同時にユーロ圏、ひいてはEUそのものの存続が親夫馬れる自体を引き起こしかねない。従って、協議の再開となるだろうが、はたして現代の世相のように「ごねたもん勝ち」になるのだろうか。

今のギリシャは借金を踏み倒す算段をしており、その借入金は少なからずヨーロッパ諸国の住民の血税なのであり、その中には、僅かではあるが、当地で貧乏している小生が納めた税金の一部も含まれている。

子供が我を通すため叫びわめいて暴れたとき、大人は時として折れる。

大人が折れることを覚えた子供は、増長する。

こういった例が一般化したらどうなるのだろう。

ギリシャは長年その贈収賄等不正腐敗及び納税率の低さ(脱税・未納税)を野放しにしてきた。ユーロ加盟後もその風潮は余り変わらず、政府は税収がないまま、それこそ誤魔化しとその場凌ぎの政策を続けてきた。

IMF欧州中央銀行・ECに全く非がないとは言わないが、時分のせいで頸が回らなくなり、一度救済を得て、それに伴う返済条項を遵守できなかったのはギリシャの責任が大きい。自国政権が積み重ねてきた横領や贈収賄、そして一般市民レベルでの脱税や未納税を重要視し、その様なことが二度と起こらないようにすれば再建も可能だろう。

だが、新たな首相が選ばれたからと言って、自国が過去に行ってきた悪政を棚に上げて全部ひとのせいにするのは見苦しい。むしろ盗人猛々しいと言ってもいいくらいだ。

ギリシャ政権が取っている姿勢は、皮肉なことに極右の反EU派に勢力拡大の好機を与えるものだ。そして、いくら去勢を張っても、どこかから金を調達しなければならないのも確か。クラウドファンディングで一国を救おうとする若者達もいるようだが、既に期限切れでもあり、その金額からしても難しかろう。また、そのようなイニシャティブは短絡的であり、薬が切れた薬物乱用者を見て、可哀想だからと麻薬を与えるようなもの。やめた方がいい。

単純化してみると、自国の長年にわたるミスで巨額の借金を抱え、借金にかけずり回って、もう誰も貸してくれないときにお願いできる最後のよりどころであるIMFに金を借り、それも返せなくなってしまったのがギリシャなのである。そのため、ギリシャはもうすでに借金を返さない・返せないという「実績」を作ってしまったので、ECやECBも貸し渋るのは当たり前。

世界の一般市民の善意で集まった資金も、借金の一部を返済に当てられるだけで、ただ飲み込まれ、無駄に終わる可能性が高い。そしてそのあと国を管理運営するための資金はそこをついている。人件費や管理運営費、事業費などに当てる金がなければ、国は機能しない。

さらに、ギリシャの提案拒否は、近年の全般的右翼化と資本至上主義の増強への反動か。スペインでもマドリッド市長選のように共産左翼及び極左候補の選出が見られている。果たしてこの傾向がさらに強まるのか。強まるとすれば世論の極性化が起こり、中庸派が減少する。

各自が身勝手で理不尽な言い分を通そうとして、協議が討議になり、共存を許さない主張のぶつかり合いが主流、即ち「対立の時代」の到来か。

2015-01-10 フランスのテロ事件についての雑感 このエントリーを含むブックマーク このエントリーのブックマークコメント

フランスを震撼させたCHARLIE HEBDO襲撃及び警官殺害事件が終結。

三名の犯人がイエメン過激派系であり、二名がアルカイダ、一名がイスラム国を名乗ったことから、イスラム移民が多いこの国で今後どのような反応があるか、一抹の不安が残る。既にモスクなどに対する嫌がらせや放火までが起こっており、これに対して過激派が報復テロという図式が成立すれば悪循環を起こしかねない。

明日、パリで追悼の大集会が行われるそうだが、かなり厳重な警戒態勢が敷かれるだろう。

「宗教を揶揄・罵倒してはならない」という意見もよくわかるが、だからといって今回のような行為が許されるわけもなく、口実にもならない。当地の宗教観は日本におけるそれとは全く異なり、代表的一神教三教の信者が数多くいるので、過激派が他の宗教や他宗派に牙を向きはじめると、標的はいくらでもある。フランスの中型以上の市であれば、どこがテロの標的になっても不思議はないのである。

パリ東部ヴァンセーヌに立てこもった犯人が選んだのは、ユダヤ系の小さなスーパーだった。そこで犯人は立てこもり次第人質四人を殺害している。このスーパーに立て篭ったのは「パレスチナに対するユダヤ人の仕打ちに対する復讐」。この矛先がキリスト教に向くことも十分に考えられるし、警察・軍ほかフランス政府関係が狙われる可能性もこの先十分ある。

日本人の反応の一部に諷刺週刊誌の側が宗教を揶揄・罵倒したのがいけない、というような書き込みがしばしば見られた。これは二重三重の意味で場違いであり勘違いでもある。

まず、いくら低俗であろうと、非武装の民間人を違法な重装備の他の民間人が殺戮することは許されない。オウム真理教のテロが許されないのと全く同じで、宗教観に基づく自己判断で人を好きな様に殺すことが現代社会で許されるわけがない。

また、欧州諸国において日本式事なかれ主義は通用しない。代表的一神教三教の信者が住民の大多数を占め、その土壌は、法事に出た後で神社にお参りして、その翌月教会で結婚式を上げる、そんな日本の曖昧な宗教観に基づく国とは全然違うのである。

さらに、当地欧州では言論の自由はかなり広義に受け止められ、昨今日本のメディアで目立っているような現政権に媚びて迎合する「自主規制」はないし、当局も禁止しない。日本ではどこかの団体から抗議があると、メディアはすぐに頭を下げ表現や用語を変えてしまうばかりか、記事の末梢まで行う。日本においてなんと「使用禁止語」が多いことか。

上述の事柄を踏まえ、今後フランスの治安がどうなって行くのか、民衆はどう反応するのか、そして近年の経済恐慌・低迷により不満分子が多い中、極右がこの事件をどう利用しようして反移民感情を煽り、支持者を増やそうとするのかを注意深く見守らなければならない。なぜならば、政党政権であろうが宗教であろうが、言論に対して暴力や弾圧で対向した例は歴史上いくらでもあるのだ。

2015-01-04 ハイレゾばか騒ぎ このエントリーを含むブックマーク このエントリーのブックマークコメント

近頃の日本では「ハイレゾ」と称してバカみたいに高解像度の音源を再生することを提案し、「いい音でしょ、ねっ」と押し付けている模様。

ご存知の通り、言い出しっぺはソニー。なぜか既に「ハイレゾ対応」携帯電話が販売されている。無駄な高スペックに対応していて、高価な器機を売る魂胆が見え見えである。

例の「ハイレゾ」ロゴは日本オーディオ協会ソニーから商標権譲渡を受けたもの。日本オーディオ協会一般社団法人で、理事長はパイオニアマーケティング社長の校條 亮治。法人会員に主立った音響・音楽産業の大手が名を連ねる。(http://www.jas-audio.or.jp/about/link)ここが「仕掛けて」いるのが、ハイレゾという協会規格を一般化させて、高価な機材や音源を買わせること。

ハイレゾ」の定義には現在の44.1kHz/16bitを超え48/24以上となっているが、なんだか96が主流なようだ。ビット深さの24(bit)がサンプリング周波数(192, 96, 48, 44.1ほか)よりもはるかに重要であることは言うまでもない。また、現在販売されているCDの44.1/16がスペック上人間の平均的聴覚を遥かに超えていることも事実である。


4Hzから100kHzまで再生するヘッドホンなどを作って5万円くらいで売っているのだが、人間では到底聞こえるわけがない音が再生周波数帯域の八割位を占めている。骨伝導に頼っているのか?そうだとすると、大方は音を聞く器機ではなく、振動を生体に伝える装置だ。マッサージ機と似たようなものなのだ。尚、ハイレゾが凝りをほぐすなど健康にいい影響を与えるかどうかかはわからない。

因に、スピーカーを作るのはかなり苦労すると思う。また、スピーカーでの再生ができたとしても、電気的及び物理的な定量は可能でも質的な確認はできない。従って、再生音の質は評価できない。

さらに、23kHz以上でどんな音が鳴っているのかは我々人間の感覚ではわからない。でも動物にはこの周波数帯が可聴域に入る主も少なくない。従って、4Hzから100kHzまで再生するスピーカーを作って鳴らすと、我々の可聴域を超える高域に対して近くにいる動物が反応してしまい、結果的に環境破壊に繋がりかねない。動物の可聴域を知りたい方はこちらへ→http://www.asahi-net.or.jp/~hb9t-ktd/music/Japan/Research/MediaArt/hearing_range.html

器機に40kHzまで再生できることを求めるのは愚の骨頂.人間の可聴域上限はせいぜい下が10Hz・上が23kHzくらい。そこに留まっていればいい。40kHz、80kHz、そして100kHzまで再生する器機でハイレゾ音源を大音量で流したら、いろんな動物がよってきたり苦しんだり喜んだりするだけだろう。

ちょっと考えればすぐわかることだが、音源制作現場で192/24や96/24で作業して、それをダウンサンプリングする。その際、ソニー社のハイレゾ対応器機を使っているわけではない。第一、最近までそんなものはなかったのだから、ソニーが宣伝騒ぎを始める前にあった機材で十分対応できていたというわけなのだ。

ということで、果たして我々人間は「ハイレゾな音」と既存の音源を聞き分けることができるのだろうか。

とある記事(http://www.phileweb.com/review/article/201311/06/982_4.html)で「検証」らしきことをしていた。まず、その「検証実験」がとにかく酷い。実験にも検証にもなっていないのだ。とにかく「ハイレゾ」に媚びていて、偏りまくりなのである。なぜか。

  1)実験計画を立て、最適と思われる評価法を採択

  2)仮説では「聞き分けられる」はずが、そうではなかった

とまあ、この時点で本来の結論は出ているのだが、問題はそのあと。評価法や基準を変えたり、評価パネルを変えたり、とにかくなんでもこねくりまわして無理矢理「聞き分けられましたー」なようにしている点である。

まあ、当人らも白状しているように、「聞き分けられないことにしないと業界人としてマズイ」のである。善意に解釈してみると、実はこの記事、宣伝であって、著者らはわざとこういう書き方をして、暗黙のうちに「本当は聞き分けらんないんだよ」と言っているのではなかろうか。依頼されて検証して記事書いてギャラもらう立場上、ストレートに「聞き分けられません」とも言えないのかもしれないのだ。

ハイレゾ推進派が言及したがらない点がある。それは元になる音源の質だ。

元々ハイレゾではない音源の例を挙げてみよう。昔のアナログ音源で22kHzを超える高域がきちんと録音されているものは皆無だろう。入っていたとしても、大方の場合干渉ノイズだ。それを無理矢理40kHzまでカバーする音源に変換するには、音を人為的作為的に足してやらなければならない。また、44.1/16の音源をアップサンプリングする際も、高解像度にするために足りない情報を「補間」、すなわち埋まるように付け足すことが必要になる。

この作業は利用するアルゴリズムや、ディザを平滑化し線形に近似する手法、そしてそのためのステップ数によって大きく変わり、個々の音源によって異なるため、規格化は不可能である。また、このような作業を行う機材は非常に高価になり、普通の録音スタジオではなかなかお目にかかれない。

さて、ここまでしてハイレゾ音源を作るよりも、48/24という十分すぎる高スペックにして、ヘッドルームを大きくして、現在横行しているコンプとリミッターで 0dB FSベッタリな音ではなく、よりメリハリや強弱、そしてニュアンスが再現されている表現力豊かなミックスをすればいい。

アナログ音源のリマスタリングの多くが「音圧を稼ぐ」ために0dB FSベッタリのリミックスを施され、悲惨な姿になった例を知っている人も少なくなかろう。なので、ソニーの策であるハイレゾ云々に乗せられず、より繊細な音源作りを目指すことが肝心なのである。

尤も、昨今のアニソンや昨今のアイドル系の制作レベルを見ると、基本的にいいものは望めない。ソニーやその尻馬に乗っている業者は、今のところターゲットにされているヲタな人たちをターゲットにして一生懸命高い機材を売りつけて満足していればよかろう。それを一般消費者レベルまで普及させようとするのはおかしい。

Loudness Warは集結しつつあるとは言え、その爪痕を生々しく残している。未だにコンプやリミッターを乱用し、音楽性を無視した音量底上げのみのマスタリングやミックスが多い。アナログ音源の劣悪な「リマスタリング」もまだまだ出てきている。

音量、サンプリングレート、ビット深度などをむやみに上げたオーバースペックな機材に頼っても「いい音源」は作れないし規格化できない。そんなものを売りつけようとせず、基本に立ち返ってミックスやマスタリングを重視し、「音楽は芸術」と言えるような音源を作ることを心掛けてはどうか。

ソニーらの策略に乗せられて、高い機材を買うのは考えものなのである。

夢を 果てなき夢を 果てなき 2015/08/29 14:23 コンテナだけを特別なものにしても、中身が伴わなければ何にもならないと考えていましたので、同じような考えの方を発見できてうれしいです。

ググタスで、この名前で発言しています。

夢を 果てなき夢を 果てなき 2015/08/29 14:24 コンテナだけを特別なものにしても、中身が伴わなければ何にもならないと考えていましたので、同じような考えの方を発見できてうれしいです。

ググタスで、この名前で発言しています。

session_oyajisession_oyaji 2015/08/30 11:53 小生、こう考えるのが当たり前だと思うんですが... みんな数字に踊らされてますね。
コウモリやクジラが喜ぶ音響装置もいいんですが、今のところ劣悪なミックスと128や196の低解像度のMP3の氾濫をなんとかしてほしいものです。
近年の曲(と言い難い作品も多々有り)はコード進行ばかり気にして、ブロックで作っているようなので、どうしても主旋律と主題が曖昧模糊としており、音の数とコードの数を増やせばいい曲ができると思っている節があり、なんとも悲しいです。