- 年末年始に集中的に研究にとりくみ、いろいろと分かりました。
- BFGS の数値的安定性はいろいろな数値実験によって確認されています。これを自分なりの視点から理論的に示すことができました。
- そのあたりについて、サーベイをする必要もあります。
- em-type bregman projection について、その収束先の候補が多次元に広がっている場合に、収束先の特徴付けをしたい。
- 論文を執筆中です。来週中に一通り仕上げることが目標です。
- 修論発表がありました。発表者の皆様、おつかれ様でした。
- メモにまとめました。
- update formula が、一般には SL(n)-invariance だが beta-div の場合のみ GL(n)-invariance になるのはなぜか?
- PD(n)上に定義可能な幾何学と関連していますが、まだ見えません。
- 収束性について KL-base でなく Bregman-base で評価するとどうか?
- 超1次収束性?
- 今年も素晴らしい共同研究者の方々に恵まれ、研究を進めることができました。ありがとうございます。
- もしかしたら今年は「研究者」でいることが出来たかもしれません。
- 来年も全力を尽くしたいと思います。(今年の残り数時間、もう少しネバりますが)
- beta-divergence leads GL(n)-invariance in PD(n), though others have only SL(n) invariance.
- quasi-newton alg. is derived based on a variational view.
- I've done; description of algorithm, convergence, exploiting sparseness of Hessian matrix, effect of numerical outliers, robust update based on statistical devices.
- How should the effect of numerical error be measured?
- superlinear convergence is still open.
- This is it!
- doubly flatness leads a unified geometrical structure. The nice view will be broken under the V-extension.
- 2週間ほど前、boosting with prior knowledge について、いくつか計算して、発表をしました。
- これについて、当初は論文にするつもりはありませんでしたが、たけさんも興味を持っているようで、共同研究としてまとめようということになりました。
- U-conjugate prior and variable change。
- 1月末にある information geometry 関連の ws での発表を依頼され、それに向けて以前から気になっていた事柄について、昨日から考えはじめています。
- PD(n) 上の幾何学と quasi-newton。V関数から導出される Hessian update formula を計算しました。V関数の性質から、DFP や BFGS の計算に近い形式が出てきます。従来ほど簡単な update formula ではないので、計算効率の面では若干の behind があります。年末年始はこれに集中したい。
- これについて、Dr.OH さんとの共同研究をしようと考えています。
■[本・論文] On the mathematical foundations of learning, Cucker and Smale.
- RKHS 関連の復習で読みました。来期の講義の参考します
- Sobolev embedding theorem については引用のみで証明はなし。
- h>n/2 で RKHS から Sovolev space への injection が存在する。
- RKHS の kernel k が定義する linear operator L_k の eigen function や eigenvalue から近似精度を導出。
- Sovolev から C(X) への injection の存在。Sobolev embedding theorem。Sovolevl の covering number はいろいろ調べられている。
- A new approach to collaborative filtering: operator estimation ...., JMLR.
- collaborative filtering with kernel method. representer theorem. **Square root of Gram matrix** is required...
- Rademachre and Gaussian complexity: risk boundes...,JMLR を復習
- unit shperer in RKHS の data-dependent complexity は O_p(1/sqrt{n}).
- IPM, f-div and binary classification
- IPM and f-dvi: total variation distance
- empirical computation of IPM: LP is available
- uniform consistency and rate of convergence: standard approach based on Geer's book.
- binary classificaiton and IPM: complexity of classifier <--> IPM <--> Risk (linear loss)
- confliction of convexity and metric properties in f-div.
- triangle ineq. on f-divergence leads a specific form for f.
- Margin-based Ranking and an Equivalence between AdaBoost and RankBoost, JMLR.
- objective func. と margin 最大化との関連。収束性。
- bipartite ranking における adaboost と rankboost の等価性 (with threshold)
- The P-Norm Push: A Simple Convex Ranking Algorithm that Concentrates at the Top of the List, JMLR.
- rankboost を p-norm で実行。R_{p,1} の true と empirical に関する convergence. push at the top of list.
- Discriminative Learning Under Covariate Shift, JMLR.
- covariate shift. generative model, bayesian approach. two-stage approach in optimization.
- 数理統計:Fisher information, Cramer-Rao's ineq.
■[本・論文] optimized cutting plane alg. for large-scale risk minimization, JMLR.
- binary svm without bias term なら kernel化は(形式的には)できます。問題の設定から、bias項についてはもともと考えていない。もちろん、入力を拡張して bias を入れることはできるが、regularization term が少しだけ異なるため、svm そのものではなくなります。
- 計算量については、sub-gradient のところで Gram matrix との掛け算が出てくるので、sparse でないなら O(m^2), m: #samples. 著者らは conclusion で、カーネル化についても考えたいと言っているが、この計算量を気にしているのでしょうか?
- line search のために計算しておく係数達にどのくらいの計算時間が必要か、linear-kernel と non-linear kernel で order が異なるのかもしれません。要確認 → 計算量は同じ。単に represeneter theorem から得られる primal でアルゴリズムを実行すればいいのでは?
- convergence rate の導出に differential eq. を使っています。これは online learning で learning rate も学習するときの convergence rate の導出に似ています。大雑把に言えば、sub-differential+line search と stochastic gradient+adaptive learning rate は、最適解の近くでほとんど同じ挙動を示す、ということのようです。
- U-conjugate で考えたら、非常に簡単になりました。数値実験では、今のところあまり優位性がありません。
- Schapire et al. の incorporating 論文では toy problem の結果が載っていないので、なぜうまくいっているのか、よく分かりません。
- 準備:1年生の統計学。不偏推定量。図を多く入れています。
- Bayes 研究会に向けて、数値実験をしました。
- deformation of loss と incorporating prior knowledge がある場合には等価という話を boosting に応用します。その結果、計算時間が短縮します。なぜなら virtual samples を追加する必要がないからです。
- 普通の regularization とは異なり、結局は overfit するようです。このあたりを考えましょう。
- Greedy algorithm. Scheduling prob. に対する greedy alg. と その optimality。
- 終わる時間が出来るだけ早いものを、どんどん取り込んでいきます。optimality の証明: f(i_r)<=f(j_r) に帰納法、最小性には背理法を用いる。
- 数理統計学の講義の準備。昨年度からの資料を使います。不偏推定量など。
■[研究会] WS on Machine Learning at ISM in Tachikawa
- 事典の項目を1つ担当しています。集団学習を4ページで解説します。内容は、bagging, boosting, stacking, ECOC です。どうにか書き終えたので、締切に間に合いそうです。
- mixture of experts と stacking の関連などは軽く触れていますが、ECOCとboostingの関連については全く触れていません。ページ制約がありますが、互いの関連をもう少し掘り下げて書くべきだったかもしれません。
- Mゼミ:Rの使い方。
- Bゼミ:ICA, FIR, IIR。定常非定常、エルゴード、非正規。分かりやすい説明でした。
- 明日の統計学(1年生)の講義を準備しています。解説はプロジェクタを使い、その後黒板で問題演習をします。多変数の確率変数、独立性、正規分布について説明する予定。
- 主に企画セッションについて、すこしづつ書いていきます。
- 金融リスクと統計的学習
- コピュラの定義はいままで何度か見たことがありますが、最も分かりやすい説明をしてもらえたと思います。
- 極値統計について自分の研究(条件数ネタ)に若干関係することもあり、興味を持って聞きました。講演後に質問をしたら、その場で論文を頂きました。ありがとうございます。
- 自分の考えている問題では相関構造を統制するのが難しく、極値統計の結果をそのまま使えるところまで理解が進んでいません。
- 音声・音響処理と機械学習
- 化学構造とその数理
- 木を文字列の空間に埋め込んで、編集距離で差を測る。
- 疎グラフ上のダイナミクス
- 最小頂点被覆や LDPC 復号をグラフ上のダイナミクスとして解析する。定常状態がなくても解析できるようです。
- ランキング学習の最前線
- Ordinal regression としても定式化できるが、よりデータ形式に沿った定式化として pairwise, listwise で学習する。統計モデルを用いた方法も紹介されていました。Ordinal regression との理論的な関連について講演後に質問しましたが、まだあまりクリアには分かっていないようです。
- パターン認識の新潮流
- 広がる機械学習応用のフロンティア
- ポスター1日目
- ポスター2日目
■[講義] 数理統計
- 確率論の復習をしました。条件付き確率、正規分布など。
- IBISで聞いた、隣の家に女の子がいる確率の話を早速講義で話してみました。結果は、確率を 1/2、1/3 と回答した学生がぞれぞれ半々くらいでした。
- R本は無事に出版されました。
- 事典の執筆期限が迫ってきています。Ensemble learning はあまり知らないので、勉強しています。
- 投稿しました。すでに integrability はメインではありません。loss の deformation という視点です。
- 先週の奈良meeting での成果も入れました。ありがとうございます。
- 明日から出張です。最近の話題について勉強したり、いろいろな人と議論できればいいと思います。
- 特異モデル推定について、Dr.ジャージ 改め Dr.スーツさんに講義して頂きました。
- 極めて刺激的な talk でした。Linear reg. with 直交基底 の 変数選択と汎化誤差、モデル選択と順序統計量など。
- Lasso, Danzig selector との関連も気になります。
- 少し休んで心機一転し、全く違った方向の研究(positive-definite 関連)に打ち込む予定です。
- たけさん@横浜との共同研究も進めたいと思います。
- multibag もいろいろ考えたい。
- 12月の bayes関連研究集会に向けたネタも完成させないといけません。
- 研究 meeting with たけさん at 横浜。
- primal SVM を online learning で学習するアルゴリズム(ペガサス)について紹介しました。
- かなり当たり前なアルゴリズムと思いますが、online learning の tight な bound を援用した誤差評価が勉強になります。
- たけさんとの今後の研究方針について議論しました。SVを事前にどの程度 detect できるか?
- 研究 meeting with たけさん at 奈良
- 多値判別のための損失関数について話を聞いてもらいました。
- model of mislabeling について、いろいろコメントを頂きました。
の意味付けを考えました。たけさんが言っていたとおり、ある種の直交性が効いています。
- m(y|x;F,p) でなはく m(y|x;F,y') を weight とした error rate を導出する損失を全て求め、証明を書き上げました。
- 多値判別の問題ですが、ラベル数が5以上の場合に証明できました。
- あまりにも研究に打ち込みすぎたので、もしかしたら新世紀にまで到達してしまったかもしれません。Cool down が必要です。
- 明日から数理統計の講義です。初回は確率論の復習をします。今期、初回は問題演習を中心に据えて、反応を見たいと思います。
- イントロに multiclass loss を比較する subsection を加えました。
- robustness を言うために、weight の uniform dist からの deviation を数値的に求め、結果を図示して論文に載せました。
- ある程度は予想通りの結果になりました。hard samples が多いほうが weight dist が uniform に近くなるのは binary madaboost と同じです。Adaboost では hard sample rate が小〜中で逆の挙動が観察されます。それが多値でも成り立っています。
- Logitboost より weight が uniform dist に近いことが言えるかどうかが大切ですが、数値的には成立しています。
- TODO:プログラムにミスがないか確認する。
- 土曜日に発表しました。
- 正則化項に関する質問がありました。本物のデータを扱っている人のこだわりに深く感心しました。
- kernel-decomp 研究 について考察を開始する
- 講義の準備
- グラント申請
- classification calibrated loss であることを確認しました。
- 打ち合わせのために復習しています。すでに投稿した論文ですが、いくつか typo を発見しました。
- \ell の bound のところ。Prank のところ。
- multiclass-madaboost を導出。
- U-loss+moment constraint から形式的に、binary-madaboost を拡張する loss を導出することも出来ますが、その場合には multiclass に対して決定関数と条件付き確率の対応が明確ではなく、その点が不満でした。
- 可積分性から導出した損失では、その対応関係は簡明です。損失関数の凸性の証明に少し手間が掛かりました。可積分 weighted moment match では確率モデルが厳しく制約されることが理由で、新しく導出した madaboost loss に対する most B-robustness などは不明です。
- さらに classification calibrated かどうかについて、考察したいと思います。
- 「創造はしばしば徹底から生まれる」 by 志村五郎氏
- なぜ損失から始めずに moment match から始めるのか? 可積分性から、いままであまり考察されていなかった損失が導出されるからです。T. Zhang 氏がいろいろ考察したり、U-boost などもありますが、それらには含まれず、いろいろなことが解析的に求まるクラスがある、ということです。
- 補足:これだけでは impact はない。統計的・計算的に良い性質がいくつかあることが分かりつつあります。
- R^n を適当に領域に分割し、それぞれの領域上で凸関数が定義され、境界で C^1級になるように関数が連結されているとき、R^n全体で凸関数になっているのは自明なことでしょうか?
- 一応、証明しました(もう少し条件を加えていますが)。
- f1,f2が凸のとき max(f1,f2) も凸です。では min(f1,f2) が凸になるための条件は何か?
- B4ゼミはBishop本読み:平滑化カーネル。
- M2ゼミ:I'm not sure if quasi-Newton method works well for the current issue.
- 論文を修正しています。V=expにおける consistent model が eta>0 に対して計算できたおかげで、構成をかなり変更することになりそうです。
- Eta-loss.M とは異なるクラスを与え、その性質を調べる、というストーリー。
- 可積分性にはほとんど言及しない方針。可積分条件からの(長い数学的論証による)導出がなければ思い付かないような損失関数を、天下り的に与えることになりそうです。少し補足が必要です。
- その代わり、multicategory 版の classification calibrated について証明を加えるつもりです。これは数年前に考えてあって、すでにほとんど出来ています。
- sum_y f(x,y)=0 制約について:確率分布にするために割り算をすることでパラメータに余分な自由度が生じる。これを f(x,y)に対する制約条件によって消している、ということです。
- 再校正を終え、送付しました。刊行は10月中旬に早まったようです。
- 一週間ほどまえ moment match とは少し異なる integrable empirical loss ついて、consistency を成り立たせる統計モデルを導出しました。
- その結果として、multiclass madaboost や exp-loss に対する mislabel model (の亜種) などを提案できそうです。
- 統計学会。チュートリアルで平滑化スプライン方面のノンパラについて勉強をしました。非常によく準備された発表でした。
- その後の市民講演会では、学力調査の統計解析について活発な意見交換があり、関心の高さが伺えました。
- 論文を一通り修正しました。明日、微修正をします。中断していた間に Takenouchi et al, 2008 publish されたので、こちらの論文を書きやすくなりました。助かっています。
■[勉強] 集中講義
- カーネル法についての集中講義がありました。
- 情報幾何との関連は興味深いです。
- あまりよく知らなかった manifold learning の勉強にもなりました。研究分野としては、manifold learning という看板に見合った内容があるようには感じませんでした。今後の進展に期待したいです。
- 長らく中断していましたが、論文を修正しました。早々に投稿したいと思います。
- svn-client を設定しました。Emacs から vc-svn を使う予定です。
- 条件数に関する(おそらく既知の)等式の証明を、きちんと書きました。
- Let A be a positive definite matrix, then
- min(κ(SAS^T):κ(S)<=C)=max(κ(A)/C^2,1).
- 幾何的描像を付けました。
- Qin法の asymptotics について計算し、漸近分散はバラバラ推定より大きいことを示しました。結果は当たり前です。証明のテクニカルな部分については少し考えることができました。
- このような証明や計算を堅実に遂行することは、研究者にとって必要な事務処理能力の一部と思いますが、その先にあるものを追求したい。
- closed seminar で話しました。貴重な意見をいろいろ頂きました。今後の研究に生かしたいと思います。
- outlier detection. binary classification との評価法の違いを確認して明確にする。
- 重み付き最小2乗法によるバイアス補正と分散安定化の関係。
- 幾何的描像について考えています。q\in M なら、qbar と生成されるモデルが一致。あとは ext-KL の分解定理。
■[勉強]本読み:調査観察データの統計科学
- データに対する著者の理解が深く、勉強になります。
- R で実験しながら読みすすめています。理論や手計算だけでは気付かないことがいろいろあることを認識しつつあります。
- セミパラの章は、漸近分散の計算など、初学者が本書だけで結果をフォローするのは難しそうです。
- x≦y で∂l(x)+∂l(-y)≦{0} なら、ordered threshold が成り立つことを証明しました。可微分なら証明は簡単ですが、微分可能でないときの証明ではsubdifferentialに関する性質(maximal totally ordered)を使います。
- 論文はほぼ完成しました。
- 密度比の話をするので、スライドの準備をしています。推定と計算について話します。応用のスライドも付けました。
- ちょっとしたメモを共同研究者さんに送ったら、論文になって返ってきました。
- 2つのうち一方の model が specify されていればある意味で consistent、という結果。似たような話を meta-analysis の文脈で聞いたことがありますが、設定が異なります。