Hatena::ブログ(Diary)

Satomilogical Research

2009-08-25

愛知二日目

| 00:33 |

今日から本格的に実習。ソフトウェアの操作自体はぜんぜん難しくないのだけど、理論編が私には高度で理解に苦しんでいる。ベイズ推定。ガウス・ニュートン法といわれてももにゃもにゃするだけで。わからないことだらけ。さっと箇条書きだけしておきます。

基礎的なことを覚えた

  • 生体の神経活動を計測する非侵襲的手法がいろいろある。
    • 時間分解能・空間分解能はさまざま。用途に応じて使い分ける。
    • パッチクランプ法による単一ニューロンの記録(電気生理)
  • 「機能局在+局所脳血流の増加と神経活動の増加に連関がある」ということに依存する画像化技術が様々ある。
    • 放射性同位元素による特定分子の標識によるもの(PET)
    • 核磁気共鳴現象を利用するもの(MRI
    • 酸化・還元型ヘモグロビンの磁気的特性に依存。
  • 核磁気共鳴を利用するものについて詳しく
    • 投影画像を断層画像にする、二次元フーリエ変換
    • BOLD効果(血液の酸素化の違いによりMRIの信号強度が異なる効果)
    • 画像化・補正の技術とその統計的検定手法

核磁気共鳴現象?

物理の勉強をしっかりしたことのない私にはよくわからない現象。理解している範囲で書いてみる。

  • 核磁気共鳴現象(Nuclear Magnetic Resonance, NMR)を用いた画像化技術がある
  • 測定対象となる原子は?
    • H,C,Na,Pなど。脳画像では主にHを対象とした測定をする。Hをプロトンと呼ぶ。
  • 原子核はある方向を軸として自転している
    • 電子が回転しているから?
    • 原子核内部の電気的性質が異なるから?
  • 回転に伴い原子核周囲に小さな磁気を生じる。これを(核)スピンと呼ぶ。
  • スピンの大きさは(同じ元素であれば)全て等しいが、軸方向がランダムであるため、全体としては相殺されて磁気的性質は観察されない。
  • 強い静磁場の下では、軸方向がほぼ揃う。
    • 逆方向になるものもある。
    • スピンは静磁場に対して平行ないし逆平行になる。
  • 方向が揃っているので、マクロには磁気的性質を持つ
  • それぞれの原子は静磁場方向を軸として回転する。これを歳差運動と呼ぶ。
  • 歳差運動の周波数(Larmor frequency)は静磁場の強度に正比例し、各原子に固有の磁気回転比を係数として持つ。
    • らーもあしゅうはすう…?
  • これと同じ周波数の電磁波(パルス)を歳差運動している原子に与えると、電磁波はエネルギーとして原子に吸収される。
    • この周波数を共鳴周波数と呼ぶ
  • パルス(RFパルス)を与えると原子全体の磁化ベクトルはパルス方向を中心に回転し、静磁場に直行する平面に磁化ベクトルが発生する。
    • たとえばプロトンが強い静磁気のもとで同じ方向を向いている(=全体として磁化している)ときに、別な方向から断続的に共鳴周波数のパルスを与えると、静磁場の方向に直行する平面に磁化ベクトルが倒れる、ってことなのかしら。
    • 磁化ベクトルってなんだ。
    • 静磁場に直行する磁化ベクトルが発生することを励起と呼ぶ。
  • パルスを切るとすぐに原子はもとの状態に戻っていく。
    • これを緩和と呼ぶ。
  • 緩和過程には縦緩和と横緩和があり、静磁場に直行する磁化ベクトル(=横磁化ベクトル?)が時間の経過とともに減衰していくこと
  • 局所磁場の不均一性はこの横緩和過程を促進する
  • 血中ヘモグロビンは酸素化に応じて磁気的特性が異なり、還元型ヘモグロビンでは局所磁場の不均一性を生じる
    • 酸素と結合していると酸化型(酸素化)ヘモグロビン。結合していないと還元型(脱酸素化)ヘモグロビン。
  • 神経活動が増加すると局所の血中酸素が過剰になる
    • 神経活動が増加すると血液量と酸素消費量が大きく増加する。
    • けれど実際に脳組織で利用される酸素はその全てではないので、血中に酸素が余る。
    • なので神経活動が増加している部位では、酸化型ヘモグロビンが多い。
    • すると横緩和過程が(他の部位と比較して相対的に)促進されない。
    • 強い信号が得られる。

…ということなのかなあ。この原理だけわかっても仕方ないんですけどね。

2009-08-24

真夏の愛知

| 21:57 |

研修で24日から28日まで愛知県に滞在します。真夏の愛知は融けるほど暑いと聞いていてかなり警戒していましたが、思ったほどじゃなかったので安心。

2009-07-07

Upgrade Evernote? : Evernoteからの誘惑

| 21:32 |

Evernoteに脅迫/誘惑/勧誘されている。

f:id:satomilogy:20090707211112p:image

曰く、

「あらまあ、かなりEvernoteをお使いですね。今月のアップロード制限のうち、もう50%以上使っちゃいましたよ。もしこの制限を超えると、ノートやノートブックを追加したり修正したりできなくなるんです。上限に達するのを回避するにはEvrenote Premiumにアップグレードするんです。月々たったの$5、一年だと$45になります。これで、月々500MBまでのアップロード、より強固なセキュリティ、優先的な画像認識などなどがついてきます。

いまアップロードします?」

 警告ないし誘惑といった感じがしませんかこの文章。さておき、Evernote for iPhone使ってたらあっというまに半分超えてしまいました。iPhoneで撮影した写真は一枚あたり1MBくらいあるので、クライアントの「Snapshot」かさ撮影してアップロードするととてもやっていけないようにできているんじゃあないか。撮影したものをスライドショーの画面でスクリーンショットに撮る、ということをすればファイルサイズは一気に小さくなります。そんなに高解像度の写真を求めていないときはこの方法で十分だと思う。で、容量の問題。先月は75%くらいで留まったけれど、今月はどうなることやら。便利だからPremiumに切り替えようかなあと悩んでいるわけです。この誘惑に屈したものか、金を払うだけの価値があるものなのか、うーん。というメモです。


再確認。曰く、プレミアムアカウントにすると…

What Evernote Premium users get

* Monthly upload allowance increased to 500MB*

* NEW Add, synchronize, and access any file across platforms and devices

* Stronger security through SSL encryption at login and note transfer

* Priority image recognition

* Premium support

* Ads removed from public notebooks

* More premium only features coming soon!

  • 「月々500MBまでアップロードできますよ」
    • 制限が12.5倍になります。
  • 「どんなファイルでもアップロードできるようになります」
    • フリー版でもPDFをアップロードすることはできますが、MSWORDでもMSEXCELでもテキストでも何でもアップロードすることができるといいます。けれどもそんなものをアップロードする機会があるだろうか?
    • レジュメなどをアップロードできるなら便利かも知れない。けれどアップロードしたファイルの内部まで、全文検索ができないなら用なしです。研究室ではGoogle Desktopが使えないので、すべての資料を全文検索するという力技が使えません。それをEvernoteが代替してくれるならあるいは…。
    • フリー版でもPDFの内部まで検索できます。これはとても便利。
  • 「SSLで暗号化しますよ」
    • セキュリティばっちりだと言いたいんですね。うーん、まあないよりはまし、ですか。
  • 「優先的に画像認識しますよ」
    • 何が優先的なんでしょう。画像認識は日本語が対応していないのであまり魅力的ではありません。
  • 「プレミアム向けのサポートがあります」
    • 具体的には何ですか。
  • 「公開ノートブックから広告がなくなります」
    • あとクライアントの左下にある広告もなくなるということでしょうか。そんなに目立つ広告じゃありませんし、わざわざ消さなくても困るほどのものではないと思ってました。Scansnapの広告が表示されたことがあって、ちょっと新鮮だったのを思い出しました。
  • 「プレミアム様だけの機能がまだまだ増えます」
    • 増えてほしい機能なんてあるかなあ。Windows版クライアントでもWeb版やMac版のようにプレビュー表示できるようにしてください。
    • 右側に表示されるタイムラインが単なる「おもちゃ」すぎる、とかも。あれ何にも使えない。
    • 「このメールアドレスから送信したものには自動的にこのタグをつける」ができたらうれしい。gmailのラベルでできるよな、フィルター機能がほしい。
    • 位置情報をさくさく修正できるよになってほしいなあ。Webからも。いちおう、クライアントのAttributeから変更することはできますが煩雑です。
    • のようにいろいろと要望はあるけれど、Premiumにしたからといって改善しない。

というようなことを悩んでいます。


同じようなことを悩んでいる人が身近にいたときに

ギフトを贈ってあげるといいと思いますよ。たぶん。

参考:Evernote.com | Give the gift of perfect memory

2009-07-03

よくわか統計でやりたいことリスト

| 20:04 |

暫定的な目標リスト。

  • 統計的仮説検定のロジック
    • t分布だのF分布だのはわかりませんけども
  • n要因配置ではどう分析すればいいか?を徹底的にやる。分散分析。
    • 一要因配置はかんたん。
    • 二要因以上になると混合計画があるので大変なことに
  • 「こんなデータがあるんですけどもどういう分析すればいいんだろうか」を解決できるよになる
  • 重回帰分析とロジスティック回帰分析
    • ある変数を統制したり、パス解析したりする例のあれ
    • 従属変数が二値型であるときにはロジスティック回帰
  • 対数線型モデルって何?ろぐりにあ?
  • 一般化線型モデルって何?
  • 心理統計っぽく、主成分分析と因子分析を!
    • 因子分析で出てくる固有ベクトル固有値がどうやって出てくるのか
    • 回転の種類。バリマックス、プロマックス。
  • 実験計画…ごくり
    • 無作為配置とブロックのこと
    • 天敵!ラテン方格
  • また、それぞれに対応するコードの書き方
    • 基本的にはSASで
    • ついでにRでも

くらいかなあ。

おぼえたこと少し

| 20:26 |

xというベクトルでデータを与えたときに、以下の関数でそれぞれ以下のものを出力できます。

mean(x)
平均値
median(x)
中央値
which.max(table(x))
最頻値
var(x)
不偏分散
sd(x)
不偏標準偏差

また、hist()という関数でヒストグラム、plot()という関数で散布図を描画することができます。オプションを指定すればデータと回帰直線を同時に描画することもできるみたい。それは「よくわか統計」の記事を書くとともに覚えていこう。

max(x), min(x), range(x), sum(x)なども覚えた。


このへんを参考にしよう:R言語による統計学

また、tsukuba.Rの過去ログも大いに活用したい。

uncorrelateduncorrelated 2009/10/02 07:47 > 従属変数が二値型であるときにはロジスティック回帰
質的選択モデルという一般名称があるようです。またProbitという選択肢もありますが、Logitモデルのほうが従属変数の多値化や条件付に拡張しやすいですね。

> 一般化線型モデルって何?
不均一分散があるときでも、有効推定量を得ることができる推定方法です。略してGLS。
重回帰分析(OLS)をかけるときには、均一分散、系列相関無し、内生性無しの条件があって、満たされるときにはOLSが最良不偏推定量になります。
それぞれ検定方法や、解決するための手法がありますが、心理統計ではあまり使わないかも知れません。

> また、それぞれに対応するコードの書き方
古い日記になったので会員登録(無料、メアドのみ)しないと見れませんが、Rに関してはメモを書いているので参考まで。

・一般化線型モデルとか
http://uncorrelated.no-ip.com/cgi-bin/view.cgi/20090803/T

・ロジットとか、プロビットとか
http://uncorrelated.no-ip.com/cgi-bin/view.cgi/20090417/T

2009-06-26

よくわかってない統計シリーズ1:代表値のこと

| 08:59 |

 学部生のころは大学院生の統計手法の知識に驚嘆することばかりでしたが、いざ自分が大学院生になってみると後輩に何かを教えられるほどの知識のないことに気づいて絶望した! という出自を持つ「よくわかっていない統計シリーズ」です。これは、「先輩、これってなんですか」と後輩に聞かれたときに、それがどういう概念でどういう計算手順を踏んで、またSASやRではどういうコードを書くのかということを簡単に説明できるようなスマートな大学院生になることを目指して、よくわかっていない統計の知識を自分の中で整理するためのものです。読者フレンドリーではありません。また、Rや統計や数学をばりばりやっているような人々*1にとっては「なにこいつこんな簡単な概念も理解してないの、ばーかばーか」という謗りを受けるレベルのものになると思います。

 適当に始まったので来週には飽きてやめてるかもしれません。それでもいいことにします。ではスタート。

「平均とか分散とか不偏標準偏差とか標準誤差とか…あれはなんですか?」

 初回は「代表値」(average)のことです。といっても散布度を含んで、広い意味での「分布を代表する値」のことを少し整理したいと思います。*2ですので分散や標準偏差など、他の要約等計量についても触れたいと思っています。*3

 学部2年レベルの心理統計の基礎を少しかじったくらいの人が悩むかもしれないところ。私はそのころ悩みました。導出の仕方や使用上の注意にも、難しいところは何もないんですが、特に不偏推定量(N−1で割る)の必要性など、よくわかっていませんでした。とりあえず順を追って、言葉と数式で説明していきたいと思います。どういう順序で説明するといいでしょうかねえ。


平均(mean)ってなにさ

 いちばんよく知られている代表値は算術平均 (arithmetic mean)*4ですね。SASだとproc meanで簡単に出てきます。

素朴に「平均をとる」と言ったときに想像できるものと同じ概念なので理解しやすいと思います。全ての観測値を足し合わせて、観測値の総数(n)で割ることで求められます。

算術平均(期待値expectationの頭文字を取ってE(X)と書く。¥muで書いたり、¥bar{X}で書いたりする):

E(X)=¥frac{1}{n}¥sum_{i=1}^{n}X_i

where

n : 観測値の総数

Xi: i番目の観測値

 たとえば、次のような離散変量のデータを考えて平均を取って見ましょう。

1,1,1,1,2,3,4,5,16,20

 相加平均は5.4になります。しかしこの5.4という値をとる観測値はひとつもありません。もし「観測値の中で上から数えても下から数えても真ん中になるものが知りたいんだ!」という要求がある場合、この相加平均という代表値は適当ではないかもしれません。

そんなときはメディアン(中央値)さん

そんなときにメディアン(median)(中央値とも言う)を用います。メディアンとは、観測値を小さいものから順番に並び替えたときに、中央に来る値のことです。

メディアン:

データを大きさの順に並べたときに、ちょうど真ん中にくる値。

もし観測値の個数が偶数だった場合どうするかって? 実は上の例がまさにそれにあたります。(n=10) このような場合には、中央にある二つの観測値(n=2mのときに、m番目とm+1番目の観測値)の相加平均を取ったものをメディアンとします。上の例ですと、真ん中にあたるのは2と3なので、メディアンは2.5になります。さきほど述べた「その値をとる観測値が一つもない」という基準から見ると奇妙に見えますがこのように求めます。これらの合理的説明、Rationale(テトラちゃん風)については、あとで説明します。

モードというのもある

三つ目はモード(mode, 最頻値)ですが、これは分布の一番頻度の多いところを示す代表値です。上の例ですと1が4回も観測されています。モードは1です。流行の最先端というよな意味で「モード」と使うことがありますが語義は同じです。

 同じ平均といっても、幾何平均*5調和平均*6というものもあります。が、心理統計でこれを使っているのを見たことがないので割愛。私の了見が狭いだけかもしれませんが、一次のモーメントについては、平均とモードとメディアンがわかれば大丈夫じゃあないかと。で、それぞれの代表値には上に述べたようにそれぞれ特徴があります。たとえば、相加平均は外れ値(outlier)が一つあると大きくその方向にずれてしまう。メディアンはあまり外れ値の影響を受けませんし、モードに至っては(そもそも最頻値の度数が1であるとか外れ値が最頻になるとかでない限り)影響を受けません。

id:xr0038さん、ブコメからどうもです。

xr0038

median は吹っ飛んだ値に振り回されないということを述べておくといいかも.ノイズのあるようなデータを処理するときに median はよくつかうイメージ.

平均とメディアンの理論的な重要性のこと

 理論的な補足。平均は「データを全部足して個数で割った代表値」、メディアンは「データを大きさの順に並べたときに、ちょうど真ん中にくる値」でした。この二つの代表値は、外れ値への抵抗性という意味で性質の異なる指標ですが、ではどういった理論的根拠のある代表値なのか? ということをちょっと捕捉しましょう。

 実はこの二つの代表値は、ある分布を代表する「適切さ」の基準が異なります。どういうことか。まずはメディアンから見ていきましょう。メディアンとは、「ある代表値tと、分布に含まれる各値(=観測値)との距離の総和が最も小さくなる」という基準を満たす代表値のことです。この基準を式で表現すると次のようになります。

T_1 = |X_1-t| + |X_2-t| + ¥dots + |X_n-t| = ¥sum_{i=1}^{n}|X_i-t|

このT_1を最初にするような代表値tがメディアン。

そして平均ではこの基準が少し異なり、「ある代表値tと、分布に含まれる各値(=観測値)との距離の二乗の総和が最も小さくなる」という基準を採用します。これは次のようになります。

T_2 = (X_1-t)^2 + (X_2-t)^2 + ¥dots + (X_n-t)^2 = ¥sum_{i=1}^{n}(X_i-t)^2

このT_2を最初にするような代表値tが平均(=算術平均)。

メディアンと平均が双子みたい!ということだけ感じてもらえればいいんじゃないか、と思います。では、どっちも似たような基準を用いた指標なのに統計的検定では平均値ばかりを優遇するのはなぜ? というのは、次に示す分散や標準偏差などを含む、平均をベースにした統計量たちに便利な性質があるからです。その名は、線形変換!


力尽きたのでこのあとはお昼ごはんのあとで。

昼になったので続き

 さて、次は分散(variance)標準偏差(standard devion)ですね。

 上で紹介した平均やメディアンは、ある分布の性質について語るときに「ある一点の値」で代表させていました。けれども分散や標準偏差というものは、分布のひろがり・ちらばりを語るために使われる値です。観測値が同じよな値ばかりで幅がないならば分散は小さくなります。

これは以下のよな式で求めます。それぞれの観測値と平均値(相加平均)のずれ(このずれのことを偏差と言う)を二乗したものの平均を取ります。

分散(varianceなのでV(X)と書く, s^2¥sigma^2とも書く):

V(X)=¥frac{1}{n}¥sum_{i=1}^{n}(X_i-E(X))^2

※正確には標本分散。不偏分散ではない。

これは、変形するとV(X)=E(X^2)-E(X)^2と書くこともできます。分散の正の平方根を取ったものが標準偏差です。簡単ですね。

『基礎統計学1 統計学入門』にある例を用いて説明しましょう。以下のような三つのデータ(n=10)があるとします。

A : 0,3,3,5,5,5,5,7,7,10

B : 0,1,2,3,5,5,7,8,9,10

C : 3,4,4,5,5,5,5,6,6,7

で、頑張ってRで次のようなコードを書き、出力してみたヒストグラムがこちら。もっと色々できるんでしょうけどいまのところはこれが精一杯。

A = c(0,3,3,5,5,5,5,7,7,10)
B = c(0,1,2,3,5,5,7,8,9,10)
C = c(3,4,4,5,5,5,5,6,6,7)

hist(A, col="blue", breaks=c(0:10), ylim=c(0,5))
hist(B, col="blue", breaks=c(0:10), ylim=c(0,5))
hist(C, col="blue", breaks=c(0:10), ylim=c(0,5))

f:id:satomilogy:20090703171149p:image,w500

f:id:satomilogy:20090703171150p:image,w500

f:id:satomilogy:20090703171151p:image,w500


ぱっと見て何がわかるでしょう。平均値はどれも5になります。けれども散らばり方がずいぶん違うようですね。AよりもCのほうがばらつきが少ないように見えます。では計算して見ましょう。

たとえば分布Aの平均値は5ですから、分散は次のように求めるわけです。

 V(X)= ¥frac{1}{10}((0-5)^2 + (3-5)^2 + (3-5)^2 + (5-5)^2 + (5-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (7-5)^2 + (10-5)^2)

 V(X)= ¥frac{66}{10} = 6.6

同様に分布Cについても求められます。

 V(X)=¥frac{1}{10}((3-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (5-5)^2 + (5-5)^2 + (6-5)^2 + (6-5)^2 + (7-5)^2)

 V(X)= ¥frac{12}{10} = 1.2

ちゃんと計算ができました。ところで並行して覚えたてのRを走らせてみましょうか。

> mean(A)
[1] 5
> mean(B)
[1] 5
> mean(C)
[1] 5

平均値もこのように確認できます。ぜんぶ5です。では分散はどうなってるでしょう。

> var(A)
[1] 7.333333
> var(B)
[1] 12
> var(C)
[1] 1.333333

平均値は同じでも分散が違うんですね。分布Cは分散が小さい、つまり散らばりが小さいということで…あれ?さっき計算した分散と違う。なぜ?

「ご存じないのですか、不偏分散です!」

不偏分散(s’^2):

s’^2=¥frac{1}{n-1}¥sum_{i=1}^{n}(X_i-E(X))^2

さきほどのRが出力したものはこの不偏分散だったんです。SASも分散と言ったら最初に出力するのはこの不偏分散です。不偏って何だ?

 (記述統計と推測統計の話をぜんぜんしていませんが)一言で言えば不偏分散とは、標本から母集団の分散を推測するときに生じる偏り(bias)が小さくなるように修正した分散のことです。偏りがない、ということで不偏。「推定量の期待値が母集団の値に一致するような推定量」のことを不偏推定量と言うようです。母集団から標本をとって推定量をとることを繰り返し繰り返しすると、その期待値が母数に一致する!という素晴らしい性質です。標本平均は不偏推定量ですが、標本分散(さっきのs^2)は、期待値が母分散の¥frac{n-1}{n}倍になるとのこと。つまり不偏推定量じゃない、と。

 うううむ。よくわからないですけども、とにかく標本から母集団の分散を推定するときには、n-1で割ると不偏推定量になるよ!なので推定のときにはこちらを使うのが妥当だろう、ということだけ覚えておきます。

「なんで二乗するのー?」

 ちょっと中断してこの疑問に答えましょう。答えられるかどうか自信ないですけど。

 上にあるように、分散と標準偏差は、観測値と平均の差を二乗して足し合わせて割ったものですね。ここで「なぜ平均の差を足し合わせるのではなく、二乗してから足し合わせるのか?」という自然な疑問が浮かびます。私は気になりました。

 一番簡単でわかりやすい答えはこうです。「平均からの差(=偏差)を合計するだけだと、その値は0になっちゃうから指標として役に立たないから」。当たり前ですが、ちょっと説明しましょう。二行で終わります。

平均からの差を合計して個数で割るとと次のようになる。

¥frac{1}{n}¥sum_{i=1}^{n}(X_i-¥bar{X})

これは次のように変形できる

¥frac{1}{n}¥sum_{i=1}^{n}X_i - ¥bar{X} = ¥bar{X} - ¥bar{X} = 0


また、二乗せずに絶対値を取ってから足し合わせる方法もあります。こちらを平均偏差と言うこともあります。*7



よくまとまりませんね。

参考にした教科書など

 研究室にある統計の本であれば見境なく参考にしているのですが、今回の内容はその多くを『心理統計学の基礎』(有斐閣アルマ)によっています。

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

 また、学部のときに最初に使った教科書はこれでした、『よくわかる心理統計』。非常にゆっくり丁寧に進むので、少しもどかしい教科書ですが本当の本当に初学者には非常によい教科書だと思います。私もお世話になりました。いまでもなっています。

 また、学部時代の統計学講義の資料も適宜参考にしています。この資料の山、ちゃんと活用できれば一大資産になるかもしれません。


ところで、このシリーズのタグは「よくわか統計」にすることにしました。タイムラインでの斜め上からの提案に曰く「よくわかっとけー!」と掛けているのがよいそうです。なるほど。決して「よくわかる統計」シリーズではないので注意しましょう。「(私が)よくわか(っていない)統計」シリーズです。というわけでこのシリーズ、よくまとまらないまま続きます。

*1:e.g., うさみみ

*2:それなら三次以上のモーメントも含まれるだろう、ですって? そんなの普段あつかわないのでざっくりと無視します。ごめんなさい。

*3:四分位点? これもあんまり使わないので(ry

*4:それぞれ加えていったものの平均なので相加平均ともいう

*5:それぞれ掛けていったものの1/n乗。相乗平均とも

*6:逆数の算術平均

*7:『心理統計学の基礎』では、観測値と中央値の差分の絶対値を平均したものを平均偏差と言っている。どの代表値(一次の)でも、平均偏差を作ることは可能ってことだろうか

syou6162syou6162 2009/06/26 12:02 心理学とかサンプルがそんなに大量に取れないところだったら、標本分散と不偏分散の違いとかを理解しておくのはわりと重要かなーと思います。

Rを使って中心極限定理が何を言っているかを理解する、みたいなのはTsukuba.R#1でやってみたので参考までに。
http://d.hatena.ne.jp/syou6162/20080725/1216958812

satomilogysatomilogy 2009/06/26 12:39 不偏分散(unbiased -)というのがよくわかってなくて。なんでn−1で割るのさ!ということを上手にまとめられたらなあと思っています。

さすがつくばRですね。ありがとうございます。

syou6162syou6162 2009/07/03 21:58 > うううむ。よくわからないですけども、とにかく標本から母集団の分散を推定するときには、n-1で割ると不偏推定量になるよ!なので推定のときにはこちらを使うのが妥当だろう、ということだけ覚えておきます。

たぶん、統計の本に載ってると思いますけど、「推定量の平均」というのが何を差しているか一回計算してみると何を言わんとしているかが分かってくるかなーとか思います。