andalusiaの日記 このページをアンテナに追加 RSSフィード

2012-05-28 藤沢数希の人が統計をまるで理解していない件 このエントリーを含むブックマーク このエントリーのブックマークコメント

年収1500万円以上の30代男子の妻帯率は9割超えてるよ : 金融日記


ネタにマジレスも何ですが、これはひどい統計の元データにあたってみます。

統計局ホームページ/平成14年就業構造基本調査

そのものずばり「所得×男女×配偶者の有無」というデータはない*1のですが、人口分布による就業構造基本表の第41表を見ると、

  • 「30-34歳の所得1,500万円以上の男子」は日本に6,000人

と推計されていることがわかります。ということは、

  • 配偶者のいる30-34歳の所得1,500万円以上の男子」は5,400人
  • 配偶者のいない30-34歳の所得1,500万円以上の男子」は600人

と推計されていることになります。

f:id:andalusia:20120528195118p:image:w480

しかし、この統計の誤差*2から考えると、この推計値の領域ではあまりに誤差が大きすぎて、上記の推計値はまったく意味のないデータであることがわかります。

そのようなデータを堂々とタイトルに出すのは、釣りか、本当にわかっていないかのどちらかですね。


*1:多分、オーダーメード統計を依頼しないと出てこない。

*2http://www.stat.go.jp/data/shugyou/2002/pdf/f_3.pdf

kazemachiromankazemachiroman 2012/08/10 02:45 ちなみに、就業構造基本統計調査にはクロス集計のデータがありませんが、JILPTの論文にあったはずです(オーダーメード統計を依頼したのでしょう)。

alsals 2012/09/18 20:39 ちょっとよく分からないのですが、記事の元となっている労働政策研究報告書に「所得×男女×配偶者の有無」というデータは出ていますよね。(第II部 2.3 p.91)
藤沢さんという方はそれをグラフにしただけに見えるのですが、そのデータの誤差が大きすぎて無意味だということですか?
第II部のはじめに、
>ここで用いるのは、 わが国全体の就業・不就業の状況や就業行動、 就業希望等についての基
>本的な調査といえる 「就業構造基本調査」 (総務省) である。 この調査は5年おきに行われ
>るもので、 その直近のものは2002年10月に、 44万世帯の15歳以上の全世帯員を対象として行
>われた。 当研究会では、 若者の職業生活への移行問題を分析するために、 総務省から、 2002
>年、 1997年、 1992年の各年の個票データの使用許可を受け、 特別集計することができた。 本
>章の分析はすべてこの特別集計による。
とあるので、推定ではなく実際の調査の値を使用して表にしたのかと思ったのですが。

andalusiaandalusia 2012/09/18 21:33 実際の調査の結果を元にしていることを疑ってはいませんよ。その調査が、全数調査(全国民の調査)をしたわけではなく、サンプリング調査だということです。

だから、このような小さい推定値の領域では誤差が大きくなります。

もちろん、大きい推定値の領域(例えば、男性、25歳〜29歳、300-399万、とか)ならば、もっと誤差は小さいので、それなりに信頼できるデータと言えると思います。

2009-08-06 十分豊かなのに、出生率が上がらない国の共通点 このエントリーを含むブックマーク このエントリーのブックマークコメント

調査対象は05年時点でHDIが0・85以上の日米欧など37か国。その結果、HDIが高くなるほど出生率は低下したが、HDIが0・85〜0・90に達した段階で、出生率が逆に上昇する傾向があることがわかった。

 例えば、米国は76年(HDI0・88)、イタリアは94年(同0・90)に、出生率が増加に転じた。この傾向の明らかな例外は日本、韓国カナダだった。日本では05年にHDIが0・94まで上昇したが、出生率は1・26で過去最低になった。

 HDIが特定水準を超えると出生率が上がることについて、同大のハンスペーターコーラー教授は「発展に伴い、女性の働く環境や保育・教育施設が整備され、晩婚化や高い育児・教育費用などのマイナス面を補うから」と説明。 

豊かな国は「少子化」克服、日本は例外的 : 科学 : YOMIURI ONLINE(読売新聞)


日本、韓国カナダが例外、ということで、その3ヶ国について、人間開発指数HDI(各国の生活の質と発展度合いを指数化したもの)と、ジェンダーギャップ指数(男女平等の度合いを指数化したもの)を比べてみました。

指数を直接比較はできないので、順位で比較してみると・・・


国名人間開発指数ジェンダーギャップ指数
日本8位98位
韓国25位108位
カナダ3位31位

人間開発指数ここジェンダーギャップ指数はここより。両者とも2008年の数値。


どの国も、人間開発指数の順位より、ジェンダーギャップ指数の順位が大きく下位であるのが共通した特徴です。どうやら、ここからもハンスペーターコーラー教授の「発展に伴い、女性の働く環境や保育・教育施設が整備され、晩婚化や高い育児・教育費用などのマイナス面を補うから」という説明は当たっているように思われます。

女性の働く環境や保育・教育施設を整備することは、少子化対策にも繋がりそうですね。



ブクマにお返事

b:id:memo28 ネタ なぜ順位を使うのかよくわからない。カナダの順位は2007年は18位、2006年は16位。

順位を使う理由ですが、どちらの調査であっても、調査対象の国の数は(ほぼ)同じなので、順位が「パーセンタイルランク」に比例する関係になるからです。指数そのままでは定義が違うので比べられないですが、「パーセンタイルランク」なり「偏差値」なりに変換すれば比較可能になりますよね。

カナダの昔の順位(ジェンダーギャップ指数のほうですよね?)はもう少し良かったんですね。経年変化とかも考慮すればもう少し何か考察できるのかもしれません。


b:id:m-matsuoka 社会, これはひどい 都合のよい統計をならべただけ。人間開発指数の順位とジェンダーギャップの順位の比が1:5であることがわかるだけ。

調査対象の国の数はほぼ同じなので、「人間開発指数の順位とジェンダーギャップの順位の比が1:5」が *全ての国* に対して成り立つことはあり得ないのは自明ですよね。

「十分豊かなのに、出生率が上がらない国」に限って「人間開発指数の順位とジェンダーギャップの順位の比が1:5」であるというのであれば、そこから何を読み取るのかという話になるでしょう。もちろん、仮説レベルになるでしょうけど。


b:id:rocky 政治, 社会, 少子化 こんなデータ出されてもな。実際子どもを育てようと思ったら、共働きでないほうが、良いってことは簡単に実感できるはずだが。

 ・ 夫は1日12時間働く企業戦士。妻は専業主婦

 ・ 夫も妻も育児短期勤務制度で1日6時間勤務。昼間は子供は保育園

高度成長期は前者が普通でしたけど、もしかしたら後者のほうが「良い」というようにも思えませんか? もちろん、後者は現時点では困難で、かつ未体験の領域なので「実感」することはできませんけど。未来像としては悪くないのではないかと私は思います。


b:id:ROYGB 出生率の上がっているアメリカの5位と27位や、オーストラリアの4位と21位なら大きな差ではないと言えても、イタリアの19位と67位を見るとあまり関係ないんじゃないかと思う。

これは正直難しい問題ですね。相関をちゃんと調べるにはもっと精密な統計的調査が必要です。私が書いたのはもちろん仮説レベルの話です。

ただ、また適当な仮説を言うと、イタリアは1994年に出生率が上昇に転じたとのことですが、現時点での絶対的水準は低い(緑の線から下にだいぶ外れている)ので、「上昇の勢い」に影響があるという説明もできるかもしれません。

日本も2006年から出生率が上昇に転じていますがまだ微増のレベルです。この上昇を加速させるためにはどうすればいいのか。考えどころだと思います。

じゅんをじゅんを 2012/05/24 22:45 まずデータの妥当性の評価をすべきだとおもいますけどねぇ
まぁ脳欠損にはわからないか

2007-02-08 捏造棒グラフ2 : Oracleだけじゃ不公平なんで、MSもdisってみる このエントリーを含むブックマーク このエントリーのブックマークコメント

高木さんの捏造棒グラフネタにまた便乗します。

先日、Oracleの捏造棒グラフを紹介したところ、こんなブクマコメントが・・・

オラクル怖い

todesking さんのブックマーク

いえいえ、オラクルだけが特別ひどいわけじゃないんです。

この業界では当たり前のように行われていることなんです。

それでは今日は、公平を期すため、オラクルの競合先、MicrosoftのSQL Serverの捏造棒グラフをご紹介しましょう。

SAP の 4 プロセッサ ベンチマーク テスト結果において、SQL Server は、178,000 という好成績を出しています。これは、Oracle と比較して 1 時間に 89,000 以上ものライン アイテムを処理できる圧倒的なパフォーマンスがあることを実証しています。

マイクロソフト / SQL Server : 信頼性の証明

これです。一目瞭然のひどさですね。どこが「信頼性の証明」なのやら・・・

では、ひどい点を挙げていきましょう。

  • 立体的にして手前を大きく見せている。もう定番ですね。
  • なんと、Oracleのほうは陰に隠れて(?)あまり見えていない! 面積比で判断するととんでもない比率になります。
  • そして、これもまた、前提となるハードウェアが別物なんです! 悪質なことに、別ページを見ないとわからない仕組みです。http://www.microsoft.com/japan/sql/prodinfo/compare/sapad.mspx ・・・ぜんぜん別ハード&OSです。つか、シングルコアvsデュアルコアは反則だろ。

これはひどい

この業界は理系の人多いはずなのに。

こういう手法があふれているってことは、効果があるってことなんでしょうね。

2007-02-05 捏造棒グラフ このエントリーを含むブックマーク このエントリーのブックマークコメント

andalusia2007-02-05

たしかに、算数で習う棒グラフでも波線省略を教わった。

高木浩光@自宅の日記 - NHKの棒グラフ描画システムが機械的に世論を狂わせている可能性

高木さんはたまたまアタリ(ハズレ?)の先生に当たったので習ったのかもしれませんが、少なくとも、手元にある教科書では、そのようなことは教えていませんね。

同日記で言及しているとおり、面積や高さの比によって把握する棒グラフでは、基本的には波線省略はすべきではないと思います。

波線省略を教えるのは折れ線グラフのみ、が正しい教育と思います。


ところで、私のブクマコメントを取り上げていただいていますが、明らかに棒グラフと折れ線グラフを混同しているブックマーカーがたくさんいたので、情報提供の意味合いで折れ線グラフのことに言及したまでです。

混同するのも無理のないところで、波線省略が折れ線グラフで許されて、棒グラフで許されない理由が、最初の1/28の日記では示されていないんですね。

「変化を実際より大きく見せる」だけなら、波線省略折れ線グラフでもいちおうできてしまうので。


ついでに、私が「許容範囲じゃね?」とコメントした理由として、世の中にはもっとひどい捏造グラフがあふれかえっているということがあります。

池田さんのブログのコメントにあった「同じグラフで左右のスケーリングを変える」というのにも驚きましたが、私もひとネタ提供します。

Oracle Technology Day(http://www.oracle.co.jp/events/techday2007/)での、日本Oracle社員の方のプレゼン(The Future of Database Technology)なんですが、画像を見てください。

  • まず、立体的に見せることにより、手前を大きく見せています。
  • 「Oracle8i」の数値は、20万を2万以上超えているのに、なぜか20万の補助線が見えています。逆に、「Oracle10g」の数値は、160万をたったの1785しか超えていないのに、なぜか160万の補助線を大きく超えているように見えます。
  • 極めつけは、このグラフ、同じ条件で比べているのではなく、それぞれのハードウェアが別物なんです。下に小さく書いてあります。(小さすぎて読めません!)

これはひどい

まぁ、NHKは範を示すべきという言い分も一理ありますが、そこまでマスコミを特別扱いすることもないと思います。マスコミ神話は間違っているのであって、マスコミ神話を前提にはしたくないですね。


追記:

アップロードした画像が小さすぎるので、flickrにアップしたものをリンクしました。↓

nana 2007/02/06 11:48 ここの動画サイト面白いよ!http://www.ganzis.jp

pamipami 2007/02/06 16:03 もっとひどい捏造があるから許容範囲、という思考がよく理解できないです

andalusiaandalusia 2007/02/07 09:20 グラフも表現の一つであり、表現に恣意等が入るのは当たりまえ、ということです。
どこに(許容される)ラインを引くかは、結構難しい問題かも。上のグラフも、単に3Dなだけなら、許容範囲かなと思います。あとの2つは許容範囲オーバーと思いますね(一番下は根本的な問題だし)。これは単に私の価値観です。
ちなみに、本文で私は許容範囲といっているのは、http://takagi-hiromitsu.jp/diary/20070128.html#fig5 の図5、ね。