Hatena::ブログ(Diary)

remcat: 研究資料集 RSSフィード Twitter

2018-02-20 労働時間等総合実態調査 (2013) の質

こたえあわせ

昨日 (2/19) の新聞報道、厚生労働省からの説明、国会質疑、「働き方改革虚偽データ疑惑」ヒアリングなどでわかった情報と、あきらかにすべきことのリスト を照らし合わせてみよう。

(A) 「平均的な者」とは「最も多くの労働者が属すると思われる時間外労働時間数の層に属する労働者」という定義でよいか。この定義は裁量労働制の労働時間の状況にも適用されるのか。

一般労働者については「最も多くの労働者が属すると思われる時間外労働時間数の層に属する労働者」を「平均的な者」として選ぶよう指示されていたようだ。

裁量労働制については、どうやら調査要領等には 「平均的な者」という以上の指示はなかった ようだ。ただし、前回の2005年調査の時に兵庫局から、労働裁量制の対象労働者の「労働時間の状況」の記入の仕方について疑義があり、それに対して「1日で見て最も多くの労働者が属すると思われる労働時間の層に含まれる労働者の労働時間を書くこととする」と回答したということである。しかし、今回の2013年調査ではそのような指示をおこなった記録は出てきていない。

なお、この兵庫局からの疑義においては「1か月のトータルで見て平均的な者を書くのか、1日で見て平均的な者を書くのか」となっており、そもそも「平均的な者」ということばを「最頻値の階級に属する者」として理解してのものかどうか不明。

また、一般労働者でも裁量制労働者でも、「時間外労働時間数の層」というのが何を意味するのか (たとえば1時間刻みなのか) はわからない。たとえば「ゼロ」と「30分」はおなじ層に属することになるのか、ちがうのか……

(B) 労働時間記録等の確認作業は全事業場でおこなったのか、一部だけか。一部だけとすれば、どのようなケースで、どれくらいの割合か。

これは、全事業場でおこなったということでいいのかもしれない。書類には正確にそう書いてある部分はみあたらないのだが、黒塗りの部分にあるのだろうか?

(C) 「一般労働者」の1日の法定時間外労働のデータには、階級わけしたうえで一定の階級値を機械的にあてはめた数値が混在していると推論できるが、そのような理解でよいか。

厚生労働省の説明を信じるかぎり、データは労働時間の値を ((B) の方法で) 書きとったものであり、その平均が http://d.hatena.ne.jp/remcat/20180214/heikinteki の方法で算出できてしまうのは単なる偶然、ということのようである。

https://www.minshin.or.jp/article/113122 に素データがあるようなので、そちらを分析すればもうちょっと何かわかるかも。

(D) 「母集団に復元」するためのウェイトはどのように算出したか。また、表側のカテゴリーのなかで、サンプル中で過大/過小に代表されていたものはどれか

これはまだ不明。ただ、https://www.minshin.or.jp/article/113120 からリンクされている「「働き方改革虚偽データ疑惑」野党合同ヒアリング 厚生労働省文書」によればつぎのようになっており、ウェイト付きで集計した場合には、週の法定時間外労働は4割に、月の法定時間外労働は7割にそれぞれ減ることがわかる。

1週及び1月の時間数と1日の時間数との間に整合性がないとされていたことについては、1週の2時間47分及び1月の8 時間5分については母集団に復元した値であり、1日の1時間37分については単純集計した値である。仮に1週及び1月の数値を単純集計した値にすれば、それぞれ4時間5分、11時間20分となる
-----
「働き方改革虚偽データ疑惑」野党合同ヒアリング 厚生労働省文書 (p. 2)

http://htn.to/iBEUNa

つまり「労働時間等総合実態調査」においては一般労働者の平均的な者の労働時間の長い事業場をかなり過大に抽出して調査していた (月の労働時間よりも週の労働時間でその傾向が顕著)、ということになる。どういう調査設計でそうなったのか、また裁量労働制の場合の労働時間についても同様のことがいえるのかは不明である。

2018-02-19 労働時間等総合実態調査 (2013) の謎

あきらかにすべきことのリスト

「労働時間等総合実態調査」(2013) について、厚生労働省から今日 (2月19日) 説明がなされることになっている。また、野党による 「働き方改革虚偽データ疑惑」ヒアリング もおこなわれている (これまでに3回開催)。前回の記事 http://d.hatena.ne.jp/remcat/20180214/heikinteki を書いた時にはよくわからなかった、この調査をめぐる情報が、すこしずつあきらかになってきている。

今回の記事では、まだよくわかっていない(あるいは見当はつくものの証拠がない)疑問4点をとりあげる。

  • (A) 「平均的な者」とは「最も多くの労働者が属すると思われる時間外労働時間数の層に属する労働者」という定義でよいか。この定義は裁量労働制の労働時間の状況にも適用されるのか。
  • (B) 労働時間記録等の確認作業は全事業場でおこなったのか、一部だけか。一部だけとすれば、どのようなケースで、どれくらいの割合か。
  • (C) 「一般労働者」の1日の法定時間外労働のデータには、階級わけしたうえで一定の階級値を機械的にあてはめた数値が混在していると推論できるが、そのような理解でよいか。
  • (D) 「母集団に復元」するためのウェイトはどのように算出したか。また、表側のカテゴリーのなかで、サンプル中で過大/過小に代表されていたものはどれか

(A) 「平均的な者」とは

この調査で使われている「平均的な者」という概念について、前の記事では次のように書いた。

具体的には、おそらく、適当なカテゴリーにわけた選択肢を見せて「おたくの従業員中でいちばん多くが該当するのはどれですか」のようなことをたずねたのだろう。
-----
田中 重人 (2018-02-14) 「「平均的な者」の「1日の法定時間外労働の実績」平均とは何か」

http://d.hatena.ne.jp/remcat/20180214/heikinteki

これは、『平成25年度労働時間等総合実態調査結果』 p. 7 にあったつぎの記述を根拠としている。

5 時間外労働・休日労働の実績
※この項の「最長の者」とは、調査対象月における月間の時間外労働が最長の者のことをいい、「平均的な者」とは、調査対象月において最も多くの労働者が属すると思われる時間外労働時間数の層に属する労働者のことをいう。
-----
厚生労働省 労働基準局 (2013)『平成25年度労働時間等総合実態調査結果』 p. 7

http://www.mhlw.go.jp/file/05-Shingikai-12602000-Seisakutoukatsukan-Sanjikanshitsu_Roudouseisakutantou/shiryo2-1_1.pdf

私は、当初、この定義は、この調査全体についてあてはまるのだろうと考えていた。しかし、よく読むと、定義の前に「この項の」という限定がついている。この限定を厳密にとれば、この定義は「5 時間外労働・休日労働の実績」(これは「一般労働者」についての項である) のみで通用するものであり、それ以外のところでは別の定義になっているという解釈ができる。

そして、裁量労働制の労働時間の状況などについて述べる 第7項「裁量労働制」では、この「平均的な者」は定義なく使われている

7 裁量労働制
……
3) 労働時間の状況
(2) 企画業務型裁量労働制 (最長の者及び平均的な者) (表51、52)
労働時間の状況として把握した時間の1日の平均時間は……平均的な者においては9時間16分……となっている。
-----
厚生労働省 労働基準局 (2013)『平成25年度労働時間等総合実態調査結果』 p. 11

http://www.mhlw.go.jp/file/05-Shingikai-12602000-Seisakutoukatsukan -Sanjikanshitsu_Roudouseisakutantou/shiryo2-1_1.pdf]

実際、2月15日の衆議院予算委員会において、厚生労働省からつぎのように説明があった。

一般労働者につきましては、調査をいたしました事業場ごとに、事業者が調査対象月におきまして最も多くの労働者が属すると思われる時間外労働時間数の層に属する労働者として選んだ労働者でございます。
それから裁量労働制につきましては、調査した事業場ごとに、事業者が法に規定する労働時間の状況として把握した時間が平均的な者として選んだ労働者、ということで調査をしているところでございます。
-----
衆議院インターネット審議中継 (2018-02-15) 予算委員会 1:07:05 から。
逢坂誠二 (立憲民主党・市民クラブ) に対する山越敬一 (厚生労働省労働基準局長) 答弁

http://www.shugiintv.go.jp/jp/?ex=VL&deli_id=47787

一般労働者の調査では最頻値の階級に属する人を「平均的な者」としているのに対し、裁量労働制の場合には「労働時間の状況として把握した時間が平均的な者」を指しているのであるから、ちがう定義が使われているという答弁である。

正規分布のように左右対称でピークがひとつの分布であれば最頻値と平均値は一致する。しかしそうでなければ、これらのふたつの統計量はちがう値になるのがふつうである。たとえば、6人の労働者がいる事業場で、労働時間が8時間の者が3人、9時間、10時間、11時間の者がそれぞれひとりずつの場合を考えよう。この場合、最頻値は8時間であるが、平均値は9時間である。

f:id:remcat:20180218221235p:image

労働時間等総合実態調査による結果の表ではどちらも「平均的な者」と表章されていて、おなじ基準で選ばれたかのようにみえるのだけれども、実際にはちがう基準で選んだ労働者をくらべていたことになる。

f:id:remcat:20180218221233j:image
-----
http://twitter.com/yamanoikazunori/status/963234256439750656 から作成。赤線は引用時に加筆したもの。


f:id:remcat:20180218221234p:image
-----
厚生労働省 労働基準局 (2013)『平成25年度労働時間等総合実態調査結果』 p. 68 表52。赤線は引用時に加筆したもの。

http://www.mhlw.go.jp/file/05-Shingikai-12602000-Seisakutoukatsukan -Sanjikanshitsu_Roudouseisakutantou/shiryo2-1_1.pdf]

もっとも、前回記事にいただいたつぎのようなコメントのように、調査の現場では「平均的な者」の選択は適当にしかおこなわれていない可能性もある。そうすると、いったい何をあらわしているのかよくわからないデータを集めているだけなのかもしれない。

事業所に似たような調査をしたことがありますが、事業所の担当者様は統計学の最頻値・モードのような概念を知らないこともままあります。その場合、その概念を説明してもあまりよく理解されてなさそうだなと思えば、正しくはないですが平均的な者という言い方をして聞くことがありました(平均的な者というわけで、従業員の平均とはまた異なります)。調査の際に「平均的な者の法定時間外労働は何時間ですか」のように訊いた可能性はかなり高いのではないでしょうか。
-----
「「平均的な者」の「1日の法定時間外労働の実績」平均とは何か」に対するMTさんのコメント (2018-02-14 16:36)

http://d.hatena.ne.jp/remcat/20180214/heikinteki#c1518593799

(B) 労働時間記録等の確認作業は全事業場でおこなったのか、一部だけか

前回記事 でも書いたように、『平成25年度労働時間等総合実態調査結果』 には調査の方法についての説明がほとんどなく、具体的にどのように調査をおこなったのかがわからない。しかし、野党6党による第3回「働き方改革虚偽データ疑惑」合同ヒアリング (2018-02-16) での厚生労働省からの配布資料には、「労働時間等総合実態調査の調査手順」として、つぎのような流れ図がふくまれている。

f:id:remcat:20180218233936p:image
-----
「働き方改革虚偽データ疑惑」野党合同ヒアリング 厚労省配布資料 (2018-02-16) p. 5
https://www.minshin.or.jp/article/113116

https://www.minshin.or.jp/download/37445.pdf

この流れ図によれば、聞き取りとあわせて労務管理書類 (タイムカード等の労働時間記録) で裏付けをとることになっているのだが、これはすべての調査対象についておこなったわけではないのではないかという疑義がある。

客観的な記録をチェクするのは、不適切な運用が疑われた場合のみのようにこの資料からは見える。
もともと客観的なデータ収集を心がけていたなら、まず聞き取り、という記述にはならないはず。
-----
上西 充子 2018-02-17 12:18 のツイート

https://twitter.com/mu0283/status/964715747371986944

タイムカード等を確認していれば、労働時間は正確に、何時間何分という値が調査されているはず。しかしそれが一部しかおこなわれておらず、残りについては聞き取りしかしなかったのだとすれば、少数の選択肢から選んだだけの粗いカテゴリーのデータが混在している可能性がある。

(C) 平均値は、階級値を機械的にあてはめて算出したのか

今回問題になっている一般労働者の1日の法定時間外労働の表では、平均値がかなり大きく、週あたり、月あたりの数値から計算できる数値を大きく上回る。これがデータの捏造を疑う根拠のひとつとなっている。

この問題について、前回の記事では、法定労働時間が「2時間以下」の階級に「1時間」の値を与えて平均を求めているのではないか、という仮説を提示した。

仕方がないので、適当な階級値をあてはめて計算してみることにしたのだが、これが思いのほか簡単だった。
・「2時間以下」 → 1
・「2時間超3時間以下」 → 2
・「3時間超4時間以下」 → 3
・……
のように、整数をひとつずつ増やしながらあてはめるだけ (!) でよかったのだ。
〔……〕
-----
田中 重人 (2018-02-14) 「「平均的な者」の「1日の法定時間外労働の実績」平均とは何か」

http://d.hatena.ne.jp/remcat/20180214/heikinteki

一般労働者の「平均的な者」の週あたりの法定時間外労働については、 『平成25年度労働時間等総合実態調査結果』 表24 (p. 38) から、「2時間以下」が63.8%であることがわかっている。週に2時間以下なのだから、週5日労働なら1日24分以下に相当する。今回問題になっている1日の法定時間外労働の表では、71.4% (=6762/9449) が「2時間以下」ということになっているのだが、このうち9割くらいは、1日24分以下の法定時間外労働だと類推できる。しかしこのような実際の正確な値を使って平均値を求めたのではなくて、この階級はすべて「1時間」という値を代入して計算したため、過大な平均値が出てしまったのではないか、ということだ。

ただ、問題の表のうち「合計」については、この計算で「平均」とほぼ一致するのだが、そのほかの行については、必ずしも一致しない。この点の検証には、具体的にどのようなデータになっているのかということをふくめて情報が必要である。

これは先の (B) の疑問とも関係のある話である。現時点では、労働時間記録を確認した正確な値があるのはデータの一部だけであり、それ以外の大部分は大雑把な階級でしか法定時間外労働を把握していなかった、というようなことになっているのではないかと推理している。

(D) 「母集団に復元」するためのウェイト

『平成25年度労働時間等総合実態調査結果』 の表には百分率しか書いていないので、ある条件に該当する事業場が具体的にいくつあったのかはわからない。しかし今回問題になっている、1日の法定時間外労働の表には、事業場数が載っている。それによると、たとえば企業規模別に見たとき、「大企業」が3776に対して「中小企業」が5673であり、およそ4:6の構成比になっている (何をもって「大企業」「中小企業」をわけているかの基準は不明)。

ところが、これを『平成25年度労働時間等総合実態調査結果』に載っている表に適用してみると、おかしなことが起こる。この構成比を使って企業規模別の数値から合計の数値を計算してみると、かなり大きくずれるのである。たとえば表24 (p. 38) の表では、平均値が「大企業」で4時間17分、「中小企業」で2時間18分となっているので、これを3776:5673の構成比で変換すると、3時間6分となり、表24に載っている「合計」の行の平均値2時間47分よりも1割ほど大きくなる。

これはおそらく、1日の法定時間外労働の表は、調査結果のデータの計算結果そのままなのに対し、『平成25年度労働時間等総合実態調査結果』の表は、抽出確率を考慮したウェイト付けをおこなったあとの結果を載せているからだろう。実際、『平成25年度労働時間等総合実態調査結果』 p. 1 には「調査結果は母集団に復元したものを表章している」とある。

そう仮定して、『平成25年度労働時間等総合実態調査結果』表24の企業規模別の平均から合計の平均を導けるように構成比を逆算してみると、大企業の占める率は25%となる。実際に調査対象となった標本における大企業の比率が40%だったとすると、大企業が1.6倍多くなるように抽出されていたことになる。どうしてそのような標本設計になったのだろうか?

このことはふたつの点から重要である。

ひとつは、企業規模によって「平均的な者」の労働時間が大きくちがうこと。これらを合成して全体の労働時間を分析する場合には、大企業が過大に抽出されていたという調査対象の偏りが適切に修正されている必要がある。

もうひとつは、裁量労働制を導入している事業場は、これとは別枠で「優先的に選定」されていることである (『平成25年度労働時間等総合実態調査結果』 p. 1)。一般労働者との比較をおこなう際には、ウェイト付けなどによる修正が、比較可能性を確保するのにじゅうぶんであるかを検討する必要がある。

おわりに

2月17日の朝日新聞は、厚生労働省幹部の声をつぎのように紹介している。

不自然なデータについて別の厚労省幹部は取材に「異常値で、捏造(ねつぞう)ではない。本来比較できないものを比較した。それ以上でも以下でもない」と話す。
-----
朝日新聞 (2018-02-17 05:00) 「「法案作成後に初提示」 裁量労働のデータで厚労幹部」

https://www.asahi.com/articles/DA3S13363494.html

捏造かどうかはともかくとして、「本来比較できないものを比較した」というのはそのとおりであり、当事者もわかっているようだ。ただ、この「本来比較できない」という部分が何を意味しているのかは、きちんと確定しておくべきである。

ここまで検討してきた4点は、この「比較できない」ということのそれぞれ異なる側面をあらわしたものと見ることができる。(A) はちがう概念におなじ名前をつけていたという問題であるが、それ以外にも、(B) 測定の方法がちがう、 (C) データ処理であたえた値がちがう、 (D) 統計分析の前提がちがう、といった疑念があり、それぞれ性質が異なる。そして、このデータをめぐる問題があきらかになったあとも、これらの疑念にこたえる資料は出てきていないのである。

2018-02-14 厚生労働省「労働時間等総合実態調査」(2013) の怪

「平均的な者」の「1日の法定時間外労働の実績」平均とは何か

厚生労働省「労働時間等総合実態調査」(2013) データとされる「1日の法定時間外労働の実績 (一般労働者) (平均的な者)」の表が国会で使われている問題について。

2月9日の国会 (衆議院予算委員会) で質問した山井和則代議士 (希望の党) のツイートで当該表の写真が公開されている。

今日の予算委員会で、長妻議員、今井議員が指摘した疑惑の厚労省調査のデータ(添付)。裁量労働制のほうが一般の労働者より労働時間が短い、と安倍総理が答弁した調査では、1日に平均23時間超、働いている一般の労働者が9人もいます。おかしい。
-----
山井 和則 2018-02-13 10:11 のツイート

http://twitter.com/yamanoikazunori/status/963234256439750656

下図はこのツイートにふくまれる写真の上部を切り取ったもの。右端の「平均 (時間:分)」(赤丸部分) の値が1時間37分となっている。これに法定労働時間である8時間を足した9時間37分が一般労働者の1日の労働時間であり、裁量労働制が適用されている労働者の1日あたり労働時間9時間16分よりも短い、という根拠として持ち出された。

f:id:remcat:20180213234109j:image
-----
http://twitter.com/yamanoikazunori/status/963234256439750656 から作成。赤丸は引用時に加筆したもの。


問題の所在

この「9時間37分」はいくらなんでも長すぎないか、という疑惑が指摘されている。

一般労働者についての9時間37分という数値は、公表された調査結果にないものであり、間違った計算式によって算出されたものであり、その計算式のもととなったデータは公表されておらず、かつ異常値と思われるものが含まれており、さらに計算された9時間16分という数値は実態とかけ離れたものであるという、幾重にも折り重なった問題を含んでいる
-----
上西 充子 (2018-02-12)「裁量労働制の方が労働時間は短いかのような安倍首相の答弁は何が問題なのか(予算委員会に向けた論点整理)」 個人 Yahoo! ニュース

https://news.yahoo.co.jp/byline/uenishimitsuko/20180212-00081528/

資料の所在

この厚生労働省「労働時間等総合実態調査」(2013) に関する資料は、2013年10月30日の 第104回労働政策審議会労働条件分科会 での配布資料 2-1 『平成25年度労働時間等総合実態調査結果』 (平成25年10月 厚生労働省労働基準局) 以外にはみあたらない。この資料には調査のくわしい方法や調査票などがないので、何をやった調査なのかはよくわからない。なお、2005年にも同名の調査がおこなわれている が、こちらも出ている情報はおなじようなものであり、調査の具体的な内容は不明である。さらに、1997, 1998, 2000, 2002 の各年にも同名の調査があった模様 だが、これらについてもいまのところよくわからない。

今回問題になっている表は、『平成25年度労働時間等総合実態調査結果』 には出てこない。今国会ではじめて出てきたものである。

「平均的な者」の法定時間外労働とは

ともかく、公表されている情報では、問題の表にある「平均的な者」の法定時間外労働という概念は、つぎのように定義されている。

「平均的な者」とは、調査対象月において最も多くの労働者が属すると思われる時間外労働時間数の層に含まれる労働者のことをいう。
-----
厚生労働省 労働基準局 (2013)『平成25年度労働時間等総合実態調査結果』 p. 7

http://www.mhlw.go.jp/file/05-Shingikai-12602000-Seisakutoukatsukan-Sanjikanshitsu_Roudouseisakutantou/shiryo2-1_1.pdf

具体的には、おそらく、適当なカテゴリーにわけた選択肢を見せて「おたくの従業員中でいちばん多くが該当するのはどれですか」のようなことをたずねたのだろう。

これは要するに、連続量を適当な階級に区切った場合にいちばん頻度の高い階級はどこか、を測定したということだ。統計学では 「最頻値」(mode) と呼ばれる種類の統計量である (ただしこの厚生労働省の調査では、後で触れるるように、階級の幅が一定でないので、最頻値を求める通常の手法ではない)。

当然、これは「平均」ではない。上記のように、定義上は「平均」ということばは使われておらず、調査の際にも、「平均的な者の法定時間外労働は何時間ですか」のように訊いたわけではないのだろうから、なぜ結果報告書において「平均的な者」などという、実態からかけはなれた名称を使ったのかは謎である。ふつうに「その事業所での最頻値」とか「最頻の階級」とか呼べばいいと思うのだが。

ともあれ、これで、問題の表の読みかたはわかる。「2時間以下」「2時間超3時間以下」「3時間超4時間以下」……のように区切った階級について「従業員中でいちばん多くが該当するのはどれか」をたずねたところ、6762の事業場が「2時間以下」、1214の事業場が「2時間超3時間以下」…… のように答えた、ということであろう。なお、調査対象事業場は11575か所だった (『平成25年度労働時間等総合実態調査結果』 p. 1) ということだが、この表には9449の事業場しか出てこない。2126事業場が欠損値になっていることになるが、その原因は不明である。

「平均」の求めかた

問題の表の右端の「平均 (時間:分)」という数値は何か? 通常、こうした表 (度数分布表) から平均値等を求めるには、各階級にそれぞれ「階級値」を割り当て、その値を使って計算する。しかし、階級値が具体的にいくつだったのかということは、問題の表には書いていないようである。というか、『平成25年度労働時間等総合実態調査結果』 にも同様の形式の表がいくつも出てくるのだが、それらにも階級値の表示はない。厚生労働省労働基準局はいったい何を考えて報告書を書いているのだろうか。

仕方がないので、適当な階級値をあてはめて計算してみることにしたのだが、これが思いのほか簡単だった。

  • 「2時間以下」 → 1
  • 「2時間超3時間以下」 → 2
  • 「3時間超4時間以下」 → 3
  • ……

のように、整数をひとつずつ増やしながらあてはめるだけ (!) でよかったのだ。

検証のための Perl スクリプトを下記に示す。

%how_many_workplace = (
    '-2'  =>    6762 ,
    '2-3' =>    1214 ,
    '3-4' =>     729 ,
    '4-5' =>     348 ,
    '5-6' =>     141 ,
    '6-7' =>      65 ,
    '7-8' =>      96 ,
    '8-9' =>      34 ,
    '9-10' =>     22 ,
    '10-11' =>     8 ,
    '11-12' =>     7 ,
    '12-13' =>     7 ,
    '13-14' =>     2 ,
    '14-15' =>     5 ,
    '15+' =>       9 ,
);
%assigned_value = ( '-2' => 1 , '2-3' => 2 , '3-4' => 3 , '4-5' => 4 , '5-6' => 5 , '6-7' => 6 , '7-8' => 7 , '8-9' => 8 , '9-10' => 9 , '10-11' => 10 , '11-12' => 11 , '12-13' => 12 , '13-14' => 13 , '14-15' => 14 , '15+' => 15 , );
$case_number = 0; $weighted_total = 0; foreach( keys %how_many_workplace ) { $case_number += $how_many_workplace{$_}; $weighted_total += $how_many_workplace{$_} * $assigned_value{$_}; }
print "$case_number workplaces\n" ; print "Weighted Total: $weighted_total\n";
$mean = $weighted_total / $case_number; print "Mean: $mean (h)\n"; $hour = int $mean; $minute = sprintf( "%2d" , 60 * ($mean - $hour) ); print "= $hour h : $minute m\n";


このスクリプトを実行するとつぎの結果が得られる。このような階級値をあたえた場合の平均値は1時間38分ということである。問題の表にある「1:37」とほぼ同じ値になる。
9449 workplaces
Weighted Total: 15478
Mean: 1.63805693724204 (h)
= 1 h : 38 m

詐術のタネ

このような度数分布表では、階級値をどのようにあたえるかによって、まったくちがう「平均」の値をはじき出せる。問題の表の場合、大半の事業場 (7割以上) が、最頻の階級は「2時間以下」だと答えていた。このため、「2時間以下」階級に割り当てる値によって、平均はほとんどきまってしまう。

上記で示したように、問題の表にふくまれる平均値「1:37」の算出にあたっては、この階級には「1」を割り当てたようだ。しかし、これはこの階級を代表する値としては過大だという可能性がある。「2時間以下」の階級をさらに「1時間以下」「1時間超2時間以下」に二分した場合に、前者のほうが後者より多いかもしれない。さらに、法定時間外労働がゼロの労働者の場合には、1日の労働時間が8時間を下回るケースも多いはずだ (上西充子「裁量労働制の労働者の方が一般の労働者より労働時間が短い「かのような」答弁のデータの問題性(その3)」)。平均値に8時間を足して使うということを考えるのであれば、そのような事業場についてはマイナスの値をあたえるべきである。

とにかくこの「2時間以下」の階級に全体の7割が集中しているので、この階級にどのような値をあたえるかのインパクトは非常に大きい。この値を1時間ふやせば、「平均」の値は40分以上伸びる見当である。

それにしても、なぜここで「2時間以下」という幅の広い階級わけを採用したのだろうか。これ以外の部分については1時間刻みの階級設定になっているのに、いちばん多くの事業場が集中する部分だけが2時間幅になっている。階級幅を変化させるとしたら、大勢が集中するところは細かく刻み、少ないところは粗くするのが常識である。大勢が集中するところだけ刻みを粗くするという非常識な階級わけを採用した意図は何だろうか?

もうひとつの詐術のタネとして考えられるのは、1日あたり10時間をこえるような、おそろしく長い法定時間外残業が最頻である事業場がデータにふくまれていることだ。この点は 国会質問でも問題にされていた。問題の表をよくみると、「6時間超7時間以下」までは時間数が増えるほど事業場数が減っていくのに、「7時間超8時間未満」のところでいったん増え、そのあとまた下がっていくことがわかる。

f:id:remcat:20180213234110j:image
-----
http://twitter.com/yamanoikazunori/status/963234256439750656 から作成。

グラフにしてみると、「2時間以下」が飛びぬけて多いせいでこまかいところがわかりにくいのだが、法定時間外労働7時間を境に、回答者の反応が変わっていることが読み取れる。

この分布から素直に想像できることは、おそらく、これらの事業場の担当者が、実際の労働時間についての質問だと勘違いして、1日に7時間から8時間働いている従業員がいちばん多い、などと答えたのだろうということだ。そうすると、たとえば「7時間超8時間以下」「8時間以上9時間以下」「9時間以上10時間以下」の階級に入っている事業場の大部分は誤答によるものであり、もしちゃんと設問を理解して正しく答えていれば「2時間以下」と答えたであろう、ということになる。

これらの推測に基づいて計算しなおしてみた。上記 Perl スクリプトにおいて階級値を定義していた %assigned_value をつぎのように書き換えればよい:

%assigned_value = (
    '-2'  =>     0 ,    # 1日8時間程度の労働
    '2-3' =>     2 ,
    '3-4' =>     3 ,
    '4-5' =>     4 ,
    '5-6' =>     5 ,
    '6-7' =>     6 ,
    '7-8' =>     0 ,
    '8-9' =>    0.5 ,   # 1日 8.5時間程度の労働
    '9-10' =>   1.5 ,   # 1日 9.5時間程度の労働
    '10-11' =>  2.5 ,   # 1日10.5時間程度の労働
    '11-12' =>  3.5 ,   # 1日11.5時間程度の労働
    '12-13' =>  4.5 ,   # 1日12.5時間程度の労働
    '13-14' =>  5.5 ,   # 1日13.5時間程度の労働
    '14-15' =>  6.5 ,   # 1日14.5時間程度の労働
    '15+' =>    7.5 ,   # 1日15.5時間程度の労働
);


結果は46分となる。これに法定労働時間8時間を足すと8時間46分であり、政府のいう「9時間37分」よりも50分ほど短くなる。
9449 workplaces
Weighted Total: 7339
Mean: 0.776695946661022 (h)
= 0 h : 46 m

2018-01-11 Fake News on Poverty and Children’s Academic Performance

「10歳の壁」の虚妄:箕面市「子ども成長見守りシステム」データから読みとるべきこと

昨年12月25日、 読売新聞社サイト YOMIURI ONLINE 「深読みチャンネル」に「「10歳の壁」から貧困家庭の子どもを救え」と題する記事が掲載された。

小学校4年(10歳ごろ)時に、家庭の貧富の差による「学力格差」が急拡大する傾向があることが、日本財団などの調査でわかった。貧困家庭の子どもが大人になっても貧しさから脱することができない「負の連鎖」の一因とも指摘される。分析調査を行った日本財団職員の栗田萌希さんが解説する。
-----
栗田萌希 (2017) 「日本財団「子どもの貧困対策プロジェクト」: 「10歳の壁」から貧困家庭の子どもを救え」『YOMIURI ONLINE』2017-12-25 05:20

http://www.yomiuri.co.jp/fukayomi/ichiran/20171222-OYT8T50029.html

「Yahoo! ニュース」でも、年明けの1月7日に、おなじ記事が配信された。

毎日新聞も、2017年12月30日大阪朝刊に「学力格差:「貧困」小4から 「学習・生活習慣、身につかず」 日本財団が箕面で調査」という記事を載せている。

 経済的に苦しく、生活保護などを受ける世帯の子どもは、そうでない世帯の子と比べて国語や算数の学力の平均偏差値が低くなる傾向があり、特に小学4年生ごろから学力の格差が広がるとの研究結果を日本財団がまとめた。大阪府箕面市の調査を基に分析した。
 日本財団は「基礎の応用が小4ごろから必要になる。貧困家庭の子は幼い頃から勉強や規則的な生活習慣を身につけにくく、学力格差の拡大を招いている」と指摘し、低学年への支援を訴える。
----
毎日新聞 (2017)「「貧困」小4から 「学習・生活習慣、身につかず」 日本財団が箕面で調査」『毎日新聞』2017年12月30日 大阪朝刊

https://mainichi.jp/articles/20171230/ddn/041/040/019000c

これらの記事のもとになっている、箕面市の「子ども成長見守りシステム」データを使った日本財団の研究について、資料を集めて検討した結果、トンデモであるとの結論に到達した。要点はつぎのとおり:

  • データをみるかぎり、貧困世帯の子供の「学力」は全国平均にくらべてやや低い程度であり、大きな格差はない
  • 貧困世帯の子供の「学力」が成長にしたがって低下するという解釈をデータから導くことはできない。むしろ、全国の児童生徒の平均的な傾向と同様に、貧困世帯の子供も順調に学力を伸ばしていることが、データからは示唆される
  • 「小学校4年(10歳ごろ)時に、家庭の貧富の差による「学力格差」が急拡大する」というのは根拠のないデマ
  • 経済状態による格差よりも地域間の格差のほうが大きそうである。このことを考慮せずに、特定の地域のデータの分析結果を一般化するのは非常に危険
  • 「学力」を測定しているとされる調査やそれを使って算出したスコアの測定・算出方法が不明であり、またその妥当性・信頼性・代表性が吟味されていない

資料の所在

この記事のもとになった日本財団の報告書『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版) は次を参照。PDFファイルが2箇所にあがっているが、たぶんおなじものである。

これは「速報版」で、正式の報告書は1月下旬に公表とのこと。どういうデータをどう分析したかが正確にわかる資料はまだ出ていないのである。この段階で記事を書いて世論を誘導するということ自体、そもそも研究者倫理としてアウトだろう。

分析に使われた箕面市「子ども成長見守りシステム」データについては、2017年3月に報告書『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』が出ている。このファイルは、2つに分割されて文部科学省サイトにも置かれている。

なお、箕面市のサイトにはたいした情報はみあたらない。

こまかいところまでは探索していないので、みつけにくいところに情報がある可能性はあるが、それはそれで、自治体の情報公開のありかたとしてどうなんだろうか。

「平均偏差値」とは何か?

上記の新聞記事等の「小学校4年 (10歳ごろ) 時に、家庭の貧富の差による「学力格差」が急拡大する」説の根拠は、「発見1」とタイトルがついているつぎのグラフだ。

f:id:remcat:20180109134721p:image
-----
日本財団 (2017)『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版)、8ページ

https://www.nippon-foundation.or.jp/what/projects/ending_child_poverty/img/4.pdf

どうみても「10歳を境に急激に低下する」という動きではないのだが、それはともかく。

このグラフをみて万人の脳裏に浮かぶのは、「平均偏差値」って何? という疑問であろう。これが、報告書では一切説明されないのである。5ページに「子ども成長見守りシステムで把握可能な項目」として「全教科の平均偏差値」と書いてあるだけで、その定義や測定方法については一言もない。これではなにがなんだかわからないではないか。

統計学用語で「平均偏差」(average deviation) といえば、データのばらつきをあらわす指標 である。しかし、日本財団の報告書では学力が高いか低いかをあらわすために「平均偏差値」を使っているのだから、この意味でないことはあきらかである。

単に、箕面市内でおこなったテストの得点を偏差値に変換してその平均を求めた (つまり「偏差値」の「平均」) のだろうか? しかしこの解釈にも無理がある。偏差値の平均は、定義上、かならず50になるはずだが、上記の「発見1」のグラフはそうなっていないようにみえるからだ。

手がかりを探して「子ども成長見守りシステム」関連の資料をあちこちみていると、どうやらこれは東京書籍が売っている「標準学力調査」によるものらしいことがわかる。

「箕面学力調査」、「体力調査」、「学習状況生活状況調査」については、東京書籍株式会社(以下、東京書籍)が発行している「標準学力調査」、「NEW 体力テスト診断システム」、そして「学習状況生活状況調査」として「i-check」を採用し、採点・集計も同社に委託している。
-----
箕面市 (2017)『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』(平成28年度 (2016年度) 地域政策等に関する調査研究)、22ページ

http://www.impactmeasurement.jp/wp/wp-content/themes/impact/pdf/MEXT_H28_children_support_system_report.pdf

東京書籍「標準学力調査」の説明では、つぎのようにある。

各カテゴリーの正答率を、全国値を50とする「標準スコア」で再計算し、レーダーチャートで示しています。
-----
東京書籍 (2016)「標準学力調査」

https://www.tokyo-shoseki.co.jp/academic/n_hyoujun.html

この「全国値を50とする「標準スコア」」が、日本財団のいう「偏差値」なのではないか?

この「標準スコア」がどうやって算出されているかは不明であるが、すくなくとも、東京書籍の持つ全国のデータのなかでの相対位置を示すように標準化されていることはわかる。また、「偏差値」と称するなら、おそらく平均が50、標準偏差が10だろう。以下では、この推定に基づいて議論を進める。何か間違っている可能性はあるが、間違いの全責任は、正確な資料を示さなかった日本財団と箕面市と東京書籍にある。

「10歳の壁」などない

「小学4年生ごろから学力の格差が広がる」という主張の根拠として使われているグラフに戻ろう。

f:id:remcat:20180109134721p:image
-----
日本財団 (2017)『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版)、8ページ

https://www.nippon-foundation.or.jp/what/projects/ending_child_poverty/img/4.pdf

このグラフで、「生活保護世帯の子ども」の「平均偏差値」が9歳時の48.5から10歳時の45.1にすこし下がる (差は3.4) ことを指して「10歳を境に急激に低下する」などと言っているようだ。

ここで気になるのは、「生活保護世帯の子ども」っていったい何人いるの? ということだ。生活保護世帯の比率はそれほど高いものではないし、そのかなりの部分は高齢者世帯である、という常識的な知識に照らすと、箕面市程度の人口規模 (13万人) の自治体でこの条件にあたる子供が何百人もいるだろうか? という疑念が湧いてくる。ところが、このグラフにも、報告書の本文にも、ケース数が書いてない。ほかの分析結果の表示においても、分析に使ったケース数はまったく示されていない。統計分析の結果表示で絶対に省略してはいけない情報が省略されているのである。

しかたがないので資料をあちこちひっくり返していると、箕面市における生活保護世帯の子供は約200人と推計されており、1学年あたりでは約10人、という記述が出てくる (箕面市『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』、72ページ)。約10人。これは相当すくない人数であるから、相当おおきな標本誤差を見込まなければならない。標準偏差σの母集団からサイズ n の標本を無作為抽出した場合、その標本平均は、90%の確率で、母平均 ± 1.64 × σ/√n の区間に入る。σ=10 で n=10 だとすると、およそ 母平均 ± 5.2 の区間である。3.4程度の変動は、偶然に起こりうる誤差の範囲内なのだ。

上記の「発見1」のグラフに、この誤差範囲を書き込んでみた。母平均としては 47.2 を採用している。これは、生活保護世帯の子供のスコアの各年齢の平均値の平均値である。

f:id:remcat:20180109134722p:image
-----
日本財団 (2017)『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版)、8ページのグラフをもとに作成。緑のエラーバーは 47.2±5.2 の区間をあらわす。

この図からわかるように、生活保護世帯の子供のスコアの平均値の変動は、完全に誤差範囲内にある。何かのメカニズムがはたらいてスコアが上がったり下がったりすると考える必要はなく、年齢による系統的な変動は起こさないはずのものが、その時々のテストでたまたま高かったり低かったりしているだけだ、と考えれば足りる。このデータからは、「10歳の壁」の存在を裏付けることはできない。

もっとも、生活保護世帯の子供のスコアの平均値は、どの年齢でも全国平均 (=50) を下回っている。生活保護世帯の子供の「学力」は全国平均より低い、と解釈するだけであれば、いちおうデータの裏付けはあるわけである。しかし、全国平均50に対して2-3点程度の差であれば、(無視はできないにしても) それほど大きな格差とはいえまい。

箕面市の子供の「学力」分布の全体的な状況

つぎの疑問は、なぜわざわざ生活保護世帯の子供だけをとりだしたのか、である。

箕面市「子ども成長見守りシステム」では、つぎのような基準で「経済的困窮」を定義している (これらの説明も、日本財団の報告書には見当たらない)。

ア.「物的資源の欠如」について
 0歳から18歳(高等学校卒業)までの箕面市の子ども約2万5千人のうち、経済的困窮の視点から「生活保護世帯、児童扶養手当受給世帯(ひとり親家庭)、就学援助受給世帯、子どもの医療費助成事業における非課税階層世帯」に属する子ども、養育力不足の視点から「要保護児童等」に属する子どもの合計約4千人(重複を除く)を「生活困窮世帯に属する子ども」=「物的資源の欠如」の状態の子ども、と定義した。
-----
箕面市 (2017)『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』(平成28年度 (2016年度) 地域政策等に関する調査研究)、42ページ

http://www.impactmeasurement.jp/wp/wp-content/themes/impact/pdf/MEXT_H28_children_support_system_report.pdf

このように、「経済的困窮」の基準としては、生活保護世帯のほかに、児童扶養手当受給(ひとり親家庭)、就学援助受給、子どもの医療費助成事業における非課税、の3つが使われている。上の「発見1」で「経済的に困窮していない世帯」となっていたのは、これら4条件のどれにも該当しない世帯ということだろう。グラフには「生活保護世帯」と「経済的に困窮していない世帯」しか出てこないから、それら以外の世帯の子供が無視されている。経済的に困窮しているのに生活保護を受けていない世帯は多いはずだが、それらの世帯の子供たちの「学力」はどうなっているのだろうか?

同様の疑問は、分析対象とした科目についてもいえる。なぜ国語のテストだけをとりあげたのだろうか? もちろん国語の学力に興味があるのならそれだけを分析することに不思議はない。しかし、日本財団の報告書8ページをみるかぎり、学力一般についての問題をとりあげているのであって、特に国語に限って議論する意図はなさそうである。経済的に困窮している世帯の子供は、他の科目についても、国語と同様の傾向 (全国平均よりもやや低いところで、年齢にかかわらず一定のスコア) を示すのだろうか?

これらの疑問には、日本財団の報告書9ページの「発見2」のグラフが部分的な答えになっていよう。

このグラフは「全科目平均の偏差値について、年齢別にカーネル密度関数を描いたもの」なので、国語以外の科目が入っている。また、対象は「就学援助世帯」なので、上記の「経済的困窮」の4基準のうちの生活保護以外の基準で対象者が選ばれている (なんでいちいち選択基準を変えているのかはよくわからない)。

f:id:remcat:20180112085057p:image
-----
日本財団 (2017)『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版)、9ページの左側のグラフに加筆したもの。黄色の曲線は μ=48, σ=10 の正規分布の確率密度である。
[2018-01-12 N() のパラメータ表記の間違いを訂正しました (曲線の形状には変更ありません)。]

日本財団の報告書は、このグラフに「貧困世帯の学力は低位に……集中していく」と解説を付けているのだが、これは的外れである。確かに7-9歳から10-12歳、13-14歳へとピーク部分が左に動いているようにみえるが、それと同時に、偏差値30以下の層が縮小し、偏差値60以上の層が拡大しているからだ。全体を俯瞰してみれば、下がっているとも上がっているとも言いがたい。ましてや「低位に集中していく」などと描写できるようなものではない。グラフに平均48、標準偏差10の正規分布を重ねてみると、全国のスコアの分布 (平均50、標準偏差10) よりやや低い位置にあるものの、それほど大きなちがいはないことがわかる。この傾向は、先に「発見1」のグラフで生活保護世帯の子供の国語テストについて読みとったことと一致している。

なお、この日本財団報告書「発見2」のグラフの曲線は左端が25で切れているが、これは作図の際に省略したものではなく、もともとデータにふくまれていないらしい。

(注5)偏差値については、各種調査の採点、及び、集計を委託している東京書籍の管理上、下限は25に設定されている。
-----
箕面市 (2017)『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』(平成28年度 (2016年度) 地域政策等に関する調査研究)、48ページ

http://www.impactmeasurement.jp/wp/wp-content/themes/impact/pdf/MEXT_H28_children_support_system_report.pdf

実際にスコア25未満の子供はいるのだろうから、そういう子供のデータがどういうあつかいになっているのか、またそのことが分析結果にどんな影響をあたえているか、気になるところだが、その点についての説明はない。

箕面市の特殊性

さて、この箕面市「子ども成長見守りシステム」データの特徴がはっきり出ているのは、むしろ「経済的に困窮していない世帯」の子供のほうである。

f:id:remcat:20180109134724p:image
-----
日本財団 (2017)『家庭の経済格差と子どもの認知・非認知能力格差の関係分析:2.5万人のビッグデータから見えてきたもの』(速報版)、9ページの右側のグラフ。

https://www.nippon-foundation.or.jp/what/projects/ending_child_poverty/img/4.pdf

全教科の平均のスコアが、全国平均 (=50) にくらべてかなり高い位置にあり、それが加齢とともに右に移動していく。分布は左に裾を伸ばした、ゆがんだ形になっている。ここから読みとれるのは、全国平均よりも早く学力を伸ばしていく子供が多数いる一方で、その他の子供が相対的に低い成績のまま差が拡大していく、という箕面市の特殊性である。人口比からいえば「経済的に困窮していない世帯」の子供が圧倒的多数 (8割以上) を占めているのだから、箕面市は全体的に全国平均より「学力」が高く、その傾向は学年が高いほど顕著になる、と考えていいだろう。

すでにみたとおり、箕面市においては、困窮世帯の子供の「学力」はとりたてて低いわけではなく、全国平均と同様のペースで成長していく。これに対して、非困窮世帯の子供の一部が全国平均を上回るペースで急激に「学力」を伸ばしており、このことが市内で「学力」格差を生む原因となっている。これはかなり特異な状況であり、他の多くの地域ではこうはなっていないはずだ。このような特殊性をもつ地域での発見を、他の地域にもあてはまる一般的な傾向としてあつかうのは非常に危険なことだ。ところが「10歳の壁」を報じた記事では、箕面市が子供の「学力」に関して特殊な傾向を示す地域であることは説明されず、あたかも普遍的現象であるかのように書かれている。

東京書籍「標準学力調査」は信用できるのか

東京書籍の「標準スコア」は、全国平均が50になるように算出されている。箕面市のように高いスコアを示す地域があるのだから、その逆に、50よりもずっと低いスコア分布を示す地域もあるのだろう。このデータから読みとるべき重要な含意は、「学力」には大きな地域格差がある、ということなのだ。上のグラフからわかるように、箕面市の非困窮世帯の子供の平均スコアは、全国平均を5点程度は上回っていそうである。他方で全国平均を5点下回る地域もあるとすれば、両者の間には10点の差があることになる。箕面市内の困窮世帯の子供とそうでない世帯の子供とのスコア差が7点程度だとすると、それよりも地域間の格差のほうが大きい可能性がある。

「学力」の地域格差が大きいということは、どこの地域のデータを集めてくるかで平均点に大きな違いが出るということだ。東京書籍「標準学力調査」の「標準スコア」は「全国値を50とする」数値というふれこみなのだが、これは本当に全国を代表した数値になっているのだろうか。

この調査の妥当性・信頼性がどの程度確保されているかも疑問である。Google Scholar で "東京書籍" "標準学力調査" を検索すると、論文5件しかヒットしない (2018-01-07)。研究者にはほとんど利用されていない指標なのだ。また、これらの論文のいずれも、測定・算出方法の批判的吟味はおこなっていない。あまり大丈夫そうな感じはしない。

この調査がどれくらい信用できるかを評価しておくことは、この研究にとって死活的に重要なポイントだったはずだ。ここまで私がおこなってきた推論でも、この調査で子供の「学力」がいちおう測定できているだろうという暗黙の前提を置いている。しかし日本財団の報告や箕面市「子ども成長見守りシステム」関連の資料ではこの調査について検討した形跡がないのだから、これはずいぶん好意的な前提である。

不可解なのは、この「子ども成長見守りシステム」の構築に東京書籍が関わっていることだ。箕面市 (2017)『子供の貧困対策支援システムの在り方と運用方法に関する実証研究報告書』 1ページには、「共同調査研究員」として、東京書籍株式会社の評価事業本部企画部の部長、係長などの名前がならんでいる。担当者が参加していたのだから、さまざまな資料を出して検討を加えることは可能だったはずだ。にもかかわらず、調査の方法やスコアの性質が説明されていない。研究プロジェクト内部でまったく検討しなかったのか、それとも検討したうえで公表はしないことにしたのかはよくわからない。いずれにせよ、「平均偏差値」がいったい何を測っているのかを判断するための肝心の情報が伏せられているという事実は、それ単独で、この研究を信用してはならない理由として十分なものといえる。

2017-12-17 Professional Responsibility for Spreading Unscientific Knowledge

【解題】非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと

日本学術協力財団の雑誌『学術の動向』22巻8号(=通巻257号) (2017年8月) に書いた記事「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」が J-STAGE (科学技術情報発信・流通総合システム) で公開されました。

http://doi.org/10.5363/tits.22.8_18

「「卵子の老化」が問題になる社会を考える―少子化社会対策と医療・ジェンダー」という特集の一部です。

この記事と特集、その元になった2016年6月18日の日本学術会議シンポジウム、そしてそもそも医学批判に私が首を突っ込むきっかけになった文部科学省作成の保健科目用副教材『健康な生活を送るために』(2015年度版)における「妊娠のしやすさ」改竄グラフ問題についてはすでに何度か書いているので、そちらもお読みください。

J-STAGEからこの記事の 全文PDFファイルがダウンロード できます。それほど長い文章でもないので、お読みいただければ内容はわかると思います。今回は、たぶんあまり一般には理解されていないであろうポイントについて、重点的に解説します。

(1) 「妊娠のしやすさ」グラフの大元の研究自体が、都合のよいデータだけを抜き出したものである

Bendel and Hua(1978)はデータ処理がおかしいので、生物学的な意味での「妊孕力」(fecundity)を表した研究成果とはいえない。というのは、20代前半までに結婚した女性だけを取り出して使っているからである。もし、より晩婚の女性のデータ(図3では点線の2本)を使って推定していれば、30代前半までは妊娠確率がほとんど下がらないという結果になったはずだ。しかし実際には彼らは早婚の女性のデータ(図3では実線の2本)だけで推定をおこなったため、結婚からの時間経過による出生率低下を反映して、30代前半までに妊娠確率が大きく下がる結果となっている。一般に、結婚生活が長引くにつれて夫婦の出生率は低下していくものだが、それは性交頻度の減少などの要因でそうなるのであって、加齢によって妊孕力が低下していくためではない
-----
田中 重人 (2017) 「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」『学術の動向』22(8). 19-20ページ.

http://doi.org/10.5363/tits.22.8_18

高校保健副教材に載った22歳ピークの「妊娠のしやすさ」グラフについては、それが日本産婦人科学会や日本生殖医学会の理事長を歴任し、現在は内閣官房参与をつとめている高名な医師 (吉村泰典慶應義塾大学名誉教授/福島県立医科大学副学長) によってつくられたという事実 が衝撃をあたえました。しかしそのこと以前に、元になった研究が恣意的なデータ操作をおこなっていたというどうしようもないものであったわけです。そして、そのデータ操作は別に隠蔽されていたものではなく、 論文にそう書いてある のです。

(2) ダメ論文は被引用状況からわかる

とはいえ、Bendel and Hua (1978) による推計 は非常に複雑です。積分記号を使った数式が延々とならぶこの論文を読破しないと、「妊娠のしやすさ」グラフは批判できないのでしょうか?

実はそんなことはなく、文献データベースで引用状況を調べれば、その見当はつけられます (有料データベースにアクセスできなくても、Google Scholar などでも同様のことができます)。

Bendel and Hua(1978)の書誌情報さえわかれば、実際に論文を読むまでもなく、ダメな研究だとの見当をつけることも可能だった。この論文を引用する文献は少なく(Web of Scienceで13件)、その多くは批判対象として言及するか、研究史概観の際に一言ふれているだけだからだ。データや計算方法を検討したうえで肯定的に評価している文献は1本もない(Tanaka 2017)。被引用状況をみれば、一般向け教材で無批判に紹介していい研究でないことは明白なのである。
-----
田中 重人 (2017) 「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」『学術の動向』22(8). 20-21ページ.

http://doi.org/10.5363/tits.22.8_18

Tanaka (2017) というのはこの3月に『東北大学文学研究科研究年報』66号に載せた論文 です。くわしいことはそちらを見てもらえばいいのですが、論文刊行の翌年 (1979年) には、これは年齢の効果じゃなくて結婚年数の問題でしょ? ってことはちゃんと批判されています。それに対して Bendel and Hua (1978) を擁護する反批判は出てこず、学界内では批判側の議論が正しいものとして通っているわけです。

ここで重要なのは、この研究はダメだということになっている、という研究史上の評価は、被引用文献をたどっていけばそれで確認できるということです。論文の内容が正確に理解できてなくてもかまいません (もちろん理解できればそれに越したことはありませんが)。この点は、専門家の嘘に素人がどう対抗するかを考えるうえですごく大事です。

(3) 非公表の調査結果が政策・世論操作に使われてきた

これは 「スターティング・ファミリーズ」調査 (IFDMS) の話です。

この調査の結果が論文として出版されたのは2013年のことだ(Bunting et al. 2013)。しかし、IFDMSを使った政治活動とメディア露出が始まったのは、その前である。2011年2月には、この調査プロジェクトの代表者 Jacky Boivin が来日し、マスメディア向け勉強会や国会議員向け講演をおこなった。これらの宣伝活動について、Boivin et al.(2011)は、研究の社会的インパクトを示すものと位置づけている。IFDMS をめぐる問題は、「役に立つ」研究であることをアピールしようとした研究者の拙速な行動が引き起こしたという側面もありそうだ。その後、日本産婦人科医会の記者懇談会や国会の質問主意書などでこの調査結果が引用され(Tanaka forthcoming)、日本では「妊娠リテラシーは世界でも最低レベル」だという認識ができていくことになる。
-----
田中 重人 (2017) 「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」『学術の動向』22(8). 21ページ.

http://doi.org/10.5363/tits.22.8_18

Tanaka (forthcoming) は、10月末に Advances in Gender Research 24巻に書いた論文 なのですが、それよりは、今年5月に出版された『文科省/高校 「妊活」教材の嘘』 (論創社) の第6章「日本人は妊娠・出産の知識レベルが低いのか?: 少子化社会対策大綱の根拠の検討」のほうがわかりやすいと思います。

この調査は、18か国を対象に13言語でおこなったというふれこみのものですが、肝心の調査票が公開されておらず、調査内容の妥当性がチェックされていない状態でした。私は各方面にしつこく問い合わせて2015年11月に調査票 (日本語版のみ) を入手。実際に検討してみたところ、かなりトンデモな内容だったわけです

この調査の質問文には、日本語としておかしい表現が多数ある(西山・柘植編 2017: 146-154)。特に、妊娠・出産に関する正しい知識の割合を測ったとされる尺度については、全13項目のうち10項目以上に翻訳上の問題がある。また、誤答だけでなく「分らない」という回答も0点にされること、日本語版と英語版では項目順序がちがうこと、国によって正解の異なる項目があることなど、翻訳以前の問題もある。到底まともな調査とは呼べないものだが、それが科学的な根拠であるかのようにあつかわれてきたのである。
-----
田中 重人 (2017) 「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」『学術の動向』22(8). 21ページ.

http://doi.org/10.5363/tits.22.8_18

詳細は http://tsigeto.info/16zhttp://synodos.jp/science/17194 などでも書いてきたので、そちらを読めば状況はおわかりいただけると思います。

もちろん、調査票をはじめとして、調査に関する情報を公開してこなかったIFDMS研究グループの姿勢は問題です。しかし一方で、そのような研究者の売り込みを真に受けて、「日本人は妊娠・出産の知識レベルが低い」と吹聴してきた ジャーナリスト国会議員 の側にもおおきな責任があります。

特に、2011年に研究代表者が来日してマスメディア向け勉強会や国会議員向け講演をおこなったときには、まだどこにも論文が出ていない段階でした。そんな状況で研究成果を売り込まれた場合には、「論文を出版してから出直してきてください」といって門前払いすべき事案だったはずです。そのあと、2013年に論文が出版された際にも、調査票は公表されていなかったのですから、(私がそうしたように) 調査票を請求して、内容がまともかどうかをまず精査すべきでした。各報道機関には世論調査などをおこなう部門があって、調査の専門家がいるはずです。とりたてて専門家でなくとも、「妊娠とは受胎能力、つまり女性が妊娠し、男性が父親になる能力を意味します」「推奨されれば、私の共同体の大多数は不妊治療を (何度でも) 私達にしてもらいたいのではないかと思う」といった文面が並ぶ調査票をみれば、おかしいと思うのがふつうでしょう。

専門家の嘘と戦う方法

専門家・政府・メディアの責任

非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと では、専門家 (産婦人科医) の責任を中心にとりあげました。記事の最後からふたつめの段落ではつぎのように書いています。

一方で、専門家の側からは、この事件についての説明は、これまでのところおこなわれていない。日本生殖医学会は、2015年9月に、副教材のグラフについて使用を推奨するとの理事長コメント(苛原 2015)を出している。また、前述の要望書を出した9団体は、この問題を追及してきた「高校保健・副教材の使用中止・回収を求める会」の質問書に対し、副教材の訂正後のグラフ(Wood (1989) などによる22歳ピークのグラフ)は「適切なグラフ」であり、IFDMSの結果利用も「適切である」とする回答を寄せている(西山・柘植 2017: 60-74)。しかし、これらの研究の妥当性についての具体的な疑問点には言及がなく、なぜ「適切」といえるのかの根拠は不明のままである。
-----
田中 重人 (2017) 「非科学的知識の広がりと専門家の責任: 高校副教材「妊娠のしやすさ」グラフをめぐり可視化されたこと」『学術の動向』22(8). 22ページ.

http://doi.org/10.5363/tits.22.8_18

このように専門家側の態度はひどいものでした。一方で、 【解題】 で書いたように、文献を読んで評価する仕組みがきちんとはたらいていれば、この問題は止められたはずのものです。そこに関しては、政府やマスメディアの側にも責任があるというべきでしょう。そして、政府もマスメディアの態度も、専門家と同様にひどいものでした。

内閣府:担当B氏
〔……〕
〔……〕グラフに誤りがあったことを申し訳なく思っております。今、文部科学省さんと、正誤表の対応をお伺いしているところでございまして、けっして意図的に改竄したものではないということはご理解をいただけるかと存じます。正誤表の正しいものとして掲載しましたグラフにつきましては、国際的に評価の定まった学術雑誌に掲載された論文からのものでございまして、信頼性は高いものという認識でございます。また有識者も、「問題はない」ということで聞いております。また、引用の表記についても問題はないという認識でおります。
-----
高校保健・副教材の使用中止・回収を求める会 (2015)「文部科学省『健康な生活を送るために(高校生用)』平成27年度版についての質問に対する文部科学省・内閣府担当者からの回答」(2015年9月28日会合記録). 4ページ

https://fukukyozai.jimdo.com/app/download/10272092983/Answers_cabinetoffice_mext.pdf

これは、「妊娠のしやすさ」改竄グラフが掲載された高校保健副教材について、市民団体 (高校保健・副教材の使用中止・回収を求める会) メンバーが文部科学省・内閣府担当者と面談したときの、内閣府からの説明です。グラフの誤りについては謝罪しているものの、結局のところは

国際的に評価の定まった学術雑誌に載ったものであれば、たとえ学界で既に否定されている研究であっても、利用してかまわない。引用の際に孫引きで変な解釈をつけても問題はない。「意図的」でなければ改竄もOK。

という見解になっています。(ちなみに、文部科学省の定めた 「研究活動における不正行為への対応等に関するガイドライン」(2014) では「研究者としてわきまえるべき基本的な注意義務を著しく怠ったことによる、投稿論文など発表された研究成果の中に示されたデータや調査結果等の捏造、改ざん及び盗用」を「特定不正行為」にふくめています (10ページ)。意図的でなくても改竄は成立するというのが標準の考えかたです。)

さらに、2015年10月2日、有村治子内閣府特命担当大臣は記者会見でつぎのように述べています:

高校生の副教材ということでございますけれども、そのときの妊娠に関するグラフに誤りがございました。これは縦軸と横軸のプロットの場所が誤っていたということで、その資料を提供した方、既に報道でお名前が出ていますが、誤解を招かぬようにという観点から申し上げれば、その有識者は吉村泰典氏、元日本産科婦人科学会理事長でございます。
 御本人からは、これを申し上げる前からですね、私が大臣室にお呼びをいたしまして、なぜこうなってしまったのかの経過を、私自身がやはり責任を痛感しておりますので、しっかりと御本人から聞いて、そして陳謝を御本人もされていました。大変申し訳ないということで、文部科学省に対しても申し訳ない思いを持っておられましたので、私から厳重注意ということを、かなり早い段階で厳しくさせていただいております。
〔……〕
責任の所在という意味では、担当大臣としての私が明確におわびをしておりまして、文部科学省にも申し訳ないということで謝罪を表明しております。また、皆様にも御心配をおかけしたことを申し訳なく思っておりますので、それによって新たな資料、訂正資料を配布していただくことになりましたし、責任という意味では私が取らせて、内閣府の皆さんと共に取らせていただきたいというふうに思っておりますので、チェックをした方というのは特段、公表は考えておりません。
 なぜかというと、十分にその責任は果たしていきたいと我が方も明確に申し上げておりますし、その方々を明確にすることによって、セカンドオピニオンとか、あるいは政府に協力、協力というのは専門的な提供をしていただくということが委縮してしまってはいけないということで、そもそもの資料のデータが正確ではなかった、資料提供された方の名前を明確にさせていただくということで、その制裁はなされているものと理解いたしております。
-----
有村内閣府特命担当大臣閣議後記者会見要旨 平成27年10月2日

http://www.cao.go.jp/minister/1412_h_arimura/kaiken/2015/1002kaiken.html

経過を本人から聞いたというのですが、その聞き取った内容は、今日まで公表されていません。この状態で責任は大臣と内閣府が取るといわれても、まず真実をあきらかにせよ、としかいいようがないでしょう。結局、大臣は辞職しなかったし、吉村泰典は現在も内閣官房参与をつづけています。

マスメディアに関しては、IFDMS のあつかいが問題でした。http://d.hatena.ne.jp/remcat/20171217/professional で指摘したように、まだ論文がどこにも出ていない (したがって研究内容がチェックされていない) 2011年段階での売り込みに対し、批判的な観点をまったく持たないまま、研究グループの宣伝に乗っかってしまったのです。特にNHKは、質問項目の紹介に手を加え、違和感を持たれにくい表現にして使っていました (http://tsigeto.info/16z) から、単にIFDMS研究グループに乗せられたということにとどまらない、明確な共犯関係がありそうです。IFDMSの問題点が指摘されたあともNHKは間違いを認めていませんし、2016年7月になってディレクターが こんな記事 を書いたりしています。

専門家 (集団) との戦い

このように、でたらめな研究成果の情報が、どこの段階でもチェックを受けないまま、あたかも「科学的」な知見であるかのように社会に流通し、世論や政策を決める力を持ってしまっているわけです。これは非常に困ったことです。専門家の嘘に対抗して社会を守るには、どうすればいいのでしょうか。

本来であれば、政府やメディアの内部で、文献をきちんと読んで評価する仕組みをきちんとはたらかせるべきです。現在の日本社会では、大学院博士課程を修了し、十分な訓練を受けた研究者 (の卵) で職を探している人がたくさんいるので、人材の供給が足りないということはないはずです。問題は、政府やメディアの側に、そういう人材を雇って育てていく仕組みがないということなのでしょう。

もっとも、文献を読める人がいればニセ科学にだまされないですむのかというと、そんなことはないでしょう。すでにみてきたように、実際に根拠となる文献をあげて間違いを指摘したからといって、その指摘が受け入れられて間違いが訂正されるわけではありません。一般的な感覚では、専門家にしたがうことこそが「科学的」なのであって、専門家の主張が嘘であること (それにしたがうのは非科学的であること) を納得してもらうのはすごくむずかしいのです。

おそらく、まず必要なことは、どのような場合に専門家 (の集団) の言っていることを「嘘」だと考えるべきなのか、その基準をつくって共有することです。とりあえず私が持っている基準は、つぎのようなものです。

専門家やその集団の発言が信頼できるかどうかは、文献を網羅的にレビューした結果にもとづいて決めるべきである


これはもちろん、公共の意思決定の場合のことに限ります。これが個人的な意思決定であれば、自分の信頼する専門家がそう言っていたから、ということでじゅうぶんでしょう。なんなら、占いの結果がそう出たから、でもかまいません。しかし、公共の場所で――たとえば学校で何を教えるかについて――意思決定するのであれば、それについてどのような文献があるかを網羅的に調べ、評価するプロセスを経なければなりません。

「妊娠のしやすさ」グラフの例でいえば、産婦人科の医師やその団体がそれを推奨する意見書を出してきたからといって、それを採用してはならないのです。根拠はあくまでも文献のレビューによるべきです。そして、実際に文献をレビューしたところによれば、結論は明白だったわけです。

科学とニセ科学の境界

私たちの社会で「科学」と呼ばれる制度は、一般に、つぎのような特徴を備えていることになっています。

  • 研究成果についての自由な相互批判が活発におこなわれる
  • 研究成果とその批判の履歴が、じゅうぶんな精度をもって文献に記録され、公開されている

このふたつの条件こそが、科学を科学たらしめているものです。相互の容赦ない批判がおこなわれることで、ダメな研究成果は淘汰されていくと期待することができます。そしてそれが文献に記録されているからこそ、後からレビューした人がダメなものはダメだと判断することができるのです。

ここで注意すべきなのは、「自由な相互批判が活発におこなわれる」というのは、「科学である以上はそうであらねばならない」という、いわば建前だということです。「科学」と呼ばれる制度が本当にすべてそのような性質を備えているかどうかは、また別の問題です。上記の専門家の態度のひどさを考えれば、産科・婦人科・生殖医学の領域では、自由で活発な相互批判などというものは存在しない可能性が高いでしょう。その場合、本来は科学とは言えないようなもの (=ニセ科学) が、実際には「科学」と呼ばれており、社会制度上そのようにあつかわれているだけだ、ということになります。

また、相互批判が活発におこなわれているとしても、それは学界内部の話です。学界の外ではそんなことは普通はありません。素人相手で誰も反論してこないような状況であれば、専門家がデタラメを放言することの歯止めは、本人の良心以外には何もないのです。

もし専門家の言説を信用できるとしたら、それは、科学内部での相互批判に耐えて生き残った研究成果に限られます。文献レビューは、学界の外部にいる素人がそのような成果にアクセスする唯一の手段です。そしてそれは、「科学」と呼ばれている制度が本当にその名に価するかを判断する唯一の手段でもあるのです。