75万語ほど読んで調べた単語のまとめ

中途半端な進捗状況ですが、これまでに調べた単語をまとめてみました。調べた本は

"A Random Walk Down Wall Street"By Malkiel,
"Alice's Adventures in Wonderland"by Carroll,
"Norwegian Wood"by Murakami,
"Fault Lines"by Rajan,
"Balancing the Banks"by Dewatripont et al.,
"The Mystery of Economic Growth" by Helpman,
"How Big Banks Fail and What to Do about It" by Duffie,
"Kafka on the Shore" by Murakami,
"Microeconomics for Managers" by Kreps,
"Hard-Boiled Wonderland and the End of the World" by Murakami

です。このうち、Krepsは131ページ、HBWLは207ページまで。


総語数は75万強だと思います。そこで調べた単語を一列に並べると11094ありました。同じ本で2度調べたものを除くと11000くらいだと思います。複数の本で調べたものをまとめると、8500ほどになりました。
2冊で調べたものが1763、うち3冊重複が504、うち4冊重複が124、うち5冊重複が27、うち6冊重複が4つありました。

このうち、Tirole以降は、SLV(Standard Vocabulary List)との照合をしています。カバーしているのは4861語。リスト12000語のうち、2170語をカバーしていました。そのほか、lyを除いた派生語がリストに載っている語が68語。LV12が209、LV11が242、LV10が262、LV9が217、LV8が206、LV7が257、LV6が207、LV5が174、LV4が170、LV3が101、LV2が74、LV1が51.特に若い番号は一般的でない意味で使われているものが大半です。

重複語のなかでは派生語を含めると1136がSLVに入っていました。SLVと照合する前に調べた本のみで重複しているものを除くと1515あり、重複語の75%がSLVに載っていました。ちなみに、最多の6冊で調べた4語のうちdampenだけはリストに入っていませんでした。5冊重複本では22/23(96%)、4冊重複本では90/97(93%)、3冊重複本では315/365(86%)。2冊重複本では706/1026(69%)。レベル別の内訳は、LV1=17、LV2=32、LV3=50、LV4=107+2、LV5=102+2、LV6=117+2、LV7=143+5、LV8=107+1、LV9=100+1、LV10=144、LV11=119+1、LV2=81+3。
重複していない本では、熟語など、資格のない語を含めてですが、(2170-1136)/(4861-1515)=31%。

これらの数字からとりあえずまとめてみると、75万語くらい読めば、

  • 大概の基本語に触れることができる
  • 複数の本に登場する語の大半は基本語である
  • 複数の本に登場する語をカバーするだけではかなりの基本語が漏れる


ということでしょうか。1つめは12000を仔細に見ていないので、希望的観測です。