Hatena::ブログ(Diary)

雑記/えもじならべあそび このページをアンテナに追加 RSSフィード Twitter

様々な文字入力手法を「運指動画」でご覧頂くことが出来ます。
「シャドータイピング50音順式タッチタイピング練習法」、ひっそりと公開中。
Advanced W-ZERO3[es]ctrlswapminiかえで携帯配列(圧縮ポケベル打ち入力)を利用中。
普通のキーボード用にNICOLA(親指シフト)を圧縮?した、「かえであすか」を利用中。
はてスタの色識別性が改善されるまでの間、私ははてスタ捨て場にカラースターを捨てます。

【注意】この日記に出てくる「運指(最適化)」という語はほぼ、タイパーさんが表現するところの
「ワード(最適化)」のことを指し示しています
……表現間違いをなくすために、現在訓練中です。

2007年05月23日 水曜日

【日本語入力に関する質問です。直感でお答えください。】に関する補足説明。

(未来:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き))


 表題のアンケートにお答えいただきました、1219名の皆様へ……まずは、ご回答いただきありがとうございました。

 今回は、このアンケートに関する補足説明を行わせていただきます。


 今回のアンケートで候補としてあげた【のはたすいうんかしとてな】の12文字は、以下の日記からコピペしたものです。

2005年11月17日7:06:58追記

 ある程度を手作業で「漢字→かな変換」した場合の頻度。

24063 い

18750 う

17391 ん

15771 か

15400 し

14802 と

12026 て

11359 な

10702 の

10365 は

10210 た

9774 す

(from http://d.hatena.ne.jp/maple_magician/20051108/1131442718 )

 ここで提示した「頻度」というのは、私が書いている日記の記述を「漢字→かな変換」してからmorogramというツールで数えたものを指しています。

 そのため、私の日記という狭い範囲においては、最もよく使うひらがなは【い】である……ということになります。

 もっとも、日本語で書かれた全ての文章をこの方法で数えるのは絶対に無理なので、【日本語で一番良く使われるひらがなが何であるか】というところは、正確にはわからないという状況です。


 もうすこし色々な「頻度」をチェックしたい方は、 http://www4.atwiki.jp/japanese_keyboard_layout/pages/19.html あたりをご覧頂くと良いかもしれません。


 ちなみに、今回のアンケートでは、質問の仕方が不味かったようで、2通りの質問に見えてしまう可能性がありました。

一つ目。

 こちらは後から気づいたのですが、【最も入力する頻度が高い「ひらがな」】と書いていたので、こう捉えて回答され方がいるのではないか……という気がします。

太字のところだけをどのひらがながいのかを直感えてください

 「漢字をひらがなの読みには戻さずに、ひらがなの部分だけを評価する」場合、うちの日記での出現頻度順は【いのてでなしとにはすかる……】のような順番になります

 そうすると、「は」を選択するのはちょっと違うような気もするのですが、「の」を選択された方の直感は、この質問内容だと仮定すれば「十分正しい」と言えそうです。

二つ目。

 以下は、もともとこの質問が想定していた内容です。

かんじへんかんをおこなうまえのひらがなのままのじょうたいでどのひらがながおおいのかをちょっかんでこたえてください

 このばあい、うちの日記での出現頻度は、先に示したとおり【いうんかしとてなのはたす】の順になります。

 「い」は大抵1位なのですが、「うんかし」あたりは人によって順位が入れ替わったりします。


この質問の「狙い」。

 この質問は、普段大抵の方は意識していない(でもだいたいは見当がつく)ところの「ひらがなの使用頻度には偏りがある」という点を、明示的に意識して頂きたい……という考えで行いました。


 日本語入力法を使う場合は、【いうんかしとてなのはたす】のような「高い頻度で使うひらがな」が「なるべくホームポジションから指を動かさずに打てて、手指に負担がかかりにくい」方法を選んで使うと、そうではない日本語入力法を使い続けるよりは「より楽で快適に」日本語入力を行うことができるはずです。


ちなみに。

 漢字を「かな漢字変換」に頼って出す場合、私が書いている日記では、次の文字を使って書いていることになります。

  • 【いうんかしと】をあわせると、入力作業全体のうち25%になる。
  • 【てなのはたすにでき】をあわせると、入力作業全体のうち25%になる。
  • 【、くまっがるもこつ。じれりーょ】をあわせると、入力作業全体のうち25%になる。
  • 【おだあをらけさどよ「」ちそせひゅえめふみわやばゆろほびずねぶむごげへぎゃ・べぼぜざぷぐぞぱづぽ!ぺぴ?ぇぁぉぃぬぢ)(ぅ】をあわせると、入力作業全体のうち25%になる。

 このように、ひらがなを使う頻度というのは、驚くほど大きくばらついています。


 上に挙げた文字は全部で90文字ありますが、そのうちわずか3分の1にあたる、30文字──【いうんかしとてなのはたすにでき、くまっがるもこつ。じれりーょ】──が打ちやすいようになっていれば、日本語入力をする場面のうち「75%は打ちやすい状態にある」……といえます。


 このような考え方(あるいはこれをさらに発展させた考え方)をもとに設計された日本語入力法は、1970年代後半以降にようやく提案され始めたようです。

 そして、今でも多数の日本語入力法が提案され続けています。


 もし、今あなたがお使いの日本語入力法が「最善だとは思えない」とお考えでしたら、お暇なときを見計らって「日本語入力用キー配列」についてお調べいただくと、何か良い発見が得られるかもしれません。

  • 「速い入力を実現したい」
  • 「楽な入力を実現したい」

という部分については、わりと個人差があるかもしれません……が、少なくとも

  • 「右手小指が痛くなるのは何とかしたい」
  • 左手小指が痛くなるのは何とかしたい」

という不満については、多くの日本語入力法がその問題を解決していますので。


……これを書いていて、一つ質問を思いついた。

 はてなで質問をすると、回答者層は「9割弱のローマ字入力利用者+1割のJISかな入力利用者+数パーセントのその他の入力法利用者」になります。

 (もっとも、キーボード入力をしない方が回答している可能性もありますが……)


 ……ということは、極論すればこの質問は「ローマ字入力をしていて、特定の指が痛くなることはあるか」という内容と、9割方等価な質問であるとみなすことができます。


パソコンのキーボードを使って日本語文を入力している最中に、「指が痛くなった」ことがある方に質問します。

具体的に、どの指が痛くなりましたか。当てはまるもの全てを選んでください。
今まで一度も、指が痛くなったことはない。 433
キーボードを見ながら入力しているので、そのときに使っている指が痛くなる。 125
キーボードを見ないで入力し、左手の小指が痛くなる。 166
キーボードを見ないで入力し、左手の薬指が痛くなる。 86
キーボードを見ないで入力し、左手の中指が痛くなる。 50
キーボードを見ないで入力し、左手の人差し指が痛くなる。 52
キーボードを見ないで入力し、左手の親指が痛くなる。 34
キーボードを見ないで入力し、右手の親指が痛くなる。 46
キーボードを見ないで入力し、右手の人差し指が痛くなる。 75
キーボードを見ないで入力し、右手の中指が痛くなる。 44
キーボードを見ないで入力し、右手の薬指が痛くなる。 86
キーボードを見ないで入力し、右手の小指が痛くなる。 166

kouykouy 2007/05/23 21:13  私の場合、日本語入力配列についていろいろ調べるまでは、かなの出現頻度はまったくと言っていいほどわかっていませんでした。頻度の低い方はまだしも、頻度の高い方はほとんど見当外れ。
 だいたい、JISかな入力の配列が頻度順だと思ってましたからね。JISかな入力で打ちやすい文字が頻度の高い文字だろう、と。一応「ぬ」とか「ろ」とか明らかに頻度の低い文字は隅っこの方にあるし。「う」や「ん」の出現頻度が高いという認識は全然ありませんでした。

 当時の私がこのアンケートに答えたら、JISかな入力でホーム段の打ちやすいところにあって、助詞でもある「は」か「の」を選んだいたでしょう。

 かなの出現頻度でこの認識ですから、かなの連なりの頻度(N-gram)については、そんな要素が存在するということ自体思い至らなかったです。

maple_magicianmaple_magician 2007/05/23 23:39  JISかなの場合は「50音順と頻度順の折衷案」という感じに見えますね……中指が長いことを意識したかのような最上段の使い方もしますから、「頻度順」だという印象を受けたとしても、あまり不思議はない感じがします。
 「は」と「の」が助詞に絡んでいるので多く選ばれた……として、もう一つ気になったのは「す」ですね。こちらは「です/ます」の「す」からの連想かも?

 ……そういえば私、この分野に首を突っ込む前は「かなの使用頻度?何それ。」という状況でした。
 何も知らないままでいれば、「○○入力法を使うと特定の指が痛くなるけど、これは仕方がないし、どうにも変えようはないのだ」というままで終わっていたかもしれないと思います。

 いずれにせよ、あの質問に回答された方々が、心の片隅にでも「ひらがなの使われ方には偏りがあるのだ」ということをおいていただければ、それで質問をした甲斐があったことになりそうです。
 あの質問では、「あたりかハズレか」ということそのものは重要ではなくて、単純に「そういう見方で物事を見ることもできる」という、視点を提供したようなものですし。

 1219人の方々に回答いただいたあと、そのうち何人の方がこれに関心をもってくれただろうか……と、今はそこが気になっています。

tastieratastiera 2007/05/26 23:13
うーん……。文字の出現頻度に差があるということにピンと来ないということは、
エドガー・アラン・ポーの『黄金虫』の説明も、ピンと来ないことになるんでしょうか? 自明なことと思っていたので、発見の機会をいただきました。

maple_magicianmaple_magician 2007/05/28 00:36 http://www.aozora.gr.jp/cards/000094/files/2525_15827.html
 こちらの作品ですね。ひとまず該当部分のみ拝見しました。
 おそらくは、この作品にあるような「説明」を付加していれば、件の質問においても十分に精度の高い回答が得られたように思います。

 一方で、今回は「説明」を付加せずにアンケートを取りましたので……そういう状況ですと、文章全体の出現頻度だけではなく、部分的な出現頻度にも大きく左右されるのかもしれません。

 いずれにせよ、あまりこの件に関して認識されていない……という点は、ほぼ確実なのかもしれません。
 もともと今の入力法が普及した理由もアレでしたし、仕方が無い話なのかもしれませんね……。

 単字頻度や連接頻度に関するアピールがうまくいくかどうか……というのは、日本語入力法全体にとって重要なのかもしれません。
 なにかよい宣伝(?)方法が見つかると良いのですが……うーん。

tastieratastiera 2007/05/28 21:13
タイムリーなことに、今日のExcite Bit コネタにこんな記事「一番使われている
ひらがなはどれ?」がありましたよ。(ここを見て書いてたり……しないか。)
http://www.excite.co.jp/News/bit/00091179941794.html

maple_magicianmaple_magician 2007/05/28 23:32  それは興味深い記事ですね!かなの使用頻度ネタも美味しい記事になるんだなぁ……と、ちょっとばかり(いや、実は結構)感動していたりします。
 『黄金虫』のかわりに「モールス符号」で起こし、頻度を示してから携帯電話につなげて、最後はイロハニスト的に〆る、と……さすがにプロの技は真似できそうにないです^^;。
 ここをご覧になった上で書かれたのかどうかは不明ながら、いずれにせよ「雑学の一つとして」単字出現頻度に関するネタが普及してくれるとなると、これは結構面白い事になるかもしれないな……と感じました。