Hatena::ブログ(Diary)

HM weblog

 | 

2009-03-21

  1. 2009-03-21 - kahusiの日記擬き
    僕もかふしさんと同意見。とりあへず全部變換できるやうにしておけばいいんでない?
  2. たとへば假名漢字變換用の辭書なら、「辭書のソース」に適當な字音で語を登録しておいてから、jion-kanadzukaiみたいな表を使って、複數のパタンを持つ辭書を最終的に生成すればいい。
  3. といっても「全部變換できる」やうにすると、誤變換の確率が上がったりしさう。いづれにせよ、基本の字音辭書を修正したら他の辭書の語の字音もそれに追隨するやうな辭書システムにする積りなので、今はあんまり深く考へてゐない。「字音はあとでどうにでもなる」といふ立場。
  4. たとへば。「大地震」といふ語には、「大 おほ 和語」 + 「地震 ぢしん 漢語」といふやうな情報を持たせておく。さうしておけば「ぢしん」を「じしん」にしたくなったときでも、機械的な變換や生成が可能。此の邊ただ「大地震 おほぢしん」といふ情報だけだと、どこからどこまでが字音假名遣でどこまでが國語かなづかひなのか判別できず、機械處理が困難。字音假名遣にも國語かなづかひにも現はれる假名遣は結構あって、「ゐ」とか「わ」とか一文字のそれを含んでゐるとなるともう大變、豫め附與された情報無しに判別するのは多分不可能。だからかういふ情報は持たせようと思ってゐる。
  5. で、さういふ情報も辭書に持たせるとなるとやはりXMLなどの構造化言語の採用は必須かな、と。TSVと獨自の記法では限界がある。
  6. で、さうなると「XMLを手書き」なんて馬鹿な眞似やる訣には行かないから、辭書編輯ツールを書く必要があって云々。
  7. で、そのためにもまづスキーマを決めなければならなくて。
  8. で、そのためには辭書に持たせる情報を豫めきっちり定義する必要がある訣で……。←今ここ
  9. 普段使用してゐる入力の例:
    • にふりょく 入力
    • たうぜん 當然
    • かくちょう 擴張
    • じいう 自由
    • きほう 記法
    • しょうじる 生じる
    • 「かう」は覺えてゐるものだけ登録して時々使ってゐる。「高」とか「效」とか。さうすると候補が減るので。
    • 「さう」「ざう」の字音は使ってゐない。sazaは小指を酷使するので避けたい。
    • いちわう 一往 (これはよく假名書きする)
    • ほんたう 本當 (これもなぜか假名書きしたくなる)
    • へう 表 (hyouよりもheuのはうが樂だから)
    • はう 方 (假名書きすることが多い)
    • 「ゐ」は字音でも常に「ゐ」で入力してゐる。「圍碁(ゐご)」とか「雰圍氣(ふんゐき)」とか「一位(いちゐ)」とか。(MEMO: 「井戸(ゐど)」は字音假名遣ではない)
    • ほっかいどう 北海道
    ぶっちゃけ「QWERTY配列のローマ字入力で打鍵數が減るか否か、同じキーの連續打鍵などが無くなって樂になるか否か」といった要素が大きい。(それだけぢゃないとは思ふけれど。)
  10. [seijiseikana-list 21] 開發メンバの募集について
    「開發メンバの」ではなくて「プロジェクトメンバの」にすべきだったな。別に「開發」しなくても、たとへばフォーラム(現在はSF.JPのログインユーザのみ書き込み可)の管理とか、さういふことをして呉れる人がゐれば大歡迎(僕は多分「掲示板の管理」には向いてゐない)。
  11. 何なら「とりあへず『參加』だけ」の幽靈部員でも可。
  12. 「正統表記」且つ「自由ソフトウエア」ならばギャルゲチャンギ日記 2009年3月でも云々。別に怒らチャンギ日記 2009年3月ないよ。
  13. SF.JPで何が出來るかといふと、例へば文書作成の機能がある。 履歴管理機能があるのはいい。あとタイトルとURLはちゃんと分離してゐるやうだ。これでW3Cの文書の翻訳なんかどう? 否、オープンソースソフトウエアを支援するSF.JP上で、オープンソースにはなれない(よね、W3Cに著作權があるから多分)翻譯文書の作成・公開は可能かどうか、そのへんちょっと微妙だけれど……。さういふ心配のないリソース(たとへば電網聖書とか)を正字正かな化して載せるとか。さういふ使ひ方ならいいかな。
  14. 何はともあれ「參加したい」と思はせる「プロジェクト」にしないと。
  15. 出來ることからちまちまと。
  16. しかし想像以上にスピードの遲い自分に吃驚な今日このごろ。
  17. 平成二十一年三月二十一日 #D21 (チャンギ日記 2009年3月)
    文法の話。
  18. 學校文法か橋本文法*は、どうだらう。「形容動詞」とか。「形容動詞」を「名詞」と嚴密に區別する必要は變換システムにとってはどれほどあるのだらう、とか。「形容動詞」を認めてゐない説も結構あるみたいだし。
  19. まあ、そのへん云々できるほど詳しくないんだけれど。これから勉強しなくては、と。さういふ訣で參考になるだらうと思って以前、詞の玉垣(今は正字正かな参考書)で紹介されてゐた『日本文法 口語篇』(時枝誠記著、urn:isbn:4000218786)及び同『文語篇』を「あとで買ふ」積りだったのだけれど、あっといふまに何處も賣り切れ、以來Amazonはじめ何處もずっと在庫切れ。入手しそびれてしまった。
  20. 今は日本語の文法が手許にあるのでそれを讀まうかと。文法に關して他に參考文獻を御存じの方はをしへて下さい(書籍・Web問はず)。
  21. 實驗段階では、語彙は二語で充分だ(と言ふと少し語弊があつて、實際には全ての品詞の分必要だが)。だから重要なのは文法だ。野嵜氏も多分さういふことを言つてゐるのだと思ふ。

    チャンギ日記 2009年3月

    二語で充分重要なのは文法。たしかに。辭書の作成はそこそこにして本質的なところにさっさと取り掛らないと。とりあへずAnthyのソースでもレポジトリに上げて、それをいぢって實檢するとしますか。

  22. 國語の文法をそのままアルゴリズムとしてかな漢字變換プログラムに*するならば、口語文法のIMEを作るより文語文法のIMEを作るはうが樂なのかもしれない。作つたところで誰が使ふんだ言はれるかもしれないけれども。

    チャンギ日記 2009年3月

    少くとも品詞體系はさうする(=文語を基本にする)積り。これは以前から考へてゐた。といっても具體的な事はまだ全然だけれど、直觀として、文語を基礎に作れば、それを口語に應用する事は可能で(たぶん逆は難しい)、さうすることで文語・口語の兩方に無理なく自然に對應できるのではないか、とか。

  23. 「かは 變(は) ラ行四段」や「かへ 變へ 一段」なんかは、辭書には「か 變 ハ行下二段」で登録し、そこから何とかして「かは 變(は) ラ行四段」に相當する變換候補を動的に生成できないものかと考へてゐる。既存のかな漢字變換辭書では「変わ ラ行五段」と「変え 一段動詞」で「別の語」になってゐて、それらに關聯性は全く無い。實用的にはそれでいいのかも知らんが、それってどうなの、と。あるいはさうやって活用の變化を辭書にハードコーディングすることで辭書が無駄に肥大化してはゐないか、とか。それって正かな入力のために「言はう」「言はない」「言へば」……といふ變化を全部「名詞」で登録するやうな、そんな無駄と同じ氣がする。その方が實裝が簡單になるとかいふ都合もあるだらうけれど、にしても、せめて「辭書のソース」には最小限の情報を載せるやうにして、そこから實際に使用する辭書(=活用の變化を別個の「語」として持つ辭書とか)を「コンパイル」するやうにしたいところ。
 |