2023-12-18

NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう

この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。

はじめに

国立国会図書館（以下NDL）では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学（技術）向けです。

OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション（以下NDC）で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し、適当な語数で集計をできるようにしたNDL Ngram Dataset（以下NND）というデータがあり*1、今回はそれを検索できるようにしたNDL Ngram Viewer（以下NNV）を使います。

lab.ndl.go.jp

n-gramとは

n-gramとは、テキストをなんらかの言語的な単位（文字・音素・形態素・語）で分割し、n個取出したものを言います。知りませんでしたが遺伝子や蛋白質でも応用されているそうです。nは任意の数字が入るので、何個取出すかによって、1-gram（ユニグラム）、2-gram（バイグラムあるいはダイグラム（稀））などと増えていき、このNNDでは1〜5-gramのデータがあるそうです（中身は見ていませんので誤解があるかもしれません）。5-gramはクインクェグラムあるいはファイブグラムと読みます*2。

NNDは、作成時においてデジタル化されたもののうち、図書については刊行年代が1960年代まで、雑誌については刊行年代が1990年代までの資料を対象としており、それぞれ約8.5億種類の単語及びフレーズ・約8.9億種類の単語及びフレーズが利用可能です。テキストの再検討が容易な著作権満了分については約8.3億種類の単語及びフレーズがあります*3。

日本語におけるn-gramデータとしては、言語資源協会で配布している「国語研日本語ウェブコーパス」n-gram データ、GoogleのWeb日本語Nグラムがありますが、どちらも有料であり、規模や種類、質の面に相違があるとはいえ、完全にオープン/フリーなNNDの威力はなかなかにあるものと思われます。

NDL Ngram Viewerについて

NNVはNNDの検索インタフェースで、複数検索や正規表現検索を実現することにより、NNDをかなり自由に調べることができるものです。たとえば、「お入り用」から「ご入り用」へどのように取って替ったのか、正規表現を使った検索キーワード「[おご]入り?用」でかんたんに調べることができます*4。

その他の検索例はNNVの冒頭に説明があるのでそちらをご覧下さい。操作の説明はNDL Ngram Viewer | NDLラボにあります。また、ここでは正規表現についての解説はしませんので、ウェブページやつぎの本などで学んでいただければ。

ci.nii.ac.jp

条件表現の接続助詞の変遷を見てみる

NNVを言語研究で使うにはどうするのがよいでしょうか。まず、気をつけねばならないのは、NNDは、現代日本語書き言葉均衡コーパス (BCCWJ) などの国語研コーパスと違って、電子コーパスではないということです。電子コーパスでは、言語研究のために形態素情報がアノテーションされるわけですが、NNDにかぎらず一般的なn-gramデータではそのようなアノテーションはなされないのが普通です*5。

したがって、条件表現の接続助詞の変遷を調べるためにつぎのような検索を行ったとします。

lab.ndl.go.jp

そうすると、つぎのようなグラフが描かれます。

このグラフは、単純に指定された出現数上位の数を並べただけのものですが、眺めていると、1940年代なかばに急激な落込みがあることが分ります。くわしい原因を調べていませんが、これは1945年にあたり、敗戦時の諸事情が係わっているのではないかとひとまず推定しておきます。また、1923年以降、あるいは1968年以降に急激な変動があることが分りますが、これはなにか言語使用にとって意味のある変化なのでしょうか。
前者については、あるいは有意味なものがあるかもしれませんが*6、逐次刊行物の書誌情報の処理の問題であることもあり（刊行開始あるいは終了年にすべてのデータが集中するなど）、要因を特定するのは容易ではありません。後者については、著作権上の問題によって公開できないデータが多いためで、この年に日本語の資料が極端な減少を見せたというようなことがあるわけではありません。
すなわち、ここに現れるデータはもととなるNDL所蔵資料の状況等に左右されるのであって、純粋に言語的な要因によってのみ推移を見せるわけではありません*7。

とはいえ、NDLはおおむねバランスよく資料を受入れていると考えられるので、粗頻度にかわっていわゆるサンプルサイズを加味した調整頻度を利用すればあるていどこの問題を緩和することができます*8。「キーワードの出現比率を可視化」というトグルスイッチがNNVのキーワード入力欄の直下にあるので、クリックして有効にすると「キーワードの出現比率を可視化（出版年代ごとの出現頻度/出版年代ごとの総対象Ngram数）」というように計算式とともに表示されます（出版年代とありますが、出版年のようです）。それをクリックしてみると……:

となって、急激な変動が均されていることが分ります*9。原則として、言語研究として用いる際は、この調整頻度でのグラフを見るようにしましょう。縦軸は割合を表します。
また、グラフの表示年も調整することができ、じぶんが現在どの資料を対象に検討しているのか考慮して狭めてもよいでしょう。また、2010年代以降や1860年代以前はデータが乏しく、調整頻度が大きく乱れることがあるため、結果の解釈には含めるべきではありません。
なお、グラフの下には出現頻度のCSVデータと出版年ごとの総n-gramデータ数のダウンロードリンクがあり、個人で検索結果を保存し、あるいはてもとのグラフ描画ソフトで再現することができます。

調整頻度のグラフで問題ないかというと、そこは考えどころです。さらにスクロールをしていくと、検索された表現がリストアップされ、NDCで原典を確認できるようになっています。相当量のある「と」をクリックしてみると、予想の範囲内ですが、接続助詞の「と」以外のものが大量に含まれてしまっていることが分ります。
NDL Ngram Viewerで遊ぶときは、かならず実例も確認しましょう。
また、グラフの点にもじつはリンクが貼られており、気になる年でクリックするとその年に限定された検索結果を見ることができます。目的に応じて使分けましょう。

さて、これを解決するためにはどのようにするのが望ましいでしょうか。さきほども述べたように、NNDでは検索対象がどんな単語であるかといった情報は与えられていないので、なるべく前後に無関係なものが来ないように工夫するというのが現実的です。

たとえば、正規表現を用いて、前接の語の活用形も示してやるというのがひとつのやりかたです。たとえば、「([うくぐすつぬふぶむる](と|なら))|([っつい]?たら|んだら)|[えけげせてねへべめれ]ば」を条件として、

lab.ndl.go.jp

で検索すると、

となります（上位5例しかグラフには描画していないのですが、それ以下にも出てくるものはあります）。しかし、一段動詞「見る」などの「たら」形は正規表現でうまく指定できないので、「たら」の用例が確実に指定できているかは不分明です。ただ、「ふと」から「うと」への顕著な交替が見られるなどの興味深い結果は出ていますね。
正規表現で複数検索したときであっても、個別のマッチ文字列に分解されてグラフに描かれるのは痛しかゆしです*10。追補（2024/1/24）：グラフ下の「検索結果を編集する」で合算等が可能でした。訂正します。ただ、メインのグラフにはやはり反映されないのですが……。接続助詞ごとに見るには、結果と出版年ごとのn-gramの総数とのCSVデータをダウンロードして、自前で調整頻度を出してグラフを出し直す必要があります。

また、むりにいっぺんに検索することもないので、具体的な文脈を与えてやることも方法です。たとえば「見る」と共起する例で検索すると……:

こうすると、「と」がもっとも多く、さきほどはいちばん少なかった「れば」がこんどはつぎに多くなることが分ります。なお、縦軸の4.0e-5というのは、4.0×10^-5(=0.00004)の工業系での簡略表記だとのことです。Excelなどでも小さいデータを扱うときに見ますね。
さて、このような検索ならば問題はまったくないかといえば、そもそもOCRが誤っているという例は排除できませんし、「見ば」といった古い送り仮名についても対応できないという問題があります*11。遊びを越えた範囲で用いるには、NDVでおおまかな変遷を摑み、国語研の日本語歴史コーパスや昭和・平成書き言葉コーパスといった整備されたコーパスで確信を得るといったサイクルが必要になるのだろうと思います。

「から」「ので」の変遷を見てみる

この要領で、「ですます」体における、「から」と「ので」との移り変りを見てみたいと思って、「[でま]す(から|ので)」と入れてみると…:

lab.ndl.go.jp

とのように空白になってしまいます。これは、「負荷対策のため、接頭及び接尾が両方とも正規表現で記述されたクエリは受け付けません。（受け付けない例：「.*テスト.*」）」とあるものにまさに該当してしまっている例です。あきらめて、「です(から|ので)」と「ます(から|ので)」とのようにどちらかで検索を分割するしかありません。なお「です(から|ので)」の結果はつぎのようなものです。

近年の「から」と「ので」の入替りはここではあまり見られないようですね。

おわりに

検索例にも上っている「私を.{2,3}にする」など、NNVはいろいろな使い方をすることができます。最長で5-gramなので、複雑な検索はもとよりできませんが、「.{2,3}へ行」などのように、かんたんな格の使いかたであれば問題なく調べることができます。

たんにNDCで未報告の用例を延々と探したり、単語や表記の移変りを見たりするだけでも面白いものですが、もうちょっと複雑なことも考えられるというご紹介でした。

*1:なお、単語分割は言語学的に厳密を期したものではありませんし、解析の正確性もとくに保証されていませんが、単語単位の検索を目的としたデータではないのでおおむね利用上の問題になることはないと思われます。

*2:ラテン語による読みについては化合物命名法のもとになる接頭辞を参照。ラテン語本来の接頭辞とも違う気がしますが、深入りはしません。

*3:それ以外はNDCの図書館/個人送信あるいは館内端末限定送信で確認する必要があります。

*4:「御入り?用」では検索していませんが、「お」が多かったのではないかと仮定しています。

*5:アノテーションしているほうが普通ではないわけですが。

*6:仮に有意味であったとすると、口語体資料の増加などが考えられます。

*7:そんなことを言ったら、どんな資料でもそうなりますが……。

*8:頻度などについての考え方は統計処理環境Rで学ぶ言語研究のための統計入門 | PPTなどのコーパス言語学の資料を見てください。

*9:とはいえ、経年的な増減がなにを意味しているのかは資料全体の変動を見ずには分かりません。NNDの体系的な検討が必要でしょう。

*10:じゃまなグラフは凡例をクリックすると消えます

*11:これに無理に対応しようとすると、「再見ば」のように「サイケンレバ」と読むような例がもしあっても除外できないという問題があります。根本的な対策にはなりませんが、「を見れ?ば」などとしてやると、確実に動詞の例を拾うことができるので、それを「見れ?ば」だけの結果と傾向を見比べることで、異常がないか確認することも可能です。

2022-01-26

『「いろは」の19世紀: 文字と教育の文化史』が出ます

www.heibonsha.co.jp

先年2月に刊行された『岡田一祐『近代平仮名体系の成立明治期読本と平仮名字体意識』（文学通信） - 文学通信』をふまえて、平易に書き下ろしたものです。どうぞよろしくお願いいたします。

2021-12-07

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く

本記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう？　教えてえらいひと。

adventar.org

国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。

www2.ninjal.ac.jp

今回は、そのXMLについて読み解いてみたいと思います。

（当初は書きかけで公開していました。これで完全版です。）

西大寺本金光明最勝王経平安初期点って？

西大寺本『金光明最勝王経』は、「さいだいじぼん・こんこーみょーさいしょーおーきょー」と読みます。奈良の古刹・西大寺に伝来した、『金光明最勝王経』の写本のひとつという意味です。

この西大寺本『金光明最勝王経』（長いので、以下単に西大寺本『最勝王経』、あるいは単に西大寺本と呼びます）は、漢文で書かれているこの西大寺本『最勝王経』には、平安初期（830年頃か）に訓読して（＝日本語で読んで）それを記した人がいて（あとで見ますが、そういうものを「訓点資料」と言います）、それが当時の日本語を理解する上で、ほかにはない情報を提供してくれる点で重要な資料です。

日本語の歴史を研究するということがどういうことか、じっさいにやってみないとなかなか感覚として分からないことが多いと思うのですが、言語の歴史の研究は、流れていってしまう言葉を書き留め、あるいは書き留めた資料をもとに行われます。録音ができない時代は当然のことですし、今でも音声でそのまま言語の研究をすることは難しさが伴います。

しかも、話し言葉にもっとも言葉の性質は表れるわけですが、書き留めるときに、自然と洗練させてしまって、その実相がよく分からないことが多々あります。それでも、調べたい言葉の書き言葉で書かれていればいいわけですが、文章語というものは、昔の言葉であったり、他言語であったりに基づくことが多く、知りたい通りに分からないことも多いのです。

平安初期となると、ちょうど、当時の日本語の資料そのものが少ない時代です。漢文訓読は、言うまでもなく、漢文があって、それをなんとかして日本語として読むための翻訳ですから、日本語の文章としては読めないわけですけれども、単語であったり、「なにガなにする」と言っていたのか、「なにヲなにする」と言っていたのかといった構文レベルであったりのことであれば、分からなくもありません。

なおよいことに、これは当時の手書きがそのまま伝わる資料です。『古事記』にせよ、『源氏物語』にせよ、その内容を書いたひとが紙に直接書いたものが伝わるわけではなく、後世の人々が書き写したものです。それに対して、訓点資料は、書き写す（「移点する」と言います）こともあるのですが、訓読したオリジナルが残っていることも多いのです。手短に言ってしまえば、書き写されたものよりも、信用がおけるというのが大きなポイントです。

本書の日本語史研究上の重要性を世に知らしめたのは、九州帝大退職後の春日政治氏が、当時福岡にあった斯道文庫*1の紀要の初号として刊行した一大研究です（今思えば、よく、文庫に関係のないもので第一号を出しましたね？　退職後だったからなんでしょうか）。

dl.ndl.go.jp dl.ndl.go.jp dl.ndl.go.jp *2

本書の日本語史上の価値については、くわしくは本書、またこのあとご紹介する訓読文解説書をご参照ください。

研究史的な位置づけとともに、価値を若干示しておけば、本書は、9世紀という、訓読がはじめられてからごく早い時期に、全巻にわたって、かなり詳細に読み方が記録されたものということだそうです。訓点は、ルビのようなものなので、あってもかならずしも細かくはつかないんですね。それが、全体的に付いているので、とても貴重ということです。

また、春日氏が研究を公にした1942年は、まだまだこのような訓点資料の研究が始まったばかりで、どう研究していいかも、そこまでみんな確信が持てなかった時代です。それを、こんな精密な研究として公にしたのだから、一気に研究が拓けるのも当然ということです。時節柄、すぐにとはいきませんでしたが、それでも戦後、訓点語学会が設立され、研究が加速したのはよく知られています。

「当時の日本語を理解する上で、ほかにはない情報を提供してくれる」ってどういうのかなあというのが気になったのです。「ほか」の言語資料との違いというのでしょうか。
— まつーらとしお #ひつじコトラボ (@yearman) 2021年12月8日

訓点資料じゃないと分からないこと、第1位は片仮名や漢字の音読みの変化ですね……　これはほかに代えがたい
第2位は音便などの変化が訓点資料のほうがあらわに出ることがあります
第3位は、訓読の漢語と和語の対応の変化が実地に分かるのは字書では得られないことでしょうね
— Kazuhiro hokkaidonis (@kzhr) 2021年12月8日

訓点って？

リンクした西大寺本は春日氏が持っていた別の金光明最勝王経写本で訓点というものがどういうものか確認してみましょう。蛭沼氏による解説によれば、これは石山寺にあったものが、春日氏の手に渡ったものだそうです。

画像を見てみると、黒々と記された漢字に白く片仮名（初期の形です）や記号が見えます（色褪せた朱の点もあるそうです）。このような記号を「ヲコト点」、あるいは単に「点」と言います。こちらは、西大寺本とちがって、ヲコト点がまちまちです。

ヲコト点は、一般的に、助詞や助動詞をすばやく示すのに用います。訓読がはじめられた当初は、片仮名や平仮名という書きやすい文字はなく、漢字をそのまま日本語を表すのに流用していました（一般的に「万葉仮名」と呼びます）。いま見たように、ヲコト点を書くようなところにいちいち漢字を書いていられないので、記号を決めて書いたということです。

蛭沼氏によれば、これは「東大寺点」と呼ばれるヲコト点の取り決めに沿っているそうなので、ちょっと読んでみると（読みやすいところを探して……）、中央上部に「勤無怠」とあるところは、「勤して怠（ヲコタル）こと無し」と読みます。「勤」だけだとちょっと分かりませんが、そのまえの行の終りに「策」とあって、「策勤して」と読むのだろうと思われます。平仮名でヲコト点の解釈を記し、片仮名で振り仮名（「仮名点」と言います）を記すのがお約束です。このような行為を訓点研究では翻訳と称しますが、上記の資料では分かりやすさを重んじてか訓読としていますね。

ヲコト点を加えることを「加点」と言います。ちょっと戻りますが、平安初期点とは、平安初期に加点されたヲコト点ってことですね。加点は、何度もされることがあり、いつごろされた加点かを区別することも、訓練された研究者であればできるそうです。

西大寺本金光明最勝王経平安初期点訓読文XMLについて

すっかり前置きが長くなってしまいましたが、本題です（本題なんです）。

今回公開された訓読文は、柳原恵津子氏を中心に作成されたものとのことです。

この訓読文XMLは、国立国語研究所の公開する全文検索システム「ひまわり」での利用を考えて作られたXMLデータです。XMLとは、データを体系的に記録したり、文章の一部に標識（タグ）を付けて、コンピューターに扱い方を注意してもらうための仕組みです。

この訓読文を使って検索するには、この「ひまわり」をダウンロードして、必要なところにデータを入れてもらえば使えるようになりますが、そちらは説明書もあることですし、省略しましょう。

さきほどの石山寺旧蔵本と同じ箇所を西大寺本で探すと、原本画像では左から2行目の7字目から、訳文では左から4行目にあります。春日氏は「勤（め）て怠ルこと無し、」と読んでいる箇所で、（　）で括られた場所は補読といって、原文にもヲコト点・仮名点のどれにも書いてはいないけれども、読み解くうえでは補わざるを得ない文字のことを言います。ここでは、「勤」という文字に、「て」と解釈できるヲコト点が付けてあり、意味が通るように読むと「勤」は日本語で「つとめる」という動詞と考えられるので、「め」を補うべきであるということになります。

この箇所を柳原氏がどのように読んでいるかというと（見やすさのために構造の簡略化や改行を加えてあります）、次のようになります。

<?xml version="1.0" encoding="UTF-8"?>
<text>
  <body>
    <article>
      <p>
        <quotation>
          <s>
            勤<hodoku>め</hodoku>
            怠
              <betsuhitsu type="surikeshi">
                <kanaten>る</kanaten>
              </betsuhitsu>
              <betsuhitsu type="surikeshi">
                <okototen>こと</okototen>
              </betsuhitsu>
            無
              <betsuhitsu type="surikeshi">
                <okototen>し</okototen>
              </betsuhitsu>
            <period position="left">、</period>
          </s>
        </quotation>
      </p>
    </article>
  </body>
</text>

XMLは、HTMLをやったことのある方には見慣れたものかと思うのですが、木構造と呼ばれる、だんだんと情報が深くなっていく仕組みです。また、前提として、データは一次元に進んで、同時並行に進んでいったりはしないというものがあります。

ここで、<text>はHTMLでいう<html>にあたり、データ全体を支配する根っこ（ルート）となります。本という根っこがあって、第1章・第2章という枝に分かれていくとイメージしやすいでしょうか。<body>以上は、訓読文解説書を見ていただくとして、<quotation>以下をここでは見ましょう。

タグが表す部分の意味を確認しておくと、<quotation>は、地の文ではない（仏の話などの）文、<s>は一文というのがおおまかな本文です。ヲコト点に関わるところでは、<okototen>、<kanaten>、<period>がそれぞれヲコト点、仮名点、句読点を表します。<betsuhitsu>は、別筆といって、メインの人以外が書いたものを指します*3。<betsuhitsu>タグには、type属性と呼ばれる付加情報が記されており、情報を付け足すことができます。最後に、<hodoku>は、補読を表します。

原文と見比べると分かるとおり、このXMLは、日本語で読む順番にデータができています。また、ヲコト点や仮名点には順序が記されていないのですが、これも一読意味の通ずるようにあらかじめ並べ替えがされています。ここで、返り点がついていれば、漢字を<kanji>タグに入れてしまって記載するようですが、ここでは返り点がないので、断りなく順序が変えられているということでしょう。

その意味でこれは紛う方なき「訓読文」であって、加点のありさまを記した資料ではありません（春日氏のものを見てもらえば分かるように、訓点研究としては珍しいことではありません）。

さて、別筆の認定が春日氏と相違するかは私には分からないのですが、訳文には別筆の記載はとくに見られません。これは、柳原氏の検討を踏まえたものなのでしょう。春日氏の訳文の建設的批判のうえに作られた点に、この訓読文の価値があるのだろうと思われます。

なお、この例には出て来なかったのですが、「於」などのような、いわゆる不読字は、<mute>タグの属性に組み込まれ、本文の検索から外されています。これは、「ひまわり」の制約と考えられますが、本文を属性に送り込んでしまうのは、このXMLの特徴のひとつと言えるでしょう。

原文に忠実なマークアップについて

学殖の備わった人物による、目的に沿った解読は、それはそれで素晴らしいことなのですが、<mute>タグの設計など、原文離れのところがなくもありません。原文に見える文字・記号だけ記録したり、もうすこし原文を活かした記録をすることはXMLではできないのでしょうか。

もちろんそんなことはなく、そういうものを作るということを目的にデータを作っていけばよいことです。原文にあるものをだけを取り出そうとする行為を「原文に忠実な」と呼ぶことにすると、そのようなデータ作りの助けとなる、TEIのような取組みがあります。

TEIといった、欧米の資料を扱うXMLで、日本古来の文章が扱えるものかといった向きもありましたが、いまではそういうことを言うひともいないでしょう。古辞書についてはすでに研究したことがあります。

訳文を作る際にも、「ひまわり」を目的にしなければ、もうすこし分かりやすいデータ形式も選べたかもしれません。このような平安初期点が現状のTEIでどれくらい扱えるかは分かりませんが、TEIである必要もなければ、TEIにしても現状に捕われず拡張できる仕組みなので、なにか方策を考えればよいのでしょう。いずれ考えてみたいことです。

ちゃっかり宣伝もしたところで、これにて。

*1:福岡時代の斯道文庫については、最近、よい記事が出ています。 chutetsu.hateblo.jp

*2:本書の訓点に最初に着目したのは、大矢透氏の次の書です。 dl.ndl.go.jp 春日氏も、本書を問うまえに、一度論文を書いているようですが、未見です。 https://dl.ndl.go.jp/info:ndljp/pid/1261799/333

*3:なぜbeppitsuじゃないんでしょうね？

2021-07-24

文献系研究者にはとくにおすすめな日本語のDH系サマースクール

講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。

connectivity.aa-ken.jp

2021-07-18

本が出ます(4)

kzhr.hatenadiary.jp
kzhr.hatenadiary.jp
kzhr.hatenadiary.jp
の続きです。

この本では、イントロダクションを長めに書きました。たんに先行研究を述べただけではなく、日本語学者や言語学者が明治時代の文字・表記を知るうえで、どういうことを知っておいてほしいかということを考えたものです。それがどれだけ実現できたかは分りませんが、自身の研究を日本語や世界の文字・表記史のなかでどう位置づけるか見直すいい機会にもなったと思っていますし、専門書を市販する意義もそのような学界のレベル引き上げにあるのではないでしょうか。その点、日本語学界の専門書刊行スタイルは、自著を理解されることを拒むようなものも多く、なににお金を払わせているのか不明なものが多かったのではないかと思います。それをストイックさとかつては呼んでいたことは知らないでもないのですが（https://bibdb.ninjal.ac.jp/SJL/view.php?h_id=1480750810の書評対象など）。多分野の専門家に宛てた内容の弱さは、学界の趨勢にも影響のあることと思うので、論文ではなく本の形にするならば、自身の研究へ一直線といったようなことは止めてほしいと思っています。

2021-07-04

オンラインで見られる平家物語諸本

非の打ち所のない諸本系統論をしようとしているわけではないので、系統関係は要を外さない限りで簡略になるよう努めます*1。まあ、そもそもわたしの興味は天草版平家を中心としているので、古態論などはあまり大きな課題ではないのです。なお、立命館大学ARCから覚一本龍大本以外にも、京都府立総合資料館本（まあ、いまは京都学・歴彩館ですが）が何点か存在することは確認できましたが、請求番号すら分らない始末だったので、ここには記していません。八坂本二類系、百二十句本、葉子十行本、屋代本巻2などがあるはずです。

影印版の集成は平家物語の諸本テキスト一覧荒山慶一２００１年４月にまとめられたものが便利そうです。

*1:具体的には、系統の立て方として諸本論とのつきあい方を参考にしました。諸本の分類には、大津ほか編『平家物語大事典』を参照しています。

2021-06-03

天草平家と天草伊曾保の画像・翻刻対照HTMLを作る

突然謎の感情をあらわにすると、日本語史の講読で、講読資料の翻刻を作ったり、翻字したりするのも学習のうちだろうと頭のなかで煩悶が駆け巡るが、それは自分が興味を持ってぶち当たってからでいいというのが昨今らしく、まだ30代半ばなのに隔世の感を覚える。それはさておき、そのような時代背景もあり、天草平家と天草伊曾保については、国語研がありがたくも画像と翻刻を公開してくれているので、標記のものを作ろうと思い至った。（なお、本記事で用語解説は基本的にしない。）

kzhr's diary

ad ponendum

NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう

はじめに

n-gramとは

NDL Ngram Viewerについて

条件表現の接続助詞の変遷を見てみる

「から」「ので」の変遷を見てみる

おわりに

『「いろは」の19世紀: 文字と教育の文化史』が出ます

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く

西大寺本金光明最勝王経平安初期点って？

訓点って？

西大寺本金光明最勝王経平安初期点訓読文XMLについて

原文に忠実なマークアップについて

文献系研究者にはとくにおすすめな日本語のDH系サマースクール

本が出ます(4)

オンラインで見られる平家物語諸本

天草平家と天草伊曾保の画像・翻刻対照HTMLを作る