ACADEMIC RESOURCE GUIDE (ARG) - ブログ版 このページをアンテナに追加 RSSフィード

"Ask not what the net can do for you - ask what you can do for the net."

インターネットの学術利用をテーマにした専門サイトACADEMIC RESOURCE GUIDEブログ版です。記事は主に以下の4点です。

1. 新着・新発見リソース - 最新の学術サイトの紹介と批評。
2. 編集日誌 - 編集長・岡本真の日誌。
3. イベントカレンダー - 順不同のイベント情報。
4. 産官学連携クリップ - ウェブ産業の産官学連携に関するニュース、講演情報等。
5. メルマガ版 - 本ブログを再編集したメールマガジンの発行情報。

New!【重要】サイト移転のお知らせ:2011年1月1日より、arg.ne.jpに移行します。過去の記事も移行済みです。本ブログ自体もアーカイブします。



好評販売中!『ブックビジネス2.0』

好評販売中!『これからホームページをつくる研究者のために』

 

2010-06-08 (Tue)

[][][]国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションデータを追加(2010-03-08

screenshot

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションデータを追加した(2010-03-08)。

・KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション

http://www.kotonoha.gr.jp/demo/

国立国語研究所

http://www.kokken.go.jp/

言語コーパス整備計画KOTONOHA

http://www2.kokken.go.jp/kotonoha/

・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21 世紀の日本語研究の基盤整備」(「日本語コーパス」)

http://www.tokuteicorpus.jp/

今回追加されたのは、

で、すでにコーパスに含まれていた

とあわせて6種類のデータで合計4600万語となっている。

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを公開(2007-05-28)(新着・新発見リソース、 2007-06-27)

http://d.hatena.ne.jp/arg/20070627/1182877097

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション拡張2008-03-14)」(新着・新発見リソース2008-03-23

http://d.hatena.ne.jp/arg/20080323/1206284374

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションデータと機能を追加(2009-03-09)」(新着・新発見リソース2009-04-08

http://d.hatena.ne.jp/arg/20090408/1239144326

2009-04-08 (Wed)

[][][]国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションデータと機能を追加(2009-03-09)

screenshot

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションデータと機能を追加した(2009-03-09)。

・KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション

http://www.kotonoha.gr.jp/demo/

国立国語研究所

http://www.kokken.go.jp/

言語コーパス整備計画KOTONOHA

http://www2.kokken.go.jp/kotonoha/

・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀日本語研究の基盤整備」(「日本語コーパス」)

http://www.tokuteicorpus.jp/

追加されたデータ書籍サンプルで、合計8821件、約2400万語となっている。また、性別、生年代といった執筆者の属性検索結果に追加され、正規表現での絞り込み機能も追加されている。

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを公開(2007-05-28)(新着・新発見リソース、2007-06-27)

http://d.hatena.ne.jp/arg/20070627/1182877097

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション拡張2008-03-14)」(新着・新発見リソース2008-03-23

http://d.hatena.ne.jp/arg/20080323/1206284374

2008-07-19 (Sat)

[][][]名古屋大学佐藤研究室、日本語テキストの難易度を推定する「帯 1.x(obi-one)」を公開(2008-04-30)

screenshot


名古屋大学大学院工学研究科電子情報システム専攻の佐藤理史研究室が日本語テキストの難易度を推定する「帯 1.x(obi-one)」を公開した(2008-04-30)。

・帯 1.x(obi-one)

http://kotoba.nuee.nagoya-u.ac.jp/sc/readability/

・ことば不思議箱

http://kotoba.nuee.nagoya-u.ac.jp/

・佐藤研究室 / Sato Lab.

http://sslab.nuee.nagoya-u.ac.jp/

・佐藤理史さん

http://sslab.nuee.nagoya-u.ac.jp/~sato/

これは入力された日本語の難易度を学校段階を基準に判定するもので、

  • 1〜6:小学(1年〜6年)
  • 7〜9:中学(1年〜3年)
  • 10〜12:高校(1年〜3年)
  • 13:大学

の13段階で判定結果を示してくれる。なお、判定の材料となる基礎データとして小学校から大学にかけての教科書127冊から抽出した教科書コーパス(1478サンプル、約100万字)を用いている。

たとえば、上記の文章の場合、「難易度=13(大学・一般)」という判定結果になる。

なお、佐藤研究室では「ことば不思議箱」と題して、他にも

screenshot

screenshot

・基本慣用句五種対照表

http://kotoba.nuee.nagoya-u.ac.jp/jc2/kanyo/

日本語基本語彙表JC2

http://kotoba.nuee.nagoya-u.ac.jp/jc2/base/

を公開している。

2008-03-23 (Sun)

[][][]国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション拡張2008-03-14

screenshot

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを従来の1000万語から2200万語へと大幅に拡張した(2008-03-14)。

・KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション

http://www.kotonoha.gr.jp/demo/

国立国語研究所

http://www.kokken.go.jp/

言語コーパス整備計画KOTONOHA

http://www2.kokken.go.jp/kotonoha/

・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀日本語研究の基盤整備」(「日本語コーパス」)

http://www.tokuteicorpus.jp/

KOTONOHA「現代日本語書き言葉均衡コーパス」は、これまで白書から抽出した500万語、とYahoo! JAPANが提供する知識検索サービスYahoo!知恵袋から抽出して500万語の合計1000万語で構成されていたが、今回、国会会議録から抽出した500万語、一般書籍から抽出した700万語が追加された。結果、合計約2200万語で構成されるコーパスとなっている。また、検索結果のソート機能も追加された。

なお、データ拡張の直後に

2008-03-15(Sat)〜2008-03-16(Sun):

特定領域研究日本語コーパス」平成19年度公開ワークショップ

(於・東京都/時事通信ホール、国立国語研究所

http://www.ilcc.com/corpus/

が開催され、日本語コーパスの構築計画の現状や著作権処理に関する報告や討論が行われている。

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを公開」([新着・新発見リソース、2007-06-27)

http://d.hatena.ne.jp/arg/20070627/1182877097

2007-06-27 (Wed)

[][][][]国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを公開(2007-05-28)

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーションを公開した(2007-05-28)。これは国立国語研究所による言語コーパス整備計画KOTONOHAと、特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀日本語研究の基盤整備」(「日本語コーパス」)が共同で開発している「現代日本語書き言葉均衡コーパス」のデモンストレーション版で、政府刊行白書Yahoo! JAPANが提供する知識検索サービスYahoo!知恵袋」から無作為抽出されたそれぞれ500万語、合計1000万語を検索できる。

・KOTONOHA「現代日本語書き言葉均衡コーパス検索デモンストレーション

http://www.kotonoha.gr.jp/demo/

・「「大規模書き言葉コーパスのオンライン試験公開〜KOTONOHA「現代日本語書き言葉均衡コーパス」〜」(国立国語研究所、2007-05-28)

http://www.kokken.go.jp/syokai/press/07_01/

国立国語研究所

http://www.kokken.go.jp/

言語コーパス整備計画KOTONOHA

http://www2.kokken.go.jp/kotonoha/

・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀日本語研究の基盤整備」(「日本語コーパス」)

http://www.tokuteicorpus.jp/

・「国立国語研究所、1,000万語分の日本語コーパスを試験公開」(INTERNET Watch、2007-05-28)

http://internet.watch.impress.co.jp/cda/news/2007/05/28/15852.html

・「「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開」(ITpro、2007-05-28)

http://itpro.nikkeibp.co.jp/article/NEWS/20070528/272720/

・「国立国語研究所が大規模コーパスを試験公開 コトバのインフラ整備、著作権処理で法外なコスト」(@IT、2007-05-28)

http://www.atmarkit.co.jp/news/200705/28/kotonoha.html

・「国立国語研、ブログの表記収集へ−日本語書き言葉のDB化」(日刊工業新聞、2007-05-29)

http://www.asahi.com/digital/nikkanko/NKK200705290015.html