Hatena::ブログ(Diary)

電子化 このページをアンテナに追加 RSSフィード

世界の新聞電子化プロジェクトについて書いていたつもりでしたが、大きく脱線しました。
別世界へ引越てしまったので、すでに更新は終了しています。
初めての方は、こちらからご覧になると、よろしいかもしれません。

2009-10-16

[][]新聞電子化の歩き方 その2

そろそろ、内容が拡充されましたので、前の地図を改訂しておきます。

新聞電子化に興味はあるけれど、道が分からなければ、以下のガイドを参考にしてみてください。


以下のような方に、お勧めです。

  • はじめて、このサイトへ迷いこんで来た方
  • これから新聞電子化について調べたい方
  • すでに新聞電子化に携わっているが、全体像を整理したい方

 

(1)「電子化」には、「カレント」と「アーカイブ」という2種類の意味がありますが、ご存知ですか?

YESの場合次へ


NOの場合、こちら(の後半)を読んでみてください。

世界最古の新聞をネットで拝見

http://d.hatena.ne.jp/denshikA/20090831/


 

(2)ここでは、主に「アーカイブ」について書いていますが、よろしいですか?

YESの場合次へ


NOの場合

もし、電子書籍などに興味がある方は、こちらがオススメです。

外部記憶

http://masayuki.boo.jp/wp/

もし、それ以外でしたら、私の守備範囲外です。すみません。


 

(3)ここでは、主に「新聞」の電子化について書いていますが、よろしいですか?

YESの場合次へ


NOの場合

もし、書籍の電子化でしたら、こちらを読んでみてください。

bookscanner記

http://d.hatena.ne.jp/bookscanner

もし、それ以外でしたら、おそらくお役に立てません。ごめんなさい。*1


 

(4)世界の新聞電子化プロジェクトの実例を知りたいですか?

YESの場合、こちらへ行くと、これまでに紹介したプロジェクトのリストがありますので、それぞれクリックしてみてください。随時増えて行きますので、たまにチェックしてみてください。

世界の新聞電子化プロジェクトのリスト

http://denshika.cc/a_list.php


NOの場合次へ


 

(5)新聞電子化に関する技術的なことが知りたいですか?

YESの場合

まず、こちらを読んで、新聞電子化の流れを全体的につかんでください。

新聞はこうして電子化される(1)

http://d.hatena.ne.jp/denshikA/20090903

次に、こちらにOCRに関して、簡単に触れていますので、もしOCRについて、あまりなじみがなければ、見てください。

OCR(オーシーアール)というのは、何ですか?

http://denshika.cc/faq/faq4.php


OCRの精度というのは、どのくらいですか?

http://denshika.cc/faq/faq5.php


経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる

http://d.hatena.ne.jp/denshikA/20090913


SSIMの問題点とOCRの可能性について

http://d.hatena.ne.jp/denshikA/20090924


OCRはどのように間違いを犯すのか?

http://d.hatena.ne.jp/denshikA/20091010

続いて、画像のファイル・フォーマットに興味がある方で、特にJPEG 2000について知りたい方は、まずはこちらをご覧ください。

JPEG2000(JPEG 2000)というのは、何ですか?

http://denshika.cc/faq/faq7.php

もし、JPEG 2000における特定のトピックに興味がある方は、以下の項目なら、どうぞ、こちらから。

kakaduコマンドについて:

http://d.hatena.ne.jp/denshikA/20091007

http://d.hatena.ne.jp/denshikA/20091015


JPEG2000コンポーネント(Component)について:

http://d.hatena.ne.jp/denshikA/20091008


JPEG2000プログレッション順序(Progression Order)について:

http://d.hatena.ne.jp/denshikA/20091009


JPEG2000の分解レベル(Decomposition Levels)について:

http://d.hatena.ne.jp/denshikA/20091013

http://denshika.cc/faq/faq7s.php


JPEG2000レイヤー(Layer or Resolution)について:

http://d.hatena.ne.jp/denshikA/20091014


JPEG2000のタイル(Tile)について:

http://d.hatena.ne.jp/denshikA/20091015

さらに、画質の評価方法について、PSNRないしSSIMに興味がある方は、こちらをご覧ください。

SSIMとは、何ですか? (PSNRとの比較により、説明しています)

http://denshika.cc/faq/faq6.php

もし、画質の評価方法について、ビットレートに興味がある方は、こちらをご覧ください。

新聞電子化JPEG 2000 その5

http://d.hatena.ne.jp/denshikA/20091014


それ以外の技術的なお話は、そのうち補充されますので、たまにチェックしてみてください。


NOの場合次へ


 

(6)新聞電子化プロジェクトの予算などを知りたいですか?

YESの場合

まず、概要をさらっと知りたい場合は、こちらを見てください。

新聞の電子化というのは、どのくらいの費用がかかるのですか?

http://denshika.cc/faq/faq2.php

もう少し詳しく知りたい方は、こちらを見てください。

新聞電子化にまつわるエコノミー

http://d.hatena.ne.jp/denshikA/20090909


NOの場合次へ


 

(7)「電子化」に関係しそうなニュースを知りたいですか?

YESの場合、こちらにはてなから引っ張ってきていますが、たまに、関係ないものが混ざります。

電子化に関する最近情報

http://denshika.cc/news.php


NOの場合次へ


 

(8)いったい、何をお探しですか?

一度、スタバでお話しましょう。

こちらの連絡先へ、ご希望の日時と場所ををお知らせください。

http://denshika.cc/profile.php



ちなみに、みなさんのおかげで、このように推移しています。これからもよろしくお願いします。ブックマークなどでのコメント、ありがとうございます。励みになります。

f:id:denshikA:20090916072431p:image 9月16日時点
f:id:denshikA:20091016095727p:image 
f:id:denshikA:20091016095728p:image 10月16日時点

http://tophatenar.com/view/denshikA

*1:ただし、何かいいこと、あるかもしれません。