Hatena::ブログ(Diary)

ヒメドロ一夜干し!

2016-11-16

古い文献の自炊 (スキャン→PDF化→OCR)

ネットから文献がバンバンDLできてしまう昨今ですが、それでも古い文献だとネット上に出ていないことも多く、そうなるとどこかから借りてきて自分でスキャンしなければなりません。
画像取得からPDF変換、OCRまでの自分なりの方法をメモ。

1. 見開きのままスキャンし、tiffjpgなどの画像ファイルとして取り込みます。解像度は300dpiくらいでいいと思います。新しいフォルダを作ってまとめておきましょう
f:id:graphelmis:20161116173244j:image:w360

2.見開き2ページを1ページずつに分割するため、コピーして2倍に。念のため、この作業まで終わったフォルダをコピーしてバックアップをとっておくと、後にミスをしてしまった場合でもやり直しがききます。
f:id:graphelmis:20161116173245j:image:w360

3. トリミング、明るさ・コントラストを調整します。
 僕はMS OfficeについてくるMicrosoft Office Picture Managerを使用。シンプルで使いやすいです。
 「自動修正」で文字のコントラストと明るさをいじり、古典的ですが「トリミング」で片方ずつ交互に切りだしていきます。キーボードの「→」でページめくりをしながら、右、左、右…とベージを切り出すとスムーズ。ファイル名もページ番号と対応して順番通りになります。傾きが気になる場合はここで補正もできます。
f:id:graphelmis:20161116173246j:image:w360

f:id:graphelmis:20161116173247j:image:w360

4.切り出しました。(「1.JPG」は片方いらないページだったので1枚だけ切り出してあります。)
f:id:graphelmis:20161116173248j:image:w360

5.画像をPDFに変換します。僕はフリーソフトの「pdf_as」を使っていますが、何でもいいと思います。

6. 切り出し済みの画像をドラッグ&ドロップし、並び順を確認して、「操作」→「画像ファイルをPDFに変換」。
f:id:graphelmis:20161116173249j:image:w360

f:id:graphelmis:20161116173250j:image:w360

一瞬で結合できます。
f:id:graphelmis:20161116173251j:image:w360

7. このままだと文字で検索ができないので、OCRをかけて文字情報を付加します。PDF-XChange Viewerが便利です。
先ほど作ったPDFを読み込み、「OCR」をクリック。
f:id:graphelmis:20161116173252j:image:w360

8. ページ範囲や言語設定などを選ぶポップアップが出るので、適当に選んで「OK」。精度が高いほうが正確ですが、処理に時間がかかります。
f:id:graphelmis:20161116173253j:image:w360

9.OCRが終わったら、変更を保存して終了。Adobe Readerなどで確認してみましょう。

10.ちゃんと文字が選択されればOK。適当なテキストボックスにコピペしてみて、精度を確かめましょう。
f:id:graphelmis:20161116173254j:image:w360

2016-09-19

AT&T アクティベート

USAのAT&Tというキャリアは、日本でSIMを入手すればアクティベートまで出発前に済ませられます。



ざっくり言うと、amazonなどでsimを購入→AT&Tのサイトからアクティベート、という流れ。
詳しい手順はこちらのブログ記事が大変参考になります。

ダラス海外赴任日記 - AT&TのプリペイドSIMを日本でアクティベートまでしておく

なお、上の記事に挙げられているプランは最新のものではなく、以下のように変更になっています(画像取得:2016/09/19)。
f:id:graphelmis:20160919151607g:image
大容量 and/or 北米大陸全体で使いたい場合は6GB/$60プラン、それ以外の場合は3GB/$45か1.5GB/$30という選択肢です。僕は$45のプランを選択しました。

[2016/10/22追記]無事アメリカから戻りましたが、ちょうど20日で3GB使い切ってしまいました(1日足りなかった)。昨年のアメリカ滞在時は17日でちょうど2GBくらいだったのですが、今回はポケモンGOをやっていたり調べ物を多くしたせいでペースが早かったようです。

2016-02-05

2016年

あけましておめでとうございます。
と言っても平然ともう2月ですが…

そんなわけで今年に入って丸1ヶ月が経過したのですが、そんな僕の2016年は帰省を終えて空港に向かう途中の電車内で受け取ったリジェクトのメールから始まりました。笑
そこそこいい雑誌、少なくとも僕にとっては遠くかつ身に余るほど格調の高い雑誌であったため、通る確率に関しては覚悟の上でしたが、それでも人生初のリジェクトはなんかこう、不思議な気分にさせられました。
思ったよりもショックではありませんでしたが、それでもじわじわ来ているというのが正直なところです。
幸い再投稿が認められるリジェクトだったので、変な表現ではありますが「致命傷で済んだ」みたいなのが一番しっくりきます。
本当はすぐにでも修正して再投稿に移りたいところですが、「タクソンサンプリングを増やせ!」という、シンプルな文言の割にテマとヒマがかかる系ご指摘を頂いており、気軽にデータを増やせないのが悲しいところです。
そんなわけでこの1ヶ月は、より広範にサンプルを見るため、初めて触れる手法の練習などをしているうちに終わってしまいました。まだまだ道のりは長そうです…

そんなわけで、今年も(は?)メリハリ付けて楽しく頑張って行きたいと思いますので、どうぞよろしくお願いします。
もう2月ですけど。

2015-12-22

フランス詳細地図

地名を調べる際、日本であればYahoo!地図があるのですが、海外だとなかなか一筋縄にはいきません。
Google mapsで調べがつく場合もありますが、そうでない場合は別の情報源にあたる必要があります。
幸い、インターネットが普及している国については様々な情報を検索一発で引っ張ってくることができますが、フランス、特にフレンチギアナはなかなかそうもいかず、地名を書きあぐねていました。しかし、やっぱり日本同様のサービスはできていたようで、ついに地理院地図的なページに行きあたることが出来ました。

geoportail
http://www.geoportail.gouv.fr/accueil

日本で言うところの国土地理院であるIGNが発行している地図にいろんな情報に重ね合わせながら見れるサイト。
海外領土もちゃんと対応していて、かなり詳細なところまで見れます。
ただし、緯度経度検索の結果がGoogleと若干ずれたり、大きい縮尺だと川の流路が雑に書かれてたりとアラもあるので注意が必要です。

ラベルを書くのに詳しい地図が必要だったので、amazon.frから紙地図を買おうとしていたのですが、買わずに済んでよかったです。

2015-12-11

エクセルを使ったラベルの作り方【印刷編】

続きです。


作成したラベルは、必要な枚数を印刷します。
エクセルで作る際は格納ブックとは別のブックかシートを用意し、そこに必要なラベルを貼り付ければいいでしょう。レイアウトは前の記事に載せた通りですが、再掲しておきます。

f:id:graphelmis:20151211165345j:image

一行5枚×18列で90枚分のラベルがはがきサイズ1枚に印刷されます。
ブックはA4サイズで作り、それを20%に縮小すればちょうど収まります。
1枚当たりのサイズは、前の記事でも書きましたが15×7mm程度です。
ワードで作れば恐らく同サイズでも100枚くらい入るのですが、ラベルを切った後の余白は三角に切って台紙として再利用しているので問題はありません。多分。


・体裁の調整
印刷用ブックに転記する前に、ここでエクセルの悪癖の原因を潰しておかなければいけません。
悪癖とは、特定の条件を一つでも含むと、そのセルの内容が半分下にずれ、切れて印刷される事象のことを言います。
僕が確認した中では以下が原因で症状が出ました。

・同一セル内に別々の書式(文字サイズ、斜体etc)が混在
  スペース節約のために一部だけ文字サイズを下げたりするとなります。
  統一が必要。
JISコードにない文字が入っている
  繁体字の地名を印刷しようとしたらなったことがあります。
  JISコードの文字で代用したら正常に印刷できました。
・セルからはみ出している
  入りきっていればいいわけではなく、セルの9割から先を超えると切れます。
  カッターで切る際のマージンだと割り切り、収まるように入れましょう。
・「折り返して全体を表示」がオンになっている
  印刷前に全セル選択してから、Home→「折り返して全体を表示する」をオンオフしておきましょう。
・10.5, 11.5など、整数でない文字サイズにしている
  整数になってないと切れるので、整数で指定しましょう。

ちょっと面倒にも思えますが、コツは「シンプルに作ること」。癖を把握したうえで作れば特になんということもないです。
最近では、慣れのせいかほとんど見かけないようになりました。

印刷用ブックにコピペした後は、数値を変えないようにCtrlを押しながらドラッグで必要枚数まで増やし、印刷します。



・プリンタ
僕は丸山さんオススメのヒューレット・パッカード社の56番インクを使う機種で刷っています。
非常に黒が綺麗で、僕も導入するや否やすっかりハマってしまいました。
ただ、56番対応の機種は全て2000年代前半に発売された古いシリーズなので、本体はオークションで購入するほかありません。
僕もDeskjet 5160とPSC 2550を所持していますが、どちらもオークションで購入したものです。
現在でも対応機種のどれかしらはオークションに頻繁に出ますので、本体の入手は難しくないのですが、むしろインクの生産が終了しないかと気が気ではありません。
いつかは近いクオリティのものを手に入れなければいけないとは思っているのですが…。
同じHPで独立プリントヘッドでも、どれも56番程のクオリティはないんですよね…。HPさん、56番インクが使える新機種、出して下さい…。

・用紙
印刷紙には伊藤屋のハイパーレーザーコピー(ホワイト、はがき)を使用しています。
ただ、この製品は海外製のためか若干ロットにばらつきがあるようで、使い始めた2011年当時は非常ににじみの少ない、インクジェットとは思えない仕上がりに感動したのですが、2013年の春ごろに買ったときには品質が落ちて滲みの多い劣悪なロットに変わってしまっていました。これを書いている2015年12月に入手したものはまた元通りの品質に戻っていたのですが、今後またばらつく可能性もあるので、気に入った品質のものはある程度まとめて買っておいた方がいいのかもしれません。

・印刷設定
最高品質、はがきで印刷します。
HPのプリンタであれば一度設定すれば名前を付けて印刷設定を保存してくれるので、2回目以降はそれを選べばOKでしょう。


・印刷後
印刷後の紙はインクが乾くまで何時間か、可能であれば丸1日くらい置き、切り分けます。

カッターで切ると波打ちや盛り上がりがでるから、という理由でハサミを使う人も多いですが、僕はまっすぐ切りたいためカッターを使っています。
カッターはオルファの0.2mm特専黒刃のものを使い、力を掛け過ぎないように薄く切れば綺麗に仕上がります。

エクセルを使ったラベルの作り方 【入力編】

最近、ラベルを作るのに凝っています。
凝っているというか、マウント済の標本が溜まりすぎて本当にヤバイ、と思い始めたからですが…。

ところで、そのラベルの体裁についてですが、ネット界隈を検索してみても意外といい情報には行きあたりません。見つかっても、例に出されているラベルが既にイマイチな出来だったりすることも少なくないです。
今のところ、ネットで拾えるラベルに関する記述では、丸山さんが2014年に九大博の研究報告に書かれたもの(丸山, 2014)が随一でしょう。これは、ラベルのみならず、甲虫標本の作り方全般についてわかりやすく詳しく説明した素晴らしい文献です。

しかし、僕は僕で自己流でこれまでやって来てしまっているので、丸山さんの方法と比べてラベルの体裁や作り方などでかなりの差異があります。
もちろん、どちらが正しい・誤っているという話ではないですが、違う作り方をしている例もあれば誰かの参考になるかも知れないと思い、書きとめておくことにしました。

使用ソフト
Microsoft Excel 2007
丸山さんと大きく違うのが使用ソフトで、僕はMicrosoftExcelの方を使っています。丸山さんも指摘されている通り、Excelは特に印刷時には独特の癖を発揮するソフトであり、Wordに比べたら印刷に際して少々コツが必要なように思います。
しかし、何より操作が簡単であり、一度慣れてしまう(癖を把握する)とこれと言った問題もありません。また、ラベルの出来も全く悪いものではありません。
さらに、データ格納用のブックを作り、おおまかな場所ごとにシートなどでまとめてラベルを作っていけば、過去のラベルデータをある程度見やすく管理できるという利点があります。これは、エクセルの特徴であるセルのシステムの賜物です。一度セルの大きさを決めておけば、入力内容に関わらず同一のサイズのラベルを作り続けることが出来るのも大きな強みでしょう。

僕はExcelで幅15mm, 縦7mmの以下のようなラベルを作って使用しています。

f:id:graphelmis:20151211165343j:image:w360

コンセプト
僕が考えるラベルとはズバリ、「採集時の状況を再現出来るもの」です。もちろん、スイーピングでたまたま採れた個体などはもともと再現性が低いですからどうしようもないですが、それでもピンポイントの場所情報などは重要ではないでしょうか。また、何もないよりも標高や環境(採り方)も載せたほうが、あとあと活用できる幅が大きくなりますし、ラベルをもとにその場所に行って採集できる可能性も高くなる(≒再現性が高い)と言えるでしょう。
また、表記法も重要だと思います。基本はやはり英語です。もちろん、厳密に英語の意味に合うように作ると不自然になるので避けるべきでしょうが、英語の知識があれば読み解けるように作った方が汎用性の高い親切なラベルであると感じます。ただし、国内での利便性を考えると、日本国内の地名に関しては英語だけでなく漢字も併記したほうがより良いでしょう。
以上を踏まえて、僕は次の7項目を英語ベースでラベルに記述しています。

・場所(アルファベット表記)
・場所(日本語表記・日本国内のみ)
・緯度経度
・日付
・採集者名
標高
・環境


情報の入力と記述
・ラベルのベースを作る
初めに、ラベルを入力するためのベースファイルとして、以下のようなブックを作ります。
印刷にはまた別のブックを用意し、そこにラベルをコピペして出力しますが、最初から印刷用のブックの形で作ってそこにラベルのデータを溜めていけばスムーズだと思います。このブックを以下「格納ブック」と呼びます。

f:id:graphelmis:20151211165345j:image

左上を拡大してみます。

f:id:graphelmis:20151211170246j:image
ラベルは7セルから構成されています。
それぞれのセルの高さは15(20ピクセル)、幅は39(317ピクセル)です。

8セル目の高さは4.5(6ピクセル)で、これとB列の空白は切るときの余白として入れてあります。A列の目盛は切るときの目安となる線です。
A4サイズで作り、印刷時に21%に縮小すれば、全マージン0設定ではがきサイズに85枚ほど入ります。

フォントは個人によって好き嫌いが分かれるところですが、丸山さんも指摘されている通り、「I(アイ)」と「l(小文字のエル)」が区別できなくなるのを防ぐために英字フォントはセリフ体から選びたいところです。僕はフトコロが大きくて視認性がよい「Bookman Old Style」というフォントを使っています。
日本語フォントには「HGSゴシックM」を採用しています。
文字サイズは12ポイントを標準として、枠に入らないときに下げるようにしています。
経験上、9ポイント以下だと実用レベルに満たないサイズに刷れてしまうので、10ポイントまでにしておいた方が無難です。


・位置情報(場所、緯度経度)について
場所は、先述のとおり「ピンポイントで位置が特定できる」というのが大前提です。
従って、何らかの方法で採集地を緯度経度の形に落とし込む、という作業が出発点となります。
フィールドでは、ハンディGPSスマホのマップアプリにポイントを落とす、というのが現実的でしょう。ハンディGPSを使っている場合は、野帳に書きとめたり写真に撮ったりしておくと、あとでハンディGPSの電源を入れて改めて見返したりしなくて済むので楽です。スマホの場合は、ブックマークなどに登録したポイントをメールで送信すれば、緯度経度情報をダイレクトにパソコンで見ることが出来ます。
ガジェットがない場合でも、場所を覚えているのであればGoogleストリートビューGoogle Earthで特定することができます。
Google Maps: https://www.google.com/maps/


・緯度経度の記入
得た緯度経度は、忘れないうちにExcelに転記しておきます。
緯度経度は、百分率表記(例:N43.069247, E141.339908)と度分秒表記(N 43º04'08.5" E 141º20'23.5")の両方がありますが、どちらにも長所短所がありますので、好みでどちらかに統一すればそれでいいと思います。
百分率表記はパソコン上でデータを扱うには非常に楽です。Google Mapsで右クリック→「この場所について」で緯度経度を出すと百分率で出ますし、どの検索窓に入れてもエラーが出ることはありません。ただ、桁数が多く、感覚的にわかりづらいという欠点があります。
度分秒表記は、そのままコピペするとサイトによってはたまに弾かれます。しかし、桁数が少ない分より大きめに文字サイズを取れるし、タイプミスの発見も楽です。僕はラベルにした時の見やすさを優先して度分秒標記を採用していますが、データベースとの連携などで情報として扱う場面が多いときは百分率の方が向くこともあるかもしれません。

百分率も度分秒もGoogle Mapsで表示させることが出来ますが、マップ上で微調整ができるGeocordingというサイトも便利です。
Geocording: http://www.geocoding.jp/

なお、北緯や東経などを表わすアルファベットの位置は人によって好みのわかれるところですが、表記の際には緯度経度の後ろにつけるのが一般的なようです。
しかし、これには明確なルールはないですから、より見やすいほうがラベルへの記述としては適しているでしょう。すなわち、頭に付けるほうが賢明ではないかと思います。

また、緯度経度をどこまで表示するか、という問題ですが、僕は0.1秒単位まで載せています。
大体どのサイトで計算しても0.1秒まで出ますし、0.1秒の長さはだいたい緯度経度ともに3m程度ですから(参考:モノノフ日記「緯度経度の距離」)、ピンポイントに指し示すという目的を考えればこれくらいがちょうどいいかと思います。小数点表示だとだいたい小数点以下5-6桁程度で1-10mの誤差になります。
もちろん、ラベル上のスペースや移動距離・採集範囲も考えれば、桁をあえて削る場面もあると思います。

・緯度経度→地名
緯度経度だけでも「場所をピンポイントで指し示す」という目的は達成できますが、それだと感覚的には分かりにくいラベルになってしまいます。当然、見ただけで大体どの場所で採れたのかがわかる方が使いやすいに決まっていますから、緯度経度とは別に地名も入れるのがベターでしょう。
地名の検索は、Yahoo!地図がベストチョイスだと思います。
Yahoo!地図: http://map.yahoo.co.jp/
日本限定ではありますが、検索窓に緯度経度を入れるとその場所の地名を読み方とともに返してくれます。この「読み方とともに」というのがミソで、これを使うことで一気にアルファベット表記と漢字表記の両方の入力をすませることが出来ます。
なお、Yahoo!地図のサイトはちょっとした癖があります。ここで緯度経度を入れる際、トップページの検索窓に入れてはいけません。何故かエラーが出るのです。

f:id:graphelmis:20151207203254j:image


謎仕様ではありますが、一度検索窓左の「すぐに地図を見る」から地図を表示して、地図ページの検索窓に緯度経度を入れればうまく表示されます。この時、度分秒の緯度経度だと弾かれることが多いので、百分率の緯度経度を入れましょう。

f:id:graphelmis:20151207203715j:image


アルファベット記入部分は、基本的には地名をローマ字に変換して記入するだけですが、ローマ字表記は何式に従うかを最初にきちんと決めておくべきです。というのも、世の中には複数のローマ字表記方式があり、それぞれ微妙に違っているからです。
この件に関してはWikipediaのローマ字の項あたりを参照してどれにするか決めるのがいいでしょう。ですが、世の中のローマ字を見る限り、ヘボン式系英米規格を用いるのが一番自然ではないかと思います。
なお、丸山さんも指摘されていますが、長音記号は発音を忠実に再現するために必ず付けたほうがいいです。この場合、訓令式系ではサーカムフレックス(Ô,ô,Û,û)、ヘボン式系ではマクロン(Ō,ō,Ū,ū)と使用する記号が違うので、気を付けたいところです。僕は「Ō,ō」を「おー」、「Ū,ū」を「うー」で辞書登録して使っています。

また、載せるのは地名だけでなく、必要に応じて川や山などの地形も付記すればよりよいラベルになるでしょう。
地形の名称は地理院地図やGoogle mapsから引くのが楽です。
地理院地図:http://maps.gsi.go.jp/
川などであればストリートビューで看板を探すのも手かもしれません。

追記:こういうのを教えていただきました。
自然史研究のための地名辞書http://info.hitohaku.jp/loc/top.html
川とかの名前はこれで調べれば一発です。また、IEであれば緯度経度と住所の取得もマップ上で行えるようです。(神保さん、ありがとうございました!)

・地名の英語変換
地名欄には住所をそのままローマ字で記入します。
例えば、北海道札幌市なら「Hokkaidō Prefecture, Sapporo City」ではなく、「Hokkaidō, Sapporo-shi」という形です。
本当は行政区分に関しては英訳(県→Pref.など)したほうが親切なのかもしれませんが、それをしてしまうと多くの場合コンパクトさを犠牲にすることになります。日本の行政区分構造はよく規則化されていて、少しの知識があればすぐに読み解けるでしょうから、そのままでも問題はないかと思います。
記載論文などで見る都道府県だけPrefectureとする記述(「Hokkaidō Pref., Sapporo-shi, Minami-ku, Jōzankei」)もあります。

ただし、自然地形に関しては、英語を付記するべきだと考えます。
たとえば、日本人の僕たちがチェコ産標本のラベルを見ていて、そこに「Jizera」とだけ書いてあっても、それが何を指すのかわかる人は極めて少ないでしょう。しかし、「"Jizera" River」としてあれば、調べるまでもなく川の名前であることが分かるはずです。日本の川でも、例えば鵡川(むかわ)などは「Mukawa」とラベルに書かれるでしょうから、海外の人が見たら何が何やらわからないと思います。
というわけで、僕は自然地形を記入する際は「"Mukawa" River」「Mt. Saragamine」という風に英語に準じて書くようにしています。

・日付、採集者名
地名が短い場合は2セルに分けて、長い場合はまとめて1セルにしてしまえばサイズを維持したままにできます。
月の表記はローマ数字(4月:IV)か英語3文字略(Apl.)のどちらかですが、僕は記載論文等で多く見られるローマ数字を採用しています。

標高
GPSなどでも標高は表示されますが、微妙に誤差を含むので、本当はパソコンの地図上で正しい値を求めておきたいところです。
とはいえ、標高を位置の誤差なしで一発で出してくれるいいサイトがなかなかないのが難点です。僕は以下のサイトで取得しています。
なんちゃって☆めも Google MAPS API で あそ〜ぶ: http://www.nanchatte.com/map/getLatLng.html
緯度経度を入れてもブレブレなのですが、他のサイトと違って、地図上にポイントを打つとその場所の標高が改めて表示されるため、微調整して探しています。

・環境、採り方
標高の横のスペースが空くため、そこに入れます。
ヒメドロであれば、[Upper stream (Gravel)]などと記入しています。
詳しく書きたいのが人情ですが、あまり長々書くと入らないため、1行程度で収まるような落とし所の設定が必要になります。