海を歩くために目を凝らす

Que sais-je? わたしは‥‥何も知らないではないか。

2014-08-29 データクレンジング

置換で大量のデータをきれいにする

牧草地にしゃがんで草むしりしていたら魔法使いが一瞬できれいにしてくれた、みたいなお話。

はじめに

全体で1000万件を超えるデータ。1件の中身は10桁くらいの数字たちで区切りはセミコロン「;」。そういうデータが出てくるはずだったのに、開いてみたらば文字化けとかいらない数字とかカッコとかのいらないものがたくさん入り込んでいた。そのうちパターンが一定している約5万件はMicrosoftAccessから取り出してExcelのFINDとMIDで消せたけれど、それではダメな約1000件をきれいにする方法は、どうにもこうにも分からなくて、しかたないのでDeleteキーでひとつひとつきれいにして回っていた。

手作業ではいつまでも終わりは見えなくて、もちろん夕方には肩も目も痛くなり、つらいようとこぼしたら魔法使いたちがやってきて、きれいにできるよ、簡単さ、と言った。そして、まばたきするうちにきれいにしてくれた。

魔法使いのひとりがこの技を記録しておきたまえと言うので、それからほかのひとが私みたいに無駄な肩こりにならなくてもいいように、メモを。


環境

私が使うことを許されていたツール(ソフト)は、TeraPadExcel、だった。

魔法使いのひとりによれば「TeraPadは改行とタブの置換ができるので、Excelとの組み合わせ次第でけっこういろんなことができるのでお勧め」らしい。


魔法

  1. データをTeraPadコピペ
  2. 置換: \n → \n\n
  3. 置換: ; → \n
  4. 置換: ( → \t
  5. Excelコピペして、1列目だけTeraPadコピペ
  6. 置換: \n → ;
  7. 置換: ;; → \n

*「\n」は改行1個、「\n\n」は改行2個、「\t」はタブ。

ただ、「6. 置換: \n → ;」でTeraPadが「1行8000文字制限を超えている可能性があってムリ」と言って動かなくなるので、「5. …TeraPadコピペ」を100件ずつにしてちまちまと置換をしては貼り合わせる、というのを10回繰り返した。(8000文字を超えてもデータがなくなるわけではなく表示されないということのようだけれど、見えないと自分の操作でデータに何が起きているか把握できず不安になるので手作業でやった。)


対象データの例(実際のデータとは異なります)

  • 1590732743021 (逕イ鬪ィ蜊キ);1590732743663 (邇牙勣蜊キ);1590732706113 (逑キ蝎ィ蜊キ 譏惹サ」);1590732706172 (逑キ蝎ィ蜊キ 貂・サ」);2732706323 (譏取ク・。」譯亥キサ 譏惹サ」);1590732706121 (譏取ク・。」譯亥差 貂・サ」);2732706367 (扈倡判蜊キ蜴・彰逕サ);1590732706164 (扈倡判蜊キ 鬟惹ソ礼判)
  • 3121074603 (4);3121074611 (7);3121074327 (6);3121074683 (2);3121077237(3);3121077243 (1);1268121076603 (12);1268121076617 (13)3121174323 (1);3121174681 (2);3121170611 (3);3121170622 (4);3121174662(7);3121174627 (6);1268121174687 (2);1268121174312 (3)3131246068 ・ゥ・ュ・ィ・・?ク;3131246041 (・ゥ・ュ・・巡 ?ク);3131246177 (・菩寳・・?ク);1268131243142 (・ス・・お・・?ク);1268131243174 (・ス・・カ・巡?ク);1268131246802 (・懍」シ・・?ク);1268131241422 (・・攵・ィ・・?ク);1268131241458 (・・攵・・巡 ?ク)
  • 315903132X;315903211X (3;3159068017 (4);3159068423 (7);3159068731(6);3159068712 (2);3159058307 (3);3159058313 (1);3159058321 (10);315905868X(11);3159032363 (12)
  • 1590758241032((隨ャ3霎・2);1590758241041((隨ャ3霎・3));1590758241076 (隨ャ3霎・4);1590758241063 (隨ャ3霎・7;1590758241020 (隨ャ3霎・6);1590758241032 (隨ャ3霎・2);1590758241014 (隨ャ3霎・3);1590758241100 (隨ャ3霎・1);1590758241112(隨ャ3霎・10)

つまり、データのパターンはこんな感じ。

  • 各データは1件=1行
  • 必要な数字の後ろにいらないものが続く
  • 必要な数字といらないものの間にはスペースがある場合とない場合がある
  • いらないものの数は一定していない
  • いらないものの種類は一定しておらず文字、数字、記号、これらの組み合わせ、の場合がある
  • いらないものの前後にカッコがあったりなかったりする
  • カッコ内にカッコがあったりもする

魔法は何にでも効くわけじゃなかった

できた!と喜んだのはもちろん。…でも、ここまで書いておきながらアララという感じだけれども、じつは私が掃除しようとしていたデータは、これだけではきれいになってくれなかった。ということに気づいたのは翌日で、なんとなく不安になって数字以外のものが入っているデータを抽出して(250万件くらい)ひたすら見ていったら(といっても見切れなかったけれど)、直せていないものがあった。

たとえば、こんなパターン。

  • 数字と数字の間のいらない文字が「[1]」とか「[2]」とかの場合
  • 数字のすぐ後ろに(スペースなどなしで)アルファベットが続いている場合
  • 数字の後ろに「 '」(スペース、ダッシュ)が続いている場合

こんなふうに、拾えなかった=きれいにできなかったデータはほかにもあるかも知れず、つまり掃除する対象のパターンをすべて洗い出さないと、思わぬ取りこぼしが起きたり、思わぬことが起きたり(セミコロンで区切られるはずの数字たちがくっついてしまったり)という危険があって、でも、私がきれいにしなくてはならなかったデータのうちあやしげな約250万件の全てを網羅するパターンを取りこぼしなく目で確認するのは非現実的で…うーむ…と、思っていたら、また別の魔法使いがやってきて、「その掃除、前にやったことあるからすぐできるよ」と言って、ものの10分くらいで1000万件超をさっときれいにしてくれて、ありがたいのと同時に私の生きている時間の無駄さがいやになった。魔法使いになりたい。


ちなみに、私のPCは弱っちいために大量のデータにはすぐ息切れする。ふっと画面が真っ白になってマウスも効かなくなって世界は終わったと思いながら茫然と復活を待つ、というのを繰り返す日々でアドベンチャーすぎるなぁと思っているところ。

2014-07-27 アメリカ・図書館・図書館情報学

リチャード・ルービン『図書館情報学概論』

http://id.ndl.go.jp/bib/025441949

リチャード・ルービン著『図書館情報学概論』根本彰訳、東京大学出版会2014年5月

★感想メモ

  • 会誌の先輩からおすすめいただいて読んだ。
  • アメリカ図書館教育・図書館学校・関連協会設立の歴史など過去のことについては、知らなかったことがまとめられていて、なるほどそういう流れだったのかということばかりだった。
  • 現在につながる課題として取り上げられているものについては、アメリカの事情と日本の事情ではだいぶ異なる部分がありそうだなと思いながら読んだ。たとえば公共図書館に求められている教育的な役割については、公教育の整備状況や移民の多さ、マイノリティとくくられる人の多さ(白人・黒人といった「皮膚の色」やヒスパニックなどの「出自」の違いによって受けられる教育が異なるなど)といった問題があるために、公教育に変わる教育支援的のニーズが明らかである、など。
  • 組織の在り方、職業選択の在り方、キャリアパスの在り方、という意味でもアメリカと日本とではだいぶ異なるため、この本に書かれていることは参考事例として読む、という姿勢に自然となっていたと思う。そして違いがあることは当然に想像できるがために、この本に書かれていることの中では、問題や課題に対する取り組み方が参考になると思った。
  • 訳者あとがきによれば、本書は1998年に初版が出たあと、2000年に改訂版、2004年に第2版、この訳書の底本が2010年の第3版とのことなので、いま(2014年)から4年前の本なのだけれども、いまはもう違うなと思うことが当時の現在や当時からみた未来の話として書かれている点については、すでにだいぶ古くなってしまっている部分があり、更新が必要だと思った。それだけ変化が早いのだとも言えるだろうし、それだけこのようにアメリカ図書館教育や図書館業界全体を俯瞰した本を書くことは難しいのだとも言えるだろう。
  • そういうわけで古くなってしまう部分については保留をもって、あるいは「いまは違うね」と思いながら読んだけれども、古くならない歴史については勉強になった。といっても、幅広い知識を持っていて日本のこれまでの図書館情報提供機関をよく知っている人なら、古くなってしまう部分からもいろいろなことを読み取ることができるのかもしれず(先輩はそのような感銘を受けてすすめてくださったので)つまりは理解の浅さや価値の読み取りは、読み手である私に問題があるのかもしれない。

★概要メモ(粒度は章によってバラバラ、「<」の右側は感想)

  • 3 情報の組織化:その技術と問題点
    • 研究者のニーズ pp.120-121(訳文から少し文言変更)
      • 1 すべての関連情報資源についてもっとも明確でより幅広い視点
      • 2 特にその研究分野の課題において、実は重要で意義深く、基準となる情報資源を見落としていないか
      • 3 不必要な過去の重複研究はしたくない
      • 4 時分の研究に領域横断的に関連するものを知りたい
      • 5 時分の同一主題の研究に分類される近年の図書を探し出し、より最新の研究結果を従来の研究結果と照らし合わせたい
      • 6 思いつかないけれど密接に関連しているキーワードを認識させて最適の文献を得られるメカニズム
      • 7 巨大なリストやデータを表示する作業(?)は省きたいが検索結果の向こうにある多様な情報資源を確認する必要があるとは思っている
    • メタデータ p.136
      • CSDGM:地図や地名索引等の地理情報のメタデータ標準
      • CDWA:芸術作品のための芸術作品記述カテゴリ
      • VRA:視覚情報資源協会コアカテゴリの資格情報資源
      • LOM:学習資源メタデータシラバス、講義メモ、模擬実験、教材などのため)
  • 4 機関としての図書館:その組織を展望する
    • 図書館の機能と仕事(部署)、意思決定、各館種の特徴・役割と課題と期待と貢献(可能性を含む)、財政難と説明責任と量的な価値測定
  • 6 情報学:サービスの視点
    • どんな情報が求められているかを把握し、提供できる情報の性質を知ったうえで提供方法を考える

2014-07-25 プレゼン:ポスター

ポスター(プレゼン)準備全般

酒井聡樹『これから学会発表する若者のために』

http://id.ndl.go.jp/bib/000009919995

共立出版, 2008.11. 166p ; ISBN 978-4-320-00579-2

★メモ

発表内容の練り方

  • 序論
    • 何を前にして:現象、事実、既存知識、研究の現状、技術開発へのニーズ
    • どういう問題に取り組むのか:「何を前にして」の具体化
    • なぜ取り組むのか:問題意識の説明、どのような意義があるにも関わらず未解明だから、など
    • どういう着眼で:仮説の検証、既存研究との違い、研究のポイントアピール
    • 何をするのか:研究方法
  • 演題に入れる情報
    • 主題(取り組んだ問題):副題(着眼点
    • 研究対象
    • (結論は入れるべきではない)
    • 疑問形にする(人は疑問に惹きつけられる)
  • 研究方法
    • 論理的な不備がないことをわかってもらえればよい
    • 研究対象の素性・由来・特徴
    • 各実験・調査等のタイトル
    • 各実験・調査等の簡単な説明(本筋に関わることだけでよい)
    • データ処理の方法(当然に推測されるものならば省略してよい)
  • 研究結果
    • *結論を導くことを唯一の目的にする
    • 得られた結果の提示(必要なデータのみ。データはわかりやすい形にしてそのデータが持つ情報のまとめとタイトルを示す。)
    • 得られた結果の統合的解釈(必要な場合のみ)
    • 先行研究の検討(必要な場合のみ)
    • 結論:取り組んだ問題への答え
    • 結論を受けて:取り組んだ理由への答え
  • 論文要旨
    • *目的のみを書き、背景を書く必要はない
  • 講演要旨
    • *序論をきちっと書く(目的と背景)
    • 序論
      • 1.何を前にして:現象、事実、既存知識、研究の現状、技術開発へのニーズ
      • 2.どういう問題に取り組むのか:「何を前にして」の具体化
      • 3.なぜ取り組むのか:問題意識の説明、どのような意義があるにも関わらず未解明だから、など
      • 4.どういう着眼で:仮説の検証、既存研究との違い、研究のポイントアピール
      • 5.何をするのか:研究方法
    • 研究方法
    • 研究結果
    • 結論:取り組んだ問題への答え
    • 結論を受けて:取り組んだ理由への答え

  • 聴き手が理解する努力をしてくれるかどうかは、
    • どれくらい興味深そうな発表か
    • どれくらいわかりやすそうか(理解の努力の必要度)

にかかっている


  • わかりやすい発表のために
    • 論理的な主張をする
    • *わかりやすくしようという意識を持つ=気遣いの心
    • *聴衆を想定する
    • *わかりやすい発表のためのプレゼン技術を身につける
      • 必要かつ不可欠な情報だけを示す(主張を絞る、論理的なつながりの順序で重要なものから研究方法→結果と説明する、読めばわかる言葉を使う、同じ言葉を使い続ける、直感的な説明を心がける、

  • ポスター発表で心がけるべきこと
    • 説明練習をする
    • 5分くらいで説明できるようにする
    • 勝手に説明をはじめない
    • 10秒ほど見てくれたら声をかけてみる:説明しましょうか?→No→質問ありますか?
    • 全員に向かって言葉を発する:声量、視線
    • 聴衆の反応を見ながら説明する
    • 特定の聴衆と延々とやりとりをしない
    • 指示棒を使って説明する
    • 図表の読み取り方を説明してから、データの意味するところを述べる
    • A4の縮刷版を用意する

ポスター作成(構成・デザイン)の参考

宮野公樹『学生・研究者のための伝わる!学会ポスターのデザイン術』

http://id.ndl.go.jp/bib/023156735

化学同人, 2011.11. 143p ; ISBN 978-4-7598-1469-9 :

プレゼン練習のためにあとで使う

塚本真也, 高橋志織『学生のためのプレゼン上達の方法』

http://id.ndl.go.jp/bib/023941907

朝倉書店, 2012.9. 151p ; ISBN 978-4-254-10261-1

上西幸治『英語でプレゼン!』

http://id.ndl.go.jp/bib/000010070200

丸善京都出版サービスセンター (制作), 2009.3. 147p ; ISBN 978-4-944229-81-9 :

Tipsとして利用するならよい

佐藤佳弘『わかる!伝わる!プレゼン力』

http://id.ndl.go.jp/bib/000010992956

武蔵野大学出版会, 2010.9. 166p ; ISBN 978-4-903281-17-9

今後見ることはきっとない

伊藤宏, 福井愛美 編著,西尾宣明, 服部美樹子, 水原道子, 中山順子『プレゼンテーション演習』

http://id.ndl.go.jp/bib/000011257218

樹村房, 2011.6. 159p ; ISBN 978-4-88367-213-4

  • 悪い本ではないけれどカバー範囲が広い分、学会発表の準備という目的にとっては、ほかの参考図書と比べて詳細が足りない。また、図が少ないため把握しづらい。飛ばし読みをした。

2014-02-19 環境・社会

原研哉『日本のデザイン』

日本のデザイン : 美意識がつくる未来 (岩波新書) 岩波書店2011年10月

★感想メモ

  • 未来のデザインとは、その人の生き方に真正面から向き合い、その命のエネルギーの求める心地よさを実現し、求めへの気づきをもたらすもの。それは複雑なものではなく、無駄を捨てることで生まれる空っぽに由来する簡素なもの。そのようにして生まれるデザインが、その人が生きるうえで大切にしていることに通じているものであれば、その美意識は他者にとっての魅力となりうる。ということかなぁ、と思った。
  • エネルギーとのコミュニケーション、目には見えないその営みを、結果として目に見えるものにするのがデザイン、なんていう流れを想像した。

★勝手なメモ

  • 日本の美意識:繊細、丁寧、精緻、簡潔
  • 小ささ、スマート
  • オリジナリティ、ユニーク
  • 生活の思想:ものを介して暮らしや環境の本質を考える
  • 人間の欲望への影響力
  • 仮想と構想とその可視化
  • 日本の簡潔さはシンプルとは根本的に異なる「空っぽ」に由来する
  • 四角と丸、切り取って、嵌める
  • 究極のプレーン、零度の極まり
  • 暮らしのかたち=生活のへそ=無駄なものを捨てること
  • 美意識が観光資源になる
  • 小さな美には敏感だが、巨大な醜さに鈍い
  • 新しい価値、ときめきを見つける
  • 世界から評価されるのではなく、世界で機能する
  • 無数の知の成果を受け入れる巨大なパラボラアンテナのような仕組み
  • 歴史と文化が価値を生み出すソフト資源

2014-01-15 図書館・社会

猪谷千香『つながる図書館

つながる図書館 : コミュニティの核をめざす試み (ちくま新書) 筑摩書房2014年1月

★一言感想メモ

★勝手な要点まとめ[ページ]

  • 公立図書館の動向
  • 図書館作り
    • 作ってみる:音環境、世代を超える交流の場の演出建築、飲食、そもそもの必要性を考えるところから住民と自治体が一緒に勉強するという取り組み方
    • サービスあれこれ:託児所、放課後の児童生徒学生の居場所、コンサート会場、碁会所、観光ツアー、カフェ、おしゃべりの場、コンシェルジュ、夫婦問題や雇用問題などの法律相談、就職、転職起業マーケティング、資料や情報だけでなくサポートできる専門家につなぐ
  • つながる
  • ひと作り
    • 設計から市民が携わった伊万里市民図書館の古瀬館長いわく「伊万里のまちをつくる、そのために人を育てる。そのためお図書館(後略)」[136]
    • 島まるごと図書館構想でできた海士町中央図書館の主任の磯谷奈緒子さんいわく「町作りの根本は人作りだろうと。その時に、図書館を軸にした人作りが始まりました」[220]
  • 第五章では、早ければ数年以内には、CCCによるブックカフェ(武雄市図書館型)は珍しいものではなくなる、と書かれている。
    • 勝手にまるめてしまうと、新しいものが新しさを失って当たり前になったときに、それが魅力的であり続けることができるか、ひとびとを惹き付けつづけることができるか、というのはひとえにオリジナルのコンテンツとしての力があるかどうかだよね、ということと読んだ。そしてそれはそのまま選書だよね、と私は思った。ココにしかない、を、どのように築くか。