海を歩くために目を凝らす

Que sais-je? わたしは‥‥何も知らないではないか。

2015-05-20 研究データのバージョン管理

「データセットの引用と出版物へのリンク」より

DCC. How to Cite Datasets and Link to Publications. 2012-06-20.

http://www.dcc.ac.uk/resources/how-guides/cite-datasets

★メモ

  • バージョン管理
    • バージョンを管理するには2つの方法がある。
      • スナップショット:読者または著者はデータの取得後に必要なデータを得るために何も操作しなくてよい。
      • タイムスライス:取得したデータが変更されている可能性が元のデータと異なる可能性があるため、読者または著者は何らかの操作をする必要がある。継続的に更新されるデータには適さない。
    • 「これは、データセットを引用可能なものとして利用者に提示する方法のみに関する問題であって、ひとつの識別子が必ず同一データを返すことを保証できる限り、リポジトリにおけるデータの格納方法への影響はなにもない。」

2015-04-25 セマンティックウェブ:SKOS

W3C の SKOS 標準を使用してタクソノミー管理を改善する

W3C の SKOS 標準を使用してタクソノミー管理を改善する:統制語彙用の移植可能な SKOS フォーマットを使ってセマンティック Web に徐々に慣れる

Bob DuCharme, Solutions Architect, TopQuadrant 2011年 6月 10日

原文:不明。

和文:http://www.ibm.com/developerworks/jp/xml/library/x-skostaxonomy/

★感想メモ

・SKOSの語彙の使い方の部分はSKOS入門を読むほうがよいと思った。

★メモ

  • 同じ組織内の異なるグループが独自の語彙を使って管理している場合、それを一つの語彙に統合するのは有害無益である。
    • →データの規模が大きくなるにつれて語彙の保守が複雑になり、データの改訂が必要になる。
    • →無理に語彙を改訂、統合した一体型の語彙は、どのグループの要求にも完全には対応できなくなる。
  • SKOS を使用することで、異なる語彙による概念の間に関係を定義することができ、さまざまな部門の語彙を統合的に利用できるようになる。
  • SKOS オントロジーを使用していなくても、RDFによってデータをリンクすることは可能。
  • The New York Times が無料で公開したSKOS ベースの件名標目索引は、各出版社が自社の独自コンテンツをThe New York Times の記事にリンクさせるために使うことができ、The New York Timesの記事には、より多くのトラフィックが集まるようになった。

2015-04-20 セマンティックウェブ:SKOS

SKOS入門 - SKOS Simple Knowledge Organization System Primer

W3Cワーキンググループ・ノート 2009年8月18日

原文:http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/

和訳:http://www.asahi-net.or.jp/~ax2s-kmtn/internet/skos/note-skos-primer-20090818.html

★メモ

  • 1 はじめに
    • 本文書は、SKOS(Simple Knowledge Organization System)に関する規範的なリファレンスを提供する「SKOSリファレンス*1の手引きである。
    • SKOSは、シソーラス、分類体系、件名標目表などの知識組織化体系(KOS)を表現するためのRDF語彙である。相互運用性を確保するため、単純化されたモデルとなっている。

  • 2 SKOS必須事項
      • ◆KOSを表現する際に最も一般的に用いられる語彙を紹介する。
      • ◆SKOSは、概念体系にKOS情報を含ませることについては限定的にしかサポートしていない。
    • 2.1 概念
      • クラスskos:Concept:ある資源が概念であると言明できる。URI*2により概念を一意に特定し、プロパティrdf:typeを用いて、URIが示す資源がタイプskos:Conceptに属すことを示す。
    • 2.2 ラベル
      • プロパティskos:prefLabel、skos:altLabel、skos:hiddenLabel:ラベル付けする。同じリテラルに対してこれらのプロパティを重複して用いることはできない。
      • skos:prefLabel:優先字句ラベル。言語タグによって特定の言語に範囲を限定することができる。ただし、このプロパティは、言語タグ1つにつき1つしか持てないことに留意する。
      • skos:altLabel:代替字句ラベル。同義語、類義語、略語、頭文字語などに用いることができる。
      • skos:hiddenLabel:非表示字句ラベル。スペルミスを別途含みたいときなどに用いる。
    • 2.3 意味関係
      • プロパティskos:broader、skos:narrower、skos:related
      • skos:broader:ある概念が別の概念より広義(より一般的)であると言明するために用いる。
      • skos:narrower:ある概念が別の概念より狭義(より具体的)であると言明するために用いる。
      • skos:broaderとskos:narrowerは、推移的とは定めていない。(非推移的という意味ではない。)インスタンス―クラス関係や、部分―全体関係などの階層関係の形式の区別もカバーしない。
      • skos:related:連合関係を言明するために用いる。推移的とは定めていない。
    • 2.4 記録ノート
      • プロパティskos:note:概念体系を利用する人間向けの注記。skos:scopeNote(概念の使い方の制限)、skos:definition(概念が意図する意味の説明)、skos:example(概念の使用例の提供)、skos:historyNote(概念の意味や形式に関する重要な変更点の記録)がある。
      • KOSの管理者や編集者向けに、skos:editorialNote(編集作業中、将来変更可能性がある、など、維持管理の補助となる情報)、skos:changeNote(概念に関する細かな変更点の記録)がある。
    • 2.5 概念体系
      • クラスskos:ConceptScheme:概念体系(分類表、シソーラスなど)を表す。
      • プロパティskos:inScheme:その概念を含んでいる概念体系にリンクする。
      • プロパティskos:hasTopConcept:概念体系を、その中で最も一般的な概念にリンクする。
  • 3 セマンティック・ウェブにおけるKOSのネットワーク
      • ◆既存の概念間の意味関係を成立させるための概念体系のリンクに用いられる語彙を紹介する。
    • 3.1 概念体系のマッピング
      • プロパティskos:closeMatch:2つの概念は取り替えて使えるほど似ていることを示す。しかし推移的とは定義されておらず、2つの体系以外に広がることを防いでいる。
      • プロパティskos:exactMatch:2つの概念は取り替えて使えるほど似ていることを示す。skos:closeMatchより高い近似性を意味するため、より広い体系にまたがって利用できる。
      • 2.3項の意味関係の類似性は、プロパティskos:broadMatch、skos:narrowMatch、skos:relatedMatchを用いて指定することもできる。
    • 3.2 概念体系の再利用と拡張
      • プロパティskos:inScheme:既存の概念を再利用するために用いる。
    • 3.3 主題のインデキシングとSKOS
      • 任意の資源をskos:Conceptに関連づけたい場合は、(SKOSにはないため)他の語彙を使用する。

  • 4 高度なSKOS: KOSがシンプルでなくなった場合
      • ◆高度な表現を必要とする場合について
    • 4.1 概念の集合
      • ラベル付き集合:クラスskos:Collectionを用いて概念集合構造をモデル化する。このクラスのインスタンスは、プロパティskos:memberを用いて記述する。
      • 順序付き集合:クラスskos:OrderedCollectionとプロパティskos:memberListを用いて集合内の概念の順序を記述する。
      • 集合によって、アプリケーションが操作しなければならない表現は複雑になるものの、意味の正確さの観点から、集合を用いることは有益である。
    • 4.2 高度なドキュメンテーション機能
      • SKOSでは概念に様々な注釈をつけることができる。目的語の位置で使用できる資源の値域は、SKOSリファレンスでは制限していない。
      • RDFリテラルとしての記述:シンプルなRDFリテラルを目的語とする。
      • 関連資源記述としての記述:非リテラルRDFノードを目的語とする。作成者や作成日など。
      • ドキュメントの参照としての記述:ドキュメントのURIを目的語とする。
    • 4.3 ラベル間の関係
      • SKOSの字句ラベル付けプロパティは、RDFリテラルを目的語に取るため、ラベル間の関係を示す(ラベルを主語として情報を付与する)ことができない。そこでSKOSではラベルをRDF資源として扱えるよう拡張したSKOS-XLで、クラスskosxl:Labelを導入している。
      • skosxl:Labelインスタンスは、プロパティskosxl:prefLabel、skosxl:altLabel、skosxl:hiddenLabelを用いて概念を関係づけることができる。また、skosxl:labelRelationでリンクできる。
    • 4.4 概念結合
      • KOSのインデキシングには概念の結合が用いられることが多いが、SKOSには、結合した概念を表現する方法がない。この課題については先送りにし、拡張パターンを有機的に使えるようにすることを決定した。
    • 4.5 推移的な階層
      • 推移的であることを示す必要がある場合のために、プロパティskos:broaderTransitiveとskos:narrowerTransitiveがある。skos:broaderTransitiveはskos:broaderのスーパープロパティである。
    • 4.6 表記法
      • 概念への主なアクセス手段として用いられている見出しなどの表記法を表すことができる。
      • プロパティskos:notationを用いて概念にRDF型付きリテラルを付与することができる。
      • 言語に依存しないラベルの場合は、skos:prefLabelなどのラベル付けプロパティを用いる。
    • 4.7 SKOSモデルの専門化について
      • SKOSは、異なるKOSモデルを共通化させるものとして機能することを目指している。より細かな、特定コミュニティのニーズに合うような拡張が必要な場合は、既存のSKOS語彙をより特定化することで対応できる。

  • 5 SKOSとその他のモデル化アプローチとの組み合わせ
      • ◆他のモデル化アプローチ、特にOWLと連携させて用いることをアプリケーションが求める場合に生じる問題を扱う。
    • 5.1 SKOS以外でのラベルの使用
      • 型がskos:Conceptではない資源へのラベル付けにSKOSラベル付けプロパティが使える。
    • 5.2 SKOSの概念とOWLのクラス
      • skos:ConceptはOWLのクラスなので、そのインスタンスである概念は、OWLの個体である。
      • SKOSの概念をOWLのクラスとして扱えるべきか否かは、SKOSでは決めていない。
      • OWL-DLの制限により、SKOSの概念をOWLのクラスとして扱うことはできない。
      • 進行中のOWLの改定での何らかのメタモデル化により、SKOSの概念をOWLのクラスとして扱えるようになるかもしれない。
    • 5.3 SKOS、RDFデータセットよび情報包含
      • SKOSのステートメントの来歴や所有権に関する情報は、現時点ではSKOSの範囲外である。
      • 名前付きグラフやRDFデータセットの使用などの解決策が提案されている。

*1http://www.asahi-net.or.jp/~ax2s-kmtn/internet/skos/REC-skos-reference-20090818.html

*2ウェブ上での参照解決を可能にするHTTP URIの使用を推奨する。

2015-04-08 図書館情報学

緑川信之『本を分類する』

http://id.ndl.go.jp/bib/000002549112

緑川信之著『本を分類する』勁草書房、1996年10月

★感想メモ

  • 理論としての説明が実践を想定した具体例とともにていねいに書かれている。
  • あらゆる分野の知を対象とした分類体系を作るってほんと大変なことだ…と気が遠くなるような気持ちになった。

★メモ

  • p.7: 本書の最終目標は個別の分類法の紹介ではなく、分類とは何か、どうすれば適切な分類ができるか、を考えるための基礎を提供すること
  • p.21-22: きわめて例外的な生物のために区分肢を用意しておくのは実用的ではない
  • p.22: 理論的には区分の原則は守られるべきであるが、実用上はむしろ区分の原則を破っても単純な区分にした方がよい場合もある。
  • p.23: 区分原理を独立のものとして掛け合わせると多次元構造になる。(略)多次元構造の場合はそれぞれの区分原理が独立なので適用順序は問題にならない。
  • p.201: DDCの「記号保全(integrity of numbers)方針」:細目をつけ加えることはあるが、分類体系全体の変更は行わないという方針
  • p.202: DDCの「フェニックスphoenix)」避けがたい必要性と要求が生じた部分については前の版をほとんど考慮に入れずに徹底的に改訂することを承認するという方針。第20版で「全面改訂(complete revision)」と名称が変更された。
  • p.203: 書架分類は文献を書架上に配列するための分類で、書誌分類は書誌、目録、索引、抄録などに収録するための分類
  • 索引:探索の手掛かりを増やす、関連項目を集める。
  • DDC、UDC、NDC、CC
    • DDCを基に、UDCとNDCが独自展開。
    • DDCLCC、NDCは階層構造。
    • コロンは多次元構造。ランガナータンによる。ほとんど使われていないが理論的意義がある。
    • UDCは階層構造と多次元の併用。
    • LCCとNDCは配架目的。
    • UDCは細分化された領域を扱う文献にも適用でき、書誌・索引DBにも使える。
    • 本表:Schedules
    • 補助表:Tables
    • 相関索引:Relative index DDC索引言葉の音順で探索できる。学問分野(discipline)に基づく分類体系と主題(subject)を結び付けるから「相関」
    • 利用の手引:Manual
    • 主類:main classes 0-9の区分肢
    • 綱:divisions 主類を区分した区分肢
    • 目:sections 綱を区分した区分肢
    • 細目:subsections 目以降の区分肢
    • 補助表1:共通細目 Standard subdivisions
    • 補助表2:地理・時代 Geographic areas, historical periods, persons
    • 補助表3:文学形式細目 Subdivisions for the arts, for individual literatures, for specific literary forms
    • 補助表4:言語細目 Subdivisions of individual
    • 補助表5:民族・人種・国民集団 Recial, ethnic, national groups
    • 補助表6:言語 Languages
    • 補助表7:人物 Groups of persons
    • 純粋記号法 pure notation 1種類の記号体系だけを用いる方法(DDCアラビア数字のみ)
    • 包括記号:comprehensive number
    • 学際記号:interdisciplinary number
    • 優先表:table of preference 複数の主題を扱っている文献をどこに位置づけるか指示する手段
    • 本来は1桁や2桁の記号でもダミーの0を補って3桁にする。
    • p.67: ここで注意しなければならないのは、0の数である。すでに指摘したように、530(物理学)の末尾の0はダミーで、実際は53の意味である。したがって、もし図2-17のように指示がでていなかったとすると、合成は次のようになる(530.7)しかし、530.7はすでに本表中に別の項目として使われている。つまり、530.7は物理学で用いられる装置のことであり、これを物理学教育とすることはできない(合成された記号よりも本表にあるが優先される)。そこで、図2-17のように指示を出して0をもうひとつ増やし、530.7としているのである。この0がいくつ必要かは合成する場所による。たとえば、026を見ると、補助表1の使い方が指示されている。この場合は、本表の基本記号は026.00で、たとえば、これに補助表1の03を合成すると026.0003(特定主題図書館の事典)が得られる。
    • 記号の桁が短くて済むよう、階層構造をときどき破っている。

  • LCC米国議会図書館分類法(Library of Congress Classification)】
      • 構造:階層構造
      • 配列:カッターの展開分類法(Expansive Classification: EC)を基礎に配列している。
      • 表示:合成表示
      • 記号:混合記号法でアルファベットと数字
      • 索引:主類ごとのみ(全体の索引はない)
    • 主類:main class 知識の全分野を20に区分。
    • 第2次区分以降の区分肢の配列はマーテルの7ポイント(Martel's seven points)の原則に依拠している。
    • 合成には、カッター記号、内部表、補助表、本表の別の部分、が用いられる。
    • 混合記号法:mixed notation 複数種類の記号体系を用いる方法
    • 万進法。LCCでは1-9999の数字がそれぞれ意味を持つ。
    • ただし、小数点以下の数字は十進法。
    • 階層構造の表現は、レイアウトで示している。

  • CCコロン分類法(Colon Classification)】
      • 構造:多次元構造(だが、各次元の中は階層構造)
      • 配列:具体性減少の原則による
      • 表示:合成表示
      • 記号:混合記号法でアルファベット、ギリシャ文字、数字
      • 索引:アルファベット順に基本主題、基本主題のもとでのファセット、分類記号を示す
    • ファセット:Facet 基本的な区分原理、またはそれに基づく区分肢の全体
    • アイソレイト・フォーカス:Isolate Focus 基本主題以外のファセット
    • 基本主題:Basic Subjects
    • パーソナリティ:Personality Isolates 主語みたいな
    • マター:Matter Isolates 目的語みたいな
    • エネルギー:Energy Isolates 述語、動詞、みたいな
    • 空間:Space Isolates
    • 時間:Time Isolates
    • 言語:Language Isolates
    • 前置共通細目:Anteriorising Common Isolates
    • 後置共通細目:Posteriorising Common Isolates
    • ファセット式:facet formula 各基本主題に固有。用いるファセッとと連結方法を定めた式。
    • レベル:Level 階層関係を表現
    • ラウンド:Round 同じ階層で同じ種類のファセットが出てきたときに区別するための手段。
    • ファセット内関係:Intra-Facet Relation ファセット内の複数の区分肢の関係
    • アレイ内関係:Intra-Array Relation ファセット内関係の中でも、ファセット内の階層構造の第2次区分以降において同じ上位概念ンをもつ区分肢どうしの関係
    • フェイズ関係:Phase Relation 基本主題ファセットにおける複数の区分肢の関係
    • 一般的関係:General
    • 偏重関係:Bias
    • 比較関係:Comparison
    • 差異関係:Difference
    • 影響関係:Influencing
        • 「市立図書館における参考図書の分類」
          • 基本主題:図書館学 →ファセット式は 2[P] ;[M] :[E][2P]
          • パーソナリティ(,[P]):市立図書館 →22 における
          • マター(;[M]):参考図書 →47 の
          • エネルギー(:[E]):分類 →51
          • 第2レベルのパーソナリティ([2P]):(当該の概念が含まれていないので区分は行わない)
          • →222 ;47 :51
        • 図書館のレファレンスサービス」
          • 基本主題:図書館学 →2 →ファセット式は 2[P] ;[M] :[E][2P]
          • パーソナリティ(,[P]):(図書館の種類が限定されていないので区分は行わない)
          • マター(;[M]):(当該の概念が含まれていないので区分は行わない)
          • エネルギー(:[E]):レファレンスサービス →7
          • 第2レベルのパーソナリティ([2P]):(当該の概念が含まれていないので区分は行わない)
          • →2 :7
        • 「21世紀の日本の大学図書館
          • 基本主題:図書館学 →2 →ファセット式は 2[P] ;[M] :[E][2P]
          • パーソナリティ(,[P]):大学図書館 →34
          • マター(;[M]):(当該の概念が含まれていないので区分は行わない)
          • エネルギー(:[E]):(当該の概念が含まれていないので区分は行わない)
          • 第2レベルのパーソナリティ([2P]):(当該の概念が含まれていないので区分は行わない)
          • 空間(.[S]):日本 →42
          • 時間('[T]):21世紀 →P
          • →234. 42 'P
    • 配列は、基本主題、具体的なファセット、抽象的なファセット、の順
    • 各ファセットに対応する連結記号を定め、原則的な合成方法も指定。
    • 複合主題の位置づけが容易で理論的に重要な分類法だが、合成規則が複雑すぎて実用性に欠ける

  • UDC【国際十進分類法(Universal Decimal Classification)】
      • 構造:階層構造と多次元構造の併用
      • 配列:主標数のあとに共通補助標数を合成する、複数の共通補助標数があるときは言語の共通補助標数を最後に合成する
      • 表示:合成表示
      • 記号:純粋記号法でアラビア数字
      • 索引:日本語とアルファベットでそれぞれ用意されている
        • 「英語で書かれた日本の物理学に関する辞典
          • 物理学 →学問分野 →53
          • 日本 →場所 →(520)
          • 辞典 →形式 →(03)
          • 英語 →言語 →=111
          • → 53 (520) (03) =111
    • 1桁や2桁の記号は、ダミーの0を補うことなくそのまま用いる。
    • UDCでは、ひとつの主題に対してひとつの記号を完全に一義的に決定することはできない。
    • 合成は、多次元構造的な合成表示と階層構造的な合成表示が行われている。
    • 多次元構造的な合成は、主標数と各独立性共通補助標数の間での合成と、主標数どうし、または同じ種類の共通補助標数どうしの合成がある。
    • 階層構造的な合成には、主標数と従属性共通補助標数の合成、主標数と固有補助標数の合成、平行細分、の3つの方法がある。
    • 固有補助標数は、主標数の項目ごとに特定の(固有の)記号が定められている。テンゼロ(.0)で始まるテンゼロ固有補助標数、ハイフン(-)の次にゼロでない数字で始まるハイフン固有補助標数アポストロフィ(')に続けるアポストロフィ固有補助標数の3種類がある。
    • 平行細分は、「〜と同様に細分」という指示に基づく方法。

    • 9版
      • 一般補助表I :形式区分
      • 一般補助表I-a:地理区分
      • 一般補助表II :海洋区分
      • 一般補助表III :言語区分
      • 一般補助表IV :言語共通区分
      • 一般補助表V :文学共通区分
    • 知識の全分野を1-9に区分、どれにも入らないものを0(総記)とする。
    • 第2区分以降では、総記はさらに細分した形でしか現れない(ので0で終わる記号は使われない)。
    • 本来は1桁や2桁の記号でもダミーの0を補って3桁にする。
    • 合成の再は、すでに本表に存在する記号と重複しないよう気を付ける必要があるという、DDCと同様の注意事項がある。

2014-10-05

Mike Gancarz『UNIXという考え方』

http://id.ndl.go.jp/bib/000002965498

Mike Gancarz 著『UNIXという考え方 : その設計思想哲学』芳尾桂 監訳、オーム社、2001年2月

★感想メモ

  • 魔法使いのひとりが面白かったと言っていたので読んだ。
  • 面白くてすいすい読んだ。タイトルとサブタイトルそのままの内容で、ここに書かれている「考え方」「思想」は、すべてとは言わないけれど半分くらいはいまの仕事に当てはめて「うむ、そうだな」と思えるものだった。といっても当てはめ先は、例えば文章の書き方とか、報告書の作り方とか、情報共有の仕方とかなので、この本に書かれていたようなシステムやプログラムとは別のことだけれども。
  • 私は面白く読んだけれど、UNIXというものはよく知らない。というかほとんど知らない。むしろまったく分かっていない。どのくらい分かっていないかというと、UNIXってなんだろうとググって、IT用語辞典とかWikipediaとかを読んで、「UNIXとは〜〜なOSのことである。」と書いてあるので「OSってなんだっけ」とググる、というくらいの分からなさ加減なので、たぶんほぼチンプンカンプンなレベルにいるのだと思う。なんやかんやとシステム系の言葉に触れることはあるので、概念モデル?みたいなものはときどき見ているはずだけれど、図式化されたものや比喩による説明などは、分かっていない人間にとっては煙にまかれて分かったような分からないようなという気分にさせられるだけなんだなということが分かるだけというところから進めず、結局のところ何がどうしてどうなっているのかを具体的には理解していなくてイメージできないので(例えば「OS」「オペレーティングシステム」でGoogle画像検索した結果から何かイメージできるか見てみてほしい。きっと「はぁっ?」ってなる。そういう感じ。)、つまみぐいの記憶がときどき出てくるけれど全体としてはよくわからないなと思うので、そのままチンプンカンプンから抜け出せない。
  • こんなレベルにいても、分からないことを分からないまま読み進めることができる人ならきっと楽しく読める本。

★定理メモ

(コロン「:」の右側は勝手なまとめ)

    1. スモール・イズ・ビューティフル:小さなプログラムは分かりやすく保守しやすくリソースを食わず他のツールと組み合わせやすい
    2. 一つのプログラムには一つのことをうまくやらせる:小さなプログラムになる
    3. できるだけ早く試作を作成する:すべては変化していくのだからはじめから完全なものを作らなくていい
    4. 効率より移植性:新しい技術に乗っかっていける
    5. 数値データはASCIIフラットファイルに保存する:読みやすく分かりやすく移動が簡単
    6. ソフトウェアの梃子を有効に活用する:既存の移植性の高いものを有効活用してコストをかけずに機能を高め、移植性の高いものを提供してより広く使ってもらう
    7. シェルスクリプトを使うことで梃子の効果と移植性を高める
    8. 過度の対話インタフェースを避ける:ユーザは人間とは限らない
    9. すべてのプログラムフィルタする:すべてのプログラムフィルタである