駆け足で読む『The Grammar of Graphics』目次
- 同じくグラフィクスに関係する本で、「何をどう見せるか」についてはこちら
The Grammar of Graphics (Statistics and Computing)
- 作者: Leland Wilkinson,D. Wills,D. Rope,A. Norton,R. Dubbs
- 出版社/メーカー: Springer
- 発売日: 2005/08/16
- メディア: ハードカバー
- 購入: 1人 クリック: 10回
- この商品を含むブログを見る
- 図で示すことに関する系統だった概念説明の本
- Part 0
- 1 Introduction]
- Part 1
- 2 How To Make a Pie
- 3 Data
- 4 Variables
- 5 Algebra
- 6 Scales
- 7 Statistics
- 8 Geometry
- 9 Coodinates
- 10 Aesthetics
- 11 Facets
- 12 Guides
- Part 2
- 13 Space
- 14 Time
- 15 Uncertainty
- 16 Analysis
- 17 Control
- 18 Automation
- 19 Reader
- 20 Coda
駆け足で読む『The Grammar of Graphics』Part 1 Syntax グラフィクス部品の並べ方・統語規則
- 2 How To Make a Pie
- 2.1 定義
- パイチャートを作る過程を例にとって、「処理」をきちんと説明するための用語を導入する(ちょっとまだわかってない…)
- 集合
- 関係
- グラフ化(対応付け)
- 関数の合成(compositions)と合成関数
- 変換(transformations)
- 代数的に変換を扱う
- 変数はdomain, codomainとdomainをcodomainへのmappingからなる
- Varsetsは変数のmappingの逆作用
- フレームはグラフィクスで扱う要素の範囲を定めるもの
- 2.2 レシピ
- グラフィクス作業の説明書き
- 変数作り(データソースから取り出す)
- 変数ごとに取り出された値をどのように取り扱うか代数処理する(ペアワイズのデータなら2カラムに並べる、とか、そんな感じ)
- スケール化(カテゴリだろうと、数値にしないと配置できない)
- 統計量の計算
- 形に関する位置情報に変換する
- 形・位置情報を座標変換する
- Aesthetics情報を計算する
- 2.3 記法 notation
- この本で、上述のプロセスを説明するために使う用語の定義・説明
- 2.1 定義
- 3 Data
- データとは
- データベースから、「使いたいもののみを取り出しておく仕組みにview」がある。データベースが「データの源」、「viewが(取り出した)データ」。データ源はテキストファイルかも知れないし、ストリーミングされる対象かもしれない
- データの値は観察されたものの値そのもののこともある
- そこから、何かしら加工したものもデータ(の値)になる。分散共分散行列をグラフィカルに表示するとき、分散共分散行列はデータ
- Resamplingして作ったものもやはりデータ
- データには、「データとしての形」がある
- 時系列データ型・カウント型・関数で定義されたものかもしれない
- メタデータ
- 「プロットする値」以外の情報もデータとして取り込む
- データマイニング
- OLAP , MOLAP, ROLAPとかでは「問い合わせ」がデータとして格納される??
- Rで言えば、"input.txt"がデータ源、取り込んだdataオブジェクトがデータ
- データとは
data<-read.table("input.txt")
- 4 Variables
- インデックスのついた値の集まり(ベクトルとその集まり)
- Transformationsして変数から値を取り出す(平均というスカラー、昇順ソートしたベクトル、とか)
- RでV1,V2などがVariablesで、値を束ねている。それにtransformationをする
sum(data$V1) mean(data$V1)
- 5 Algebra
- 例を挙げよう
# これは2つの変数の和 Blend.V<-c(data$V1,data$V2) # これは2つの変数の積 # 2変数が作りうるすべてのタプルを列挙する # 描図にあたって、タプルはあるけど、それを表示するべき領域を確保した上で、そこには点がない、というような表示になる # 積は、解析にあたっては、~V1 + V2 + V1V2のような場合に対応する Cross.V<-expand.grid(data$V1,data$V2) # これに対して、Nestは、V1,V2に対応があるとき、その対応タプルの集合(i番サンプルとj番サンプルの2変数の値がともに(v1,v2)だったら、それに関して(v1,v2)を要素とする集合を作る # 描図にあたって、タプルがなければ、それに対応する領域は確保せずにプロットする、というような表示になる # Nestは、解析にあたっては、条件付き確率としての扱いに対応する
-
- 2つの時系列データを1画面に色を変えてプロットするときには、「2変数の和」をプロットしている
- 2変数のペアのコプロットは「2変数の積」をプロットしている
- こういう演算にした上で、演算の代数的特徴(交換則とか結合則とか)を定義しておくと、具体的な作業を忘れた上で取り扱える
- そんなことを目指している
- 6 Scale
- 7 Statistics
- データの値がタプルになったり、スケール変換したりして、「値(のセット)」になった後、実際に、表示するものを決める
- 値のセットをそのまま表示するなら、「無変換という関数」を作用した結果を表示するものと決めるわけだし、箱ひげにするなら、箱ひげを作るための計算値を出さなくてはならない
- それがStatisticsの計算
- Statistics分類(主要なもの)
- Bin (背景のグリッドとか)
- Summary (要約統計量)
- Region (範囲(信頼区間とか))
- Smooth (点から線へ)
- Link (点をつなぐ、グラフにするようなもの)
- 8 Geometry
- 視覚化するには、空間上の図形にする必要がある
- Geometric Graphs
- Functions(どう描く)
- point,line,area,interval,path,schema
- Partitions(空間を閉じた多様体で仕切る)
- polygon
- contour
- Networks(つなぐ)
- edge
- Functions(どう描く)
- Collision Modifiers
- 見せるときに重なることがあるから、その制御
- 9 Coodinates
- 10 Aesthetics
- 11 Facets
- いくつかの領域に分けて使う
- 領域の分割ルール
- 領域を割り振るルール
- 12 Guides
- Scale ガイド
- Legend(凡例)
- 軸
- Annotation ガイド
- データに対して都度都度変わる情報(特定の点を指し示す情報とか)
- Scale ガイド
駆け足で読む『The Grammar of Graphics』Part 0
駆け足で読む『The Grammar of Graphics』Part 2 Semantics 出来たチャートからの意味の読み取り規則
- 13 Space
- 2つのSpaces
- 多次元の値の組が多次元空間にある Underlying space
- それを表示空間(2次元、3次元) Display space に実現する
- 数学的なSpace
- 数学的に定義されている
- 位相
- 測度
- Spaceに関する操作
- マップする
- 埋め込む
- 距離・測度
- 色々な距離
- 「最短距離」Geodesics
- 次元
- Spaceを分類する
- 連続空間
- フラクタル
- 不連続空間
- 心理学的なSpace
- 感知することを考慮
- グラフィカルに実現するためのSpaceの取り扱い
- 2つのSpaces
- 14 Time
- 15 Uncertainty
- 不確かさの数学
- Variability : 値が異なるときのその違いを定量したもの
- Noise : 定常的な確率過程が生むもの
- Incompleteness : 欠測値があること
- Indeterminacy : 推定変数が一意に決まらないこと
- Bias : 標準からある傾向を持ってずれること
- Error : 真の値と測定値とのランダムな乖離
- Accuracy : biasとerrorとが比較的少ないこと
- Precision : errorが比較的少ないこと
- Reliability : 時刻を変えて測定したときに、再現性があること
- Validity : 測定対象と、その測定対象を引き起こしていることとの間の関連
- Quality : Completeness とreliability とvalidityの複合
- Integrity : データの質を判断するための情報があること
- 基礎概念
- 区間に関する不確かさ
- Confidence interval
- Credible interval
- その他
- モデルとそれからのかい離・残差
- リサンプリングという手法
- 欠測値の扱い
- 不確かさの心理学
- 不確かさをグラフィクスにする
- 不確かさを位置の広がりで示す
- 大きさで示す(確かなものは大きく)
- 色で示す(確かなものは濃く、鮮やかに。曖昧なものは境界をhぼかす)
- 透過性を使う
- 区間の不確かさの示し方
- 幅・面積、それぞれの心理影響
- 1変数の推定に関する「不確かさの幅」は、2変数以上の違いの判断にはそのまま用いられない(けど表示している)
- リサンプリングを利用して幅を示す
- Indeteminacyの曖昧さに視覚表示がミスリーディングなことも
- 欠測値をグラフィクスする
- 不確かさの数学
- 16 Analysis
- 分散解析
- 被説明変数のばらつきを説明変数のばらつきで説明する
- 和・積・Nest(条件付き組合せ)などで説明する
- 形の解析
- 分布の形
- グラフの解析
- 配列の解析(セット・ポセット・順序・半順序)
- 数値列に関して関数を推定する
- 文字列にルールを見出す
- 配列を比較する
- パターン解析
- 分散解析
- 17 Control
- グラフィクス作成のインターフェース
- Interactive な操作でデータマイニングする
- 18 Automation
- コンピュータ言語
- グラフィクスのための仕様
- 19 Reader
- グラフの読み取り
- データをあるルールでグラフィクスにした
- 今度はそれから意味を読み取らなくてはならない
- 20 Coda