Hatena::ブログ(Diary)

wmo6hash::blog このページをアンテナに追加 RSSフィード Twitter

2015/03/28(Sat)

[][]第1回 Vertica 勉強会 @ DeNA(Shibuya Hikarie)に参加して


Vertica Analytic Database *1 って何よ ?

Gartnerの”Market Definition”としてMagic Quadrant for Data Warehouse and Data Management Solutions for Analytics 12 February 2015には記されているが Magic Quadrant for Operational Database Management Systems 16 October 2014 にはない”database management system”です。*2

データベース管理システムの中でも関係データベース管理システムです。


ちょっと使ってみる程度にはインストールは不要です。Vertica on MapR Sandbox first impression - wmo6hash::blogAmazon Web Servicesでの Vertica Analytic Databaseの使い方 - wmo6hash::blog仮想アプライアンス Vertica Virtualized Analytic Databaseの使い方 - wmo6hash::blogVertica OnDemand Free Trialの はじめ方 - wmo6hash::blog仮想アプライアンス Hortonworks Vertica Sandboxの使い方 - その1 - wmo6hash::blogのいずれかをご覧になって持ち歩いてみたりインスタンスを生成してみたりして楽しんでみてください。*3


源となった C-Store: A Column Oriented DBMS in Database Group at MIT Computer Sciende and Artifical Intelligence LabのOverviewや Papers and Technical Reports C-Store: A Column Oriented DBMS *4 に書かれているような特徴であり設計思想の根幹は「読み取りに最適な配置を目的としてマテリアライズドビューのみで実装」にあります。*5 *6 その実装の名が「Projection」です。




わたしは「短く言われてもかわんねーよ!」という方の気持ちは痛いほどわかりますし、説明に何時間もかけることもあります。根本がわかりたい方は容赦なく何度もご自身が理解するまでお話してくださいますからね。

また「わかった」って言っている人がいると「わかんなかった」とは言いにくいから、ほんとはわかってなくても言わなかったりしますよね。


「マテリアライズドビューの概念と違うんじゃない?」という意見をお持ちの方もいるかと思いますが…

これは私の教科書*7です。“Only Materialized View”と しっかり書いてあり、違う違わないの話は、何かこのような根拠を持って話したいなって思います。


ここまでは第1回 Vertica 勉強会 : ATNDで触れられていなかったように感じたことに対して、私が言えることを書きました。

いずれにせよ「Projection」が わかった方と よくわからなかった方がいらっしゃっただろうなーと思いました。Vertica Analytic Databaseの記憶域属性設計と実装のサイクル - wmo6hash::blog も ほとんどわからなかっただろうなと思いました。

「Projection」の説明方法は引き続き工夫して改善し続けようと色々考えています。それが第二回以降で機会をいただけるなら自ら話すかもしれません。




主題

このようにお二人のお話はスライドが公開されています。

スライドに書かれていないことや闊達なQ&Aも含めての話ですが、“運用”は使い始める方や使っている方にはとても有益なお話ですし“活用したアナリスト業務”はユースケースとして前提やVertica Analytic Database利用に限らず どういった業務があるとかデータが存在してどう扱っているのかから考える基としてもお話は貴重でした。

個人的には同じ話を何度していただいても良いのではないかと思いますし、似たような話をしてくださる方が増えると嬉しいですね。


メモやお二人以外の方の話に関しては、他に書いていらっしゃる方々のブログなどをご覧ください。

第1回Vertica勉強会メモ - pandazx's blog

第1回Vertica勉強会に参加してきた - INPUTしたらOUTPUT!

第1回 Vertica 勉強会に行ってきた - wyukawa’s blog

第一回 Vertica勉強会 - Go ahead!

第1回 Vertica 勉強会 - Togetterまとめ


懇親会含め隅でひっそりお聴きしていました。

こんなちっこいのを見つけて お話をしてくださった方に感謝しつつ、第二回以降の開催を期待しています。


同じ日の出来事

Michael Stonebraker氏がチューリング賞を受賞されたことが発表されましたね。

His work on column-oriented storage architecture resulted in systems optimized for complex queries (C-Store/Vertica)

Michael Stonebraker - A.M. Turing Award Winner

Michael Stonebraker wins $1 million Turing Award | MIT News

ACM Turing Award Goes to Pioneer in Database Systems Architecture — Association for Computing Machinery

*1Context for Vertica Analytic Database - wmo6hash::blog

*2:データウエアハウス製品だって言う人もいるけど、個人的にはデータウエアハウスは概念です。その概念の元に使うべきソフトウエアかというと、それは概念実装としての使い方のひとつだと思っています。
またData Warehouseを日本語だとDWHって省略する人が多いけど、英語で省略されるときって目にするのはDWかWarehouseが圧倒的に多いので、個人的にはDWHって日本独自のなんか新しい意味や含みがあるんだろうなーと思っていますが、それが咀嚼出来かねるので自らは用いません。そこを一足飛びに Vertica Analytic Databaseのことを「Verticaはデーダブリューエッチです」とか言っている人いるのは知っていますが、私はそう発言したことは一度もないです。
また、日本ではそのDWHとやらを「大福帳」という表現もされます。大福帳は取引記録の生データを格納するようなイメージだそうですが、生データのままのデータ管理手法がデータウエアハウスの概念があてはまるかというと違うのではないかと思っています。
一方でデータウエアハウスの概念の一部としても考えられる分析向けデータ管理のソリューションというような言い方は、しっくりきます。

*3:わたしはインストールありきの考え方を持ちません。そもそもSQL文を発行するとかプログラミングするとかが先でインストールは誰かが行ったうえで使ってた製品がたくさんあります。もちろんインストールできなきゃ出来ることが限られるので、避けらて通れない道があることは知っています。でもそんなの知らなくてもいい人の方が多いし、インストールできないから何もできないなんてナンセンスな話だなぁと思っています。

*4:Mike Stonebraker, Daniel Abadi, Adam Batkin, Xuedong Chen, Mitch Cherniack, Miguel Ferreira, Edmond Lau, Amerson Lin, Sam Madden, Elizabeth O'Neil, Pat O'Neil, Alex Rasin, Nga Tran and Stan Zdonik. VLDB, pages 553-564, 2005.

*5Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 8ページより

*6http://en.wikipedia.org/wiki/C-Storeには“optimizing the database for reading”のみでマテリアライズドビューのことは書いてありませんが

*7:前出:Google BigQueryなどの仕組みを知りたいときの列指向データベースの説明に - wmo6hash::blog PDFVLDB 2009 Tutorial on Column-Stores via Daniel Abadi in Yale University

2015/03/07(Sat)

[]Vertica Analytic Databaseの記憶域属性設計と実装のサイクル

『“物理スキーマの自動設計”*1って ぴんと来ないよねー。』って ?

それは良くわかります。私も似たようなことを最初に言われたときに理解できませんでした。


じゃぁどう説明したらわかりやすいのか ?


しかも簡素に明快に平易な言葉で。



おととい投稿された実装サイクルを一緒に説明する この図と言い回し*2に似た説明があるのが一つの答えだと思っています。

また物理スキーマというよりも記憶域属性とかのほうがピンと来る人が多いのかなと思っています。



第1回 Vertica 勉強会 : ATND の未定枠で誰かやりません ?

2015/03/01(Sun)

[]2015/03/25(水)19:00- 第1回 Vertica 勉強会@DeNA(Shibuya Hikarie)


概要

Verticaは膨大なデータを超高速に集計可能なカラム型データベースです。

FacebookTwitterZynga等のネット企業で大規模利用され、

オバマ大統領再選を支えたことでも有名な実績のあるデータベースです。

最近では海外のみならず国内のユーザーが着実に増えてきているようです。

ビッグデータ界隈では Impala、Drill、Presto等の MPP on Hadoopや BigQuery、RedShift 等が話題ですが、

長く商用で利用され改善を繰り返してきたVerticaは高速性と製品の完成度に一日の長があります。

1 Tera Byte以下であれば無料で利用することができお手軽にVerticaの高速性と利便性を体験できます。

そんなVerticaを日本でも広めて技術ディスカッションしたいなということで勉強会を開催します。

Verticaを使っている人も使っていない人も是非参加ください。

本イベントはDeNAと日本HPの共同開催となります。

第1回 Vertica 勉強会 : ATND

このような集まりは日本では初めてです。

興味のわいた方は、ぜひ第1回 Vertica 勉強会 : ATNDから参加登録を。




わたしは参加にあたり「技術ディスカッションしたいなということで」とコメントしました。たいした理由はないのですが、理由っぽいことをちょっと書きます。


Haven 2 0 from Data Science Warsaw Published on Feb 12, 2015

このスライドは Data Science Warsaw (Warsaw) - Meetupというポーランドのワルシャワ大学でのデータサイエンティスト達の集りで用いられたようです。*1

Facebook, Inc.の Vertica Analytic Databaseを含むシステムアーキテクチャを基にして、何が話されていたんでしょうね。


日本を離れると、こうして誰かが集まって Vertica Analytic Database をネタに たくさんの会話をしているんですよね。ユーザーかどうかに関係なく。

素朴に そういう場にいたいなと。


また、最近素朴な Vertica Analytic Database をネタに会話をしたなと思えるのは、Database Watch(2015年2月号):HP Verticaを歴史からひもとく/データプラットフォームを中心に据えたSAP (1/3) - @IT および Database Watch(2015年2月号):HP Verticaを歴史からひもとく/データプラットフォームを中心に据えたSAP (2/3) - @IT 掲載の取材を受けた時です。

いくつかの素朴な問いに答えながら「自分じゃなく誰かがこんな話をしているのを ただ聴きたい」と思ったのもあるかもしれません。


きっと当日は隅で おとなしく耳をそばだてていますよ。