Hatena::ブログ(Diary)

ablog このページをアンテナに追加 RSSフィード Twitter

2018-09-21

db tech showcase 2018 Day 3

2018/9/21(金)に開催された db tech showcase 2018 Day 3 のメモ。


Pythonから使える列指向ファイルフォーマット・Parquetを使おう

f:id:yohei-a:20180921093930j:image:w640

概要
  • 講師: 玉川 竜司さん(Sky株式会社
  • 講師略歴: 本職はセキュリティソフトの開発。Pythonは2000年くらいから使用し始めている。db tech showcaseでは、MongoDBの人としてデビュー。本業の傍ら、オライリージャパンから「SRE サイトリライアビリティエンジニアリング」「初めてのSpark」「ヘルシープログラマ」「Google BigQuery」「Sparkによる実践データ解析」など技術翻訳書を多数発刊。
  • 内容: 大量のデータをCSVで保存するのは非効率です。そのデータを分析に利用するなら、列指向のフォーマットでデータを保存することで、保存に必要なストレージ容量や処理に必要なCPUパワーを大幅に削減できます。本セッションでは、Pythonから使える列指向のファイルフォーマットであるParquetについて、実例と共に説明します。
スライド
  • To be uploaded
メモ
  • 「指定したフィールドだけを読み取ることによるI/O削減」はファイルシステムからブロック単位で読むという意味だろうか?同じファイルに複数列の値が入っているが。
  • 主にfastparquetとPyArrowの2つのライブラリがある。Hadoop エコシステムの親和性では PyArrow のほうが優れているかも。

質疑応答
  • Parquet は Date 型が使えないが、それも考慮に入れた上で、ORC と Parquet でどちらが良いか。
  • メモリ空間を効率的に利用できてると思うが数値的に調べたことがありますか?
    • そこまでは調べてない

Deep Dive on the Amazon Aurora PostgreSQL-compatible Edition

f:id:yohei-a:20180921103132j:image:w640

概要
スライド
  • To be uploaded

MVCCにおけるw-w/w-r/r-wのあり方とcommit orderのあり方の再検討〜Sundial: Harmonizing Concurrency Control and Caching in a Distributed OLTP Database Management Systemを題材に

f:id:yohei-a:20180921133839j:image:w640

概要
  • 講師: 神林 飛志(株式会社ノーチラステクノロジーズ - 代表取締役会長
  • 講師略歴: 2011年〜ノーチラステクノロジー代表取締役 Hadoopでの分散処理フレームワークAsakusaの開発・導入に従事 各社の原価計算システムの構築にも従事
  • 内容: サーバアーキテクチャの変更は、そのままデータベースアーキテクチャへの否が応でもの変革を促します。特に、MVCCはP. Bernstein以降の理論的な枠組みのまま、現在のOCCの流れを無理矢理合流させたところもあり、その理論的な難易度と実装のリソース逼迫から一度見送られた風潮がありました。しかし、近年のサーバアーキテクチャの大幅な高進はMVCCに必要なリソースを提供できるだけの状態になり、MVCCは再検討/再実装の中で無視できないうねりになっています。他方、その理論的な難易度から「見てみないふりをした実装」も散見されるようになり、ユーザサイドではややもすれば「anomalyだだ漏れのバグというかこれは仕様ですDB」に直面することになります。今回はこのような状況をうまく捌くために、避けることのできないMVCCの理論的な枠組みについて、その内容を丁寧に後追いし、今後のあり方について模索を行う。
スライド
  • 非公開

Amazon Aurora - Latest innovations and updates behind Aurora’s torrid growth

f:id:yohei-a:20180921141628j:image:w640

概要
スライド
  • to be uploaded
メモ
  • backtrack は最大72時間前まで戻せる。今どこにいるかの LSN を変えるだけなので戻しが速い。実データを書き換えているわけではない。Actual Backtrack Window で barck track できる実際の時間を確認できる。
  • Aurora Serverless は Ci/CD などテスト環境に適している。25〜30秒でスケールアウト/スケールダウンする。NLBの後ろにインスタンスがある。Warm Pool からインスタンスを取るのでスケールアウトが速い。
  • Performance insights はAPIでデータ取得することもできる。過去分のデータも参照できる。
  • 本日 Parallel Query が Aurora が利用できる全リージョンGA した。EXPLAIN で実行計画が Parallel Query になっているかどうか確認できる。
  • Multi Master はWriter を複数立てておいて1つの Writer だけ更新用途で使うと F/O が速い。後は複数の Writer に別のページを更新する(conflictしない)処理を流してスループットを上げる。

進化を続ける Amazon Redshift のパフォーマンスチューニングテクニックと最新アップデート

f:id:yohei-a:20180923042703j:image:w640

概要
  • 講師: 大薗 純平さん(アマゾン ウェブ サービス ジャパン 株式会社 - 技術統括本部 レディネスソリューション本部 ソリューションアーキテクト)
  • 講師略歴: AWS のソリューションアーキテクト。データウェアハウス/ビッグデータアナリティクスの領域に関して、お客様の技術支援を担当しています。
  • 内容: スケーラブルで高速な AWS のマネージドデータウェアハウスである Amazon Redshift は常に進化を続けています。本セッションでは、Redshift の現在地におけるパフォーマンスチューニングテクニックと、最新のアップデート情報についてお話します。
スライド
  • to be uploaded

Platinumホルダーが選ぶ! 現場で役立つOracle Database18c新機能

f:id:yohei-a:20180923043305j:image:w640

概要
  • 講師: 五十嵐 一俊(株式会社コーソル/Japan Oracle User Group - Oracleサービスグループ)
  • 講師略歴: コーソル入社後、Oracle製品のサポート/コンサルティング業務を経て、Oracle ExadataのDBA業務に従事する。自社技術力向上にも取り組んでおり、その成果として3年連続ORACLE MASTER Platinum取得者数No.1を達成した。
  • 内容: Oracle Databaseを日々愛用(酷使)するコーソルのORACLE MASTER Platinum 12c保持エンジニアが、非常に多くの18c新機能から厳選した、必ず知っておくべき新機能、地味ながら絶対に現場の役に立つ新機能をご紹介します。
スライド
  • to be uploaded

Oracle Databaseバージョン選択における考察'18

f:id:yohei-a:20180923043324j:image:w640

概要
  • 講師:諸橋 渉さん(日本ヒューレット・パッカード株式会社Japan Oracle User Group)
  • 講師略歴: データと分析にまつわる技術支援業務に従事。ささやかにデータ管理関連の様々な仕事を続けている。Oracle ACEのひとり。Japan Oracle User Groupボードメンバのひとり。
  • 内容: 年次リリースになったOracle Database。各社の関連クラウドサービス等の最新動向もふまえて、バージョン選定と採用時期を決めるための ひとつの考察。
スライド


P.S.

講師控室が同窓会のようで楽しい。

f:id:yohei-a:20180923044512j:image:w640

夜は 過橋米線 秋葉原店 で打ち上げ。美味しかったのでまた行きたい。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/yohei-a/20180921/1537490227