(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
はじめに 概要 Apache Iceberg(アイスバーグ)とは フォーマットバージョン [注意] IcebergはTable Specである Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Cata…
Delta Lake S3, Azure data lake storage, HDFSなどのデータレイクファイルストレージに構築されるOSSのストレージレイヤー。1つのテーブルに対して、ストリーミング・バッチ処理の両方に対応できる。 構造化・非構造化データを単一システムに集約してデータサイロ(他からアクセスできないデータ)を解消する。コスト効率・スケーラビリティの高いレイクハウスを構築する。 Delta Lakeのデータは、オープンなParquet形式で保存される。AuditログやコミットログなどのメタデータはJSONで保持する。 ACID transactionが担保されている。 データス…
マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換…
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&…
Medium で見つけた記事をいくつか紹介しようと思ったのですが、Flowman の記事が長くなったので Docker でのデモも交えながらご紹介します。 Flowman — A Declarative ETL Framework powered by Apache Spark kupferk.medium.com Flowman という Apache ライセンス下の ETL フレームワークの紹介です。ピュアな Spark, Cloudera, AWS EMR, Azure Synapse などの分散処理システム上で動く「宣言的な」ETLフレームワークとのこと。記事自体も Flowmanの開発…
こんにちは!マイクロアドでサーバーサイドエンジニアとしてバッチ開発を担当している根本 (id:realyutanemoto)です。 マイクロアドではHadoop分散ファイルシステム(以下、HDFSとする)にビッグデータを蓄積し、その加工処理(ETL処理)を行うバッチを作っています。 今回はそのテストの一部でHive1クエリの自動テストを実装した方法を紹介します。 バッチ処理のテスト Hiveを使ったバッチ処理の例 なぜ自動テストしたいのか Hiveを使ったバッチ処理での自動テスト 自動テスト作成時の観点 自動テストですること 自動テストの実装 Dockerコンテナの立ち上げ テストデータの操作…
https://www.nutanixbible.jp/ Webスケールなインフラストラクチャーの重要な要素ハイパーコンバージェンス ソフトウェア デファインド インテリジェンス 自律分散システム インクリメンタルかつリニアな拡張性 その他の要素:APIベースの自動化と豊富な分析機能 セキュリティをコアに据えている 自己修復機能 戦略とビジョンあらゆる場所のインフラストラクチャーコンピューティングを、存在を意識しなくていいくらい簡単(インビジブル)にする。このシンプルさは、次の3つのコア領域に焦点を当てることで達成されました。選択とポータビリティを可能にする。 (HCI/Cloud/Hyper…
こんにちは!エンタープライズクラウド部技術2課の日高です。 Amazon EC2(今後はEC2と表記)をマネジメントコンソールから作成する際に、「この設定なんだっけ?」と高度な詳細の項目について忘れてしまうことがよくあるので備忘録がてらまとめていきたいと思います。 今回、「購入オプション」「ドメイン結合ディレクトリ」「IAM instance profile」「ユーザーデータ」は載せるとボリュームが多くなりすぎて読み手の方が大変だと思うので、別のブログにて書いていきたいと思います。 高度な詳細(Advanced details)の項目 インスタンスの自動復旧(Instance auto-rec…
HadoopとSparkは、ビッグデータの処理に使われるオープンソースの分散処理フレームワークです。 Hadoopは、大量のデータを分割し、クラスター内の複数のコンピューターで並列処理することで、データの効率的な処理を実現します。Hadoopには、Hadoop Distributed File System(HDFS)と呼ばれるファイルシステムがあり、データをストレージする際にはHDFSに格納されます。また、Hadoopには、MapReduceと呼ばれる分散処理モデルがあり、データ処理のためのジョブを実行するためのフレームワークが提供されています。 一方、Sparkは、高速な処理とリアルタイム…
Building Data Engineering Pipelines with Snowpark for Python medium.com Snowpark で実現するデータパイプライン処理に関するチュートリアルが公開されており、そのチュートリアルに関する概説です。 去年 SnowPro Core の試験を受けた時には全く出題されませんでしたが、Snowpark は Python, Java, Scala などのプログラミング言語を通じて Snowflake と連携ができる機能や、そのクライアントライブラリを指すようです。DataFrame に対するプログラムが、ライブラリ内にて Snow…
■ はじめに Apache Flink (アパッチフリンク) ってのが 話題にあがったので、調べてみた。 目次 【0】Top Big Data frameworks in 2023 【1】Apache Flink 0)公式サイト 1)ライセンス 2)最新バージョン 3)プログラム言語 【2】その他の特徴 1)Exactly-once(正確に1回だけ実行) 2)他のツールとの統合 【3】他のフレームワークとの比較 1)米Yahoo社のベンチマークテスト 【0】Top Big Data frameworks in 2023 https://jelvix.com/blog/top-5-big-dat…
■ はじめに AWS EMR 内のHiveテーブルを調査した際に Hiveコマンドをいくつか実行したので、 その際に使用したものなどをまとめておく 目次 【1】データベース関連 1)データベースの一覧表示 【2】テーブル関連 1)テーブルの一覧表示 2)テーブル情報の取得 3)テーブルのサイズの取得 【1】データベース関連 1)データベースの一覧表示 構文 show databases; 【2】テーブル関連 1)テーブルの一覧表示 構文 show tables; -- ★注意:現在指定されているDB内のテーブルのみ表示 -- Databaseを指定する show tables in <your…
全般 BigQuery データ取り込み クエリ Routine セッション 外部データソースへのクエリ テーブルスキーマ ネスト(STRUCT)され、且つ繰り返しフィールド(ARRAY)のあるスキーマ 検索インデックス BigQuery BI Engine BigQuery Migration Service BigQuery Data Transfer Service データの暗号化・マスキング BigQuery ML アクセス制御 管理 Cloud SQL インスタンス・構成 管理 アクセス制御 Database Migration Service Cloud Bigtable アーキテク…
この記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。 今年のアドカレも最終日になりました。 とは言え、Distributed computing Advent Calendar 2022 の方はエントリが結構残ってるので、引き続き空いてる枠への参加をお待ちしてます! qiita.com qiita.com 今回は、Hadoopクラスタ管理者の視点で、データ基盤としてTiDBの使い所について考えてみ…
元論文 https://arxiv.org/pdf/2209.07663.pdfbytedance社のレコメンドエンジンに関する内容。 Deepなモデルをプロダクション環境で扱うためのモデルの学習・更新の方法やデータの管理方法の工夫などをまとめている。全体のアーキテクチャ 特徴量のメモリ削減 モデルのパラメータはdenseとsparseの二つにカテゴライズされる。 dense:DNNの重みや変数 sparse:embedding tableなど1. ハッシュ関数の工夫 新しいIDの増加に伴いパラメータの管理に対するコストが高くなる。 その問題を防ぐため、スパースなパラメータについてTensor…