(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
Apache Spark(アパッチ・スパーク)は、ビッグデータ処理のための高速で汎用的なクラスタコンピューティングシステムです。従来のHadoop MapReduceよりもはるかに高速なパフォーマンスを提供し、多様なデータ処理タスクに対応しています。今回は、Apache Sparkの概要、特徴、そしてその利点について詳しく解説します。 Apache Sparkとは? Apache Sparkは、分散処理フレームワークであり、膨大なデータセットを効率的に処理するために設計されています。主にビッグデータ分析や機械学習、リアルタイムデータ処理のために使用され、Hadoopと同様にクラスタ上で動作しま…
はじめに:HIVEとは? HIVE(High-level Intermediate Virtual Engine)は、ビッグデータの処理や分析を容易にするためのデータウェアハウス・ソフトウェアです。Hadoop上で動作し、SQLライクなクエリ言語であるHiveQLを使ってデータを操作します。HIVEは、大規模なデータセットを扱う場合でも、従来のRDBMS(リレーショナルデータベース管理システム)と似た感覚でクエリを実行できるため、データサイエンティストやエンジニアに人気があります。 特徴 HiveQL: SQLに似た言語で、学習コストが低い。 Hadoopとの統合: HIVEはHadoop上で…
Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどんな結果が得られたのかについて紹介します。 ということで第1回は、hudiそのものについての紹介をしていきます。 この記事はhudi-0.14.1を利用して検証した時のものです。また社内向けに書いた資料の手直しであるため丁寧語でないことに御留意ください。 Hudiとは何か、…
2024/06/16に開催された JJUG CCC Spring 2024 に参加してきました。 JJUG CCCはもちろん、オフラインの勉強会に参加するのは本当に久しぶりのことです。コロナ禍以来、こういうのとはすっかり遠ざかっていました (あと一時期Javaから離れていたこともありましたが) 。懐かしい方々とも久しぶりに顔を合わせて話をすることができて良かったです。 ということで参加したセッションについて軽く感想でも。 参加したセッション 次世代RDB劔"Tsurugi"にアクセスするJavaライブラリー・ツール JJUGキーノート: Java First. Java Always. Ado…
Trinoには標準でIcebergコネクタが付属しており、Icebergテーブルを読み書きすることができます。カタログの形式としては以下のものがサポートされています。 hive_metastore glue jdbc rest nessie snowflake この他にドキュメントには書かれていないのですが*1、testing_file_metastoreというローカルファイルシステムでIcebergをテストできるカタログタイプがサポートされており、これを使うとローカルで手軽にIcebergコネクタの動作を確認することができます。 設定は至って簡単でこんな感じ。 connector.name=…
. Iceberg Summit 2024 のセッション「eBay's Voyage with Apache Iceberg」を日本語でまとめます。 可能な限り正確に内容を拾えるようにリスニングに努めたつもりですが、もし誤りがあればご指摘ください。 Iceberg Summit とは? eBay's Voyage with Apache Iceberg スピーカー eBayのデータアーキテクチャの歴史 初期 ビッグデータ時代の到来 Icebergの導入 Icebergを導入したデータ基盤の全体像 Icebergを導入して特に嬉しかったこと Lake Manager eBayにおけるIceber…
行/列志向とか圧縮とかその辺の話 列指向データベース(Columnar Database)と行指向データベース(Row-Oriented Database)について書いていく。 とりあえず、列?行?という感じな人もいると思うが、どういうまとまりでデータを保存するか?というところの違いがある。 前に書いた内容では、OLTP, OLAPなどの分類方法での説明をしたが、今回は列志向、行志向という分類の話をする。 mnagaa.hatenablog.com 行指向データベース(Row-Oriented Database) 行指向データベースは、データが行単位で格納されるデータベースの一種。各行はテーブ…
「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリュー…
マイクロアドの京都研究所からリモートで働いているインフラ開発ユニットの永富 id:yassan0627 です。 3/1に開催されたOpen Table Format Study GroupのMeetupの第2回目にて、「Kafka ConnectのIceberg Sink Connector」をテーマに話してきました。 今回は、その紹介です。 otfsg-tokyo.connpass.com Open Table Format Study Group(OTFSG) について 私の発表について Kafka Connectとは Iceberg Sink Connectorとは お試し環境について …
小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…
こんにちは、近藤(りょう)です!社内で複数の近藤さんがいますので識別するために()付きにしています。 ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます~! EMRとは? Hadoop, Spark, Hive, Presto などの オープンソースフレームワークを使⽤した ペタバイトスケールのビッグデータ分析が可能なAWSサービス です。 データ処理以外にも相互分析、機械学習を行なう業界をリードするクラウドビッグデータソリューションとなります。 参考 aws.amazon.com EMRで利用…
執筆者 : 佐藤 友昭 ※ 「ディスアグリゲーテッドコンピューティングとは何か?」連載記事一覧はこちら 「ディスアグリゲーテッドコンピューティング」とは何か? (4) で言及した略語数順の講演リストを以下に記します。 「一次記憶の共有」の観点で2023年9月から12月にかけて実施した、登場しつつあるテクノロジと議論されているそのユースケース調査の対象講演リスト (登場する略語数順。全174講演) 本リストは CDI情報サイト(https://www.cdi-info.jp) で更新しています。 また、更新は X (@cdi_info_jp) でお知らせしています。(追記) タイトル ソース 内…
この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 アドカレも今日で最後になりました。会社の方は全部埋まって記事も投稿出来てるので一安心ですが、Distributed computing アドカレの方は寂しい状態です。とは言え、参加してくれた皆さんには感謝しかないし、どの記事も良かった! ただ、せっかくなので、出来るだけ空いてるところを埋めていきたいところ。 では、今日のお題に入っていきます。 …
この記事は「ウィルゲート Advent Calendar 2023」の 3 日目の記事です。 adventar.org こんにちは、ウィルゲート開発室の田島です。 現在私は業務で分散処理を扱っているのですが、新しい試みということもあり社内に知見がなく、何をするにも手探りな状態でした。その中で処理を実行するにあたり特につまづいたことを3つ、備忘録がてら共有できればと思います。 なお分散処理フレームワークは Apache Spark を、実行環境には Amazon EMR を採用しております。これらの概要については下記リンク先をご確認ください。 spark.apache.org aws.amazo…
2024/6/4追記:勉強会(OTFSG #2)で以下の記事の内容を整理+情報を追加した発表をしました。以下がその時のスライドになりますので、併せてご参照ください speakerdeck.com この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の2日目の記事です。 Apache Icebergにおいて、Catalogはその根幹を担うコンポーネントだ。Icebergのreader,writerはCatalogによってテーブルを発見し、整合性を維持しながらテーブルを操作できる。一…