(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリュー…
マイクロアドの京都研究所からリモートで働いているインフラ開発ユニットの永富 id:yassan0627 です。 3/1に開催されたOpen Table Format Study GroupのMeetupの第2回目にて、「Kafka ConnectのIceberg Sink Connector」をテーマに話してきました。 今回は、その紹介です。 otfsg-tokyo.connpass.com Open Table Format Study Group(OTFSG) について 私の発表について Kafka Connectとは Iceberg Sink Connectorとは お試し環境について …
1.Hadoop 基本情報技術者試験において、Hadoop(ハドゥープ)は重要なトピックです。この技術は、ペタバイト級の大規模データの蓄積・処理の分散処理を実現するミドルウェアです123。 具体的には、以下のポイントが試験で問われることがあります: Hadoopとは何か? Hadoopは、ペタバイト級の大規模データの蓄積・処理の分散処理を実現するミドルウェアです。 Googleが論文として発表した分散処理フレームワーク「MapReduce」および分散ファイルシステム「Google File System」を基盤技術に、オープンソースとしてJavaで実装されました。 Hadoopの構成 Hado…
本記事は、Hadoop のマスターコンポーネントである NameNode の HA の仕組みについて説明しています。 Hadoop についてある程度の知識があり、NameNode HA の仕組みについて詳しく知りたい人向けの内容となっています。 なお、本記事の内容は、Hadoop2系(HDP 2.4.2.0)で確認した内容となっておりますので、最新バージョンとの差分が多少ある可能性がありますので予めご了承ください。 Hadoop用語説明 基本的なHadoopクラスタ構成図 NameNode HA化の必要性 NameNode HA 構成のロジック NameNode HA構成正常時の動き Name…
小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…
こんにちは、近藤(りょう)です!社内で複数の近藤さんがいますので識別するために()付きにしています。 ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます~! EMRとは? Hadoop, Spark, Hive, Presto などの オープンソースフレームワークを使⽤した ペタバイトスケールのビッグデータ分析が可能なAWSサービス です。 データ処理以外にも相互分析、機械学習を行なう業界をリードするクラウドビッグデータソリューションとなります。 参考 aws.amazon.com EMRで利用…
執筆者 : 佐藤 友昭 「ディスアグリゲーテッドコンピューティング」とは何か? (4) で言及した略語数順の講演リストを以下に記します。 「一次記憶の共有」の観点で2023年9月から12月にかけて実施した、登場しつつあるテクノロジと議論されているそのユースケース調査の対象講演リスト (登場する略語数順。全174講演) タイトル ソース 内容 (YouTube date/artist) 登場略語 HC34-T1 CXL YouTube Hotchips34 チュートリアル 1 - CXL (2022/8/21 hotchipsvideos) ACPI,AER,AI,AMD,API,ATS,BI,…
この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 アドカレも今日で最後になりました。会社の方は全部埋まって記事も投稿出来てるので一安心ですが、Distributed computing アドカレの方は寂しい状態です。とは言え、参加してくれた皆さんには感謝しかないし、どの記事も良かった! ただ、せっかくなので、出来るだけ空いてるところを埋めていきたいところ。 では、今日のお題に入っていきます。 …
この記事は「ウィルゲート Advent Calendar 2023」の 3 日目の記事です。 adventar.org こんにちは、ウィルゲート開発室の田島です。 現在私は業務で分散処理を扱っているのですが、新しい試みということもあり社内に知見がなく、何をするにも手探りな状態でした。その中で処理を実行するにあたり特につまづいたことを3つ、備忘録がてら共有できればと思います。 なお分散処理フレームワークは Apache Spark を、実行環境には Amazon EMR を採用しております。これらの概要については下記リンク先をご確認ください。 spark.apache.org aws.amazo…
この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の2日目の記事です。 Apache Icebergにおいて、Catalogはその根幹を担うコンポーネントだ。Icebergのreader,writerはCatalogによってテーブルを発見し、整合性を維持しながらテーブルを操作できる。一方でCatalogを構成する選択肢は多様で、要件に応じて選ぶ必要がある。そこで本記事では、Iceberg Catalogの主な選択肢と特徴をまとめる。 そもそもIcebergってなに?という方は以…
この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partition…
はじめに マイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤(以下データ基盤)を移行計画中です。 現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。 コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。 ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。 はじめに Apac…
こんにちは! システム開発部BDU(BigData Development Unit)でアプリケーションエンジニアをしている高橋です。 主にマイクロアドが気になっている社外のエンジニアの方やマイクロアドの新入社員の方向けに、自分たちのユニットが使っている技術について共有します。 メインは大規模データを取り扱うバッチ開発の話になるので、広告配信に興味のある方は以下の記事をご覧ください。 developers.microad.co.jp BDU(以降「バッチ開発ユニット」と呼ぶ)では主にETL/ELT1処理のバッチを開発しています。 広告配信ログやアクセスログなどのデータを元にして、適切な形に加工…
インフラストリーミングチームの近藤 (@udzura) です。今回は、ミラティブで内製しているオブジェクトストレージサーバ「b3」の紹介記事を書きたいと思います。 今回の記事は、6月にGopher Talkというイベントで発表した「Go製ミドルウェアを実践投入するにあたりやったこと」をベースに、内容を詳細にしたり直近の開発状況に合わせて更新したものです。一部内容はこの発表と重複していますがご了承ください。 オブジェクトストレージサーバを内製した背景 1. 大量オブジェクトの操作や増え続ける転送量に対応したい 2. 一定期間しかファイルの保持をしない 3. オンメモリ/SSD/HDDを組み合わせ…
DS検定の問題を解いてわからなかった単語を調べました。 原始関数 微分する前のもとの関数。関数を不定積分することで求められる 2階の導関数 原始関数を2階微分した関数。接線の傾きの割合を求めることができ、極大点か極小点かを求めることができる。 Hadoop HDFS(Hadoop Distributed File System)を使用して複数のスレーブサーバーに対してデータを書き込むことで、1台のサーバーストレージに収まらないデータも、複数台のサーバーのストレージに分散して蓄積することができる。 Spark RDD(Resilient Distributed Dataset)を使用してデータを…