HDFS

このタグでブログを書く

言葉の解説

ネットで話題

HDFS

(コンピュータ)

【えいちでぃーえふえす】

(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。
(2) High Density Fixed Service(Systems)。加入者系無線アクセスシステムなどの稠密な状態で用いられる固定業務（のシステム）。IEEE 802.16 の用語。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

t-matsu200のブログ【開発業務の備忘録】•3年前

【Python】PyWebHdfsでHDFSを操作する

PythonでHDFSにファイルアップロードする処理を実装したのでメモ。単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築作者:キンボール,ラルフ,メルツ,リチャードメディア: 単行本環境やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…

#HDFS#hadoop#Python

ネットで話題

81ブックマーク MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など

www.publickey1.jp

65ブックマーク［速報］Microsoft SQL Server 2019発表。SparkとHDFSを製品に統合、データ仮想化を搭載。Microsoft Ignite 2018

www.publickey1.jp

53ブックマーク fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ

tester7.hatenablog.com

52ブックマーク HDFSはファイルサーバーに使うものじゃないよ

togetter.com

49ブックマーク［速報］無限のデータ容量で大量データを保存「Azure Data Lake service」発表。HDFS APIでHadoop用分析ツールが利用可能

www.publickey1.jp

44ブックマーク HDFS の信頼性（原題：HDFS Reliability） ‎(Pac Learner)‎Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

sites.google.com

40ブックマーク Hadoop HDFSコマンド実行メモ（0.20.1）# 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path)...

www.mwsoft.jp

34ブックマークうるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛

masa-cbl.hatenadiary.jp

34ブックマーク HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例

techblog.yahoo.co.jp

関連ブログ

肉球でキーボード•11日前

データエンジニアリングの基礎を読みました

「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想原本は Fundamentals of Data Engineering で本書は日本語訳となります。筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。データエンジニア界隈は急速に変化する業界と本文中で書かれています。業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。上記の狙い通り、本書はツールや特定技術ソリュー…

MicroAd Developers Blog•22日前

OTFSG Tokyo Meetup #2 で「Kafka ConnectのIceberg Sink Connector」をテーマに発表してきた

マイクロアドの京都研究所からリモートで働いているインフラ開発ユニットの永富 id:yassan0627 です。 3/1に開催されたOpen Table Format Study GroupのMeetupの第2回目にて、「Kafka ConnectのIceberg Sink Connector」をテーマに話してきました。今回は、その紹介です。 otfsg-tokyo.connpass.com Open Table Format Study Group（OTFSG）について私の発表について Kafka Connectとは Iceberg Sink Connectorとはお試し環境について …

IT技術を利用した英語学習と基本情報技術者試験と医学の雑多ブログ•1ヶ月前

基本情報技術者試験①

１．Hadoop 基本情報技術者試験において、Hadoop（ハドゥープ）は重要なトピックです。この技術は、ペタバイト級の大規模データの蓄積・処理の分散処理を実現するミドルウェアです123。具体的には、以下のポイントが試験で問われることがあります： Hadoopとは何か？ Hadoopは、ペタバイト級の大規模データの蓄積・処理の分散処理を実現するミドルウェアです。 Googleが論文として発表した分散処理フレームワーク「MapReduce」および分散ファイルシステム「Google File System」を基盤技術に、オープンソースとしてJavaで実装されました。 Hadoopの構成 Hado…

JBS Tech Blog•1ヶ月前

【Hadoop】NameNode HA（High Availability）の仕組み

本記事は、Hadoop のマスターコンポーネントである NameNode の HA の仕組みについて説明しています。 Hadoop についてある程度の知識があり、NameNode HA の仕組みについて詳しく知りたい人向けの内容となっています。なお、本記事の内容は、Hadoop2系（HDP 2.4.2.0）で確認した内容となっておりますので、最新バージョンとの差分が多少ある可能性がありますので予めご了承ください。 Hadoop用語説明基本的なHadoopクラスタ構成図 NameNode HA化の必要性 NameNode HA 構成のロジック NameNode HA構成正常時の動き Name…

NRIネットコムBlog•1ヶ月前

AWS Certified Data Engineer - Associate(DEA)の学習方法

小西秀和です。この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。重複する内容については省略していますので、併せて元記事も御覧ください。また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…

サーバーワークスエンジニアブログ•2ヶ月前

【初級編】 Amazon EMRとはなんぞや？（概要と他社SaaS比較）

こんにちは、近藤（りょう）です！社内で複数の近藤さんがいますので識別するために（）付きにしています。ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます～！ EMRとは？ Hadoop, Spark, Hive, Presto などのオープンソースフレームワークを使⽤したペタバイトスケールのビッグデータ分析が可能なAWSサービスです。データ処理以外にも相互分析、機械学習を行なう業界をリードするクラウドビッグデータソリューションとなります。参考 aws.amazon.com EMRで利用…

VA Linux エンジニアブログ •3ヶ月前

「ディスアグリゲーテッドコンピューティング」とは何か? (4)　講演リスト

執筆者 : 佐藤友昭「ディスアグリゲーテッドコンピューティング」とは何か? (4) で言及した略語数順の講演リストを以下に記します。「一次記憶の共有」の観点で2023年9月から12月にかけて実施した、登場しつつあるテクノロジと議論されているそのユースケース調査の対象講演リスト（登場する略語数順。全174講演）タイトルソース内容 (YouTube date/artist) 登場略語 HC34-T1 CXL YouTube Hotchips34 チュートリアル 1 - CXL (2022/8/21 hotchipsvideos) ACPI,AER,AI,AMD,API,ATS,BI,…

やっさんメモ•4ヶ月前

Icebergのデータ層にs3a使わずにOzoneでデータ分析に最適なofs/FSOを使いたい話

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。アドカレも今日で最後になりました。会社の方は全部埋まって記事も投稿出来てるので一安心ですが、Distributed computing アドカレの方は寂しい状態です。とは言え、参加してくれた皆さんには感謝しかないし、どの記事も良かった！ただ、せっかくなので、出来るだけ空いてるところを埋めていきたいところ。では、今日のお題に入っていきます。 …

WILLGATE TECH BLOG•5ヶ月前

分散処理初心者が実行においてつまづいた３つのこと

この記事は「ウィルゲート Advent Calendar 2023」の 3 日目の記事です。 adventar.org こんにちは、ウィルゲート開発室の田島です。現在私は業務で分散処理を扱っているのですが、新しい試みということもあり社内に知見がなく、何をするにも手探りな状態でした。その中で処理を実行するにあたり特につまづいたことを3つ、備忘録がてら共有できればと思います。なお分散処理フレームワークは Apache Spark を、実行環境には Amazon EMR を採用しております。これらの概要については下記リンク先をご確認ください。 spark.apache.org aws.amazo…

流沙河鎮•5ヶ月前

Apache Iceberg Catalogの選択肢

この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の2日目の記事です。 Apache Icebergにおいて、Catalogはその根幹を担うコンポーネントだ。Icebergのreader,writerはCatalogによってテーブルを発見し、整合性を維持しながらテーブルを操作できる。一方でCatalogを構成する選択肢は多様で、要件に応じて選ぶ必要がある。そこで本記事では、Iceberg Catalogの主な選択肢と特徴をまとめる。そもそもIcebergってなに？という方は以…

やっさんメモ•5ヶ月前

Icebergテーブルの内部構造について

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴（Time Travel や Rollback、Hidden Partition…

MicroAd Developers Blog•5ヶ月前

S3互換ストレージ Apache Ozoneについて

はじめにマイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤（以下データ基盤）を移行計画中です。現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。はじめに Apac…

MicroAd Developers Blog•5ヶ月前

【新卒エンジニア向け】マイクロアドエンジニアの技術スタック(バッチ開発ユニット編)

こんにちは！システム開発部BDU(BigData Development Unit)でアプリケーションエンジニアをしている高橋です。主にマイクロアドが気になっている社外のエンジニアの方やマイクロアドの新入社員の方向けに、自分たちのユニットが使っている技術について共有します。メインは大規模データを取り扱うバッチ開発の話になるので、広告配信に興味のある方は以下の記事をご覧ください。 developers.microad.co.jp BDU（以降「バッチ開発ユニット」と呼ぶ）では主にETL/ELT1処理のバッチを開発しています。広告配信ログやアクセスログなどのデータを元にして、適切な形に加工…

Mirrativ Tech Blog•6ヶ月前

内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話

インフラストリーミングチームの近藤 (@udzura) です。今回は、ミラティブで内製しているオブジェクトストレージサーバ「b3」の紹介記事を書きたいと思います。今回の記事は、6月にGopher Talkというイベントで発表した「Go製ミドルウェアを実践投入するにあたりやったこと」をベースに、内容を詳細にしたり直近の開発状況に合わせて更新したものです。一部内容はこの発表と重複していますがご了承ください。オブジェクトストレージサーバを内製した背景 1. 大量オブジェクトの操作や増え続ける転送量に対応したい 2. 一定期間しかファイルの保持をしない 3. オンメモリ/SSD/HDDを組み合わせ…

loserとして生きていく•6ヶ月前

DS検定単語帳

DS検定の問題を解いてわからなかった単語を調べました。原始関数微分する前のもとの関数。関数を不定積分することで求められる 2階の導関数原始関数を2階微分した関数。接線の傾きの割合を求めることができ、極大点か極小点かを求めることができる。 Hadoop HDFS(Hadoop Distributed File System)を使用して複数のスレーブサーバーに対してデータを書き込むことで、１台のサーバーストレージに収まらないデータも、複数台のサーバーのストレージに分散して蓄積することができる。 Spark RDD(Resilient Distributed Dataset)を使用してデータを…

関連ブログ

【Python】PyWebHdfsでHDFSを操作する

ネットで話題

関連ブログ

データエンジニアリングの基礎を読みました

OTFSG Tokyo Meetup #2 で「Kafka ConnectのIceberg Sink Connector」をテーマに発表してきた

基本情報技術者試験①

【Hadoop】NameNode HA（High Availability）の仕組み

AWS Certified Data Engineer - Associate(DEA)の学習方法

【初級編】 Amazon EMRとはなんぞや？（概要と他社SaaS比較）

「ディスアグリゲーテッドコンピューティング」とは何か? (4) 講演リスト

Icebergのデータ層にs3a使わずにOzoneでデータ分析に最適なofs/FSOを使いたい話

分散処理初心者が実行においてつまづいた３つのこと

Apache Iceberg Catalogの選択肢

Icebergテーブルの内部構造について

S3互換ストレージ Apache Ozoneについて

【新卒エンジニア向け】マイクロアドエンジニアの技術スタック(バッチ開発ユニット編)

内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話

DS検定単語帳

「ディスアグリゲーテッドコンピューティング」とは何か? (4)　講演リスト