(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
■ はじめに トラブルシュートの切り分けの一環で、 HDFS内にファイルをインポートすることをやったのでメモ。 目次 【1】LOAD DATA 【2】CSVファイルをHDFS内にインポートする 0)前準備 1)LOAD DATA 実行 【1】LOAD DATA * CSVなどのファイルをHiveテーブルに対してインポートできる 【2】CSVファイルをHDFS内にインポートする 以下のサイトが大変参考になりました。感謝。。。 https://qiita.com/niwasawa/items/ff8335e0d5f9a67b97fa 0)前準備 * 以下をhiveで実行する コマンド例 -- [1…
■ はじめに https://dk521123.hatenablog.com/entry/2020/02/25/231235 https://dk521123.hatenablog.com/entry/2020/06/02/183823 の続き。 データベースを作るなど、メモしておく。 目次 【1】データベース作成 【2】データベース削除 【3】データベース一覧表示 【4】データベースの指定 【1】データベース作成 * SQL と変わらん。 => ただし、HDFS内に明示的に作りたいなどが生じた場合 少し違うので、そこら辺含めてまとめておく。 コマンド例 -- DBを作る CREATE DAT…
●VM Import/Export オンプレミス環境に構築したサーバをEC2インスタンスへ移行(インポート) またはAWS上に構築したEC2をオンプレミス環境へ移す(エクスポート)ことが可能 オンプレミス環境から移行すると、S3にAMIとして保存され、AMIからサーバを起動すれば移行完了 ・移行できる対象 Microsoft Hyper-V Citrix Xen仮想化形式 を使用する仮想マシンになる ●SMS(Server Migration Service) オンプレミスのVMware ESX上で稼働している仮想サーバをAWSに移行することができるサービス 移行後のサーバはAMIとしてS3に…
●概要 ・Hadoop、Spark、HBase、および Presto を含む 19 の異なるオープンソースプロジェクトをサポート。 ・上記のオープンソースプロジェクトのビックデータフレームワークの処理を 簡素化する大量のデータの処理及び分析するマネージドサービス ☆一つのデータ処理を分散して行う分散処理基盤を複雑な設定なしで利用可能 S3、Hadoop Distributed File System (HDFS)、DynamoDB を含む複数のデータストアを活用できる。 EKS環境でEMRを使用可能できる。 ●仕様 クラスターを起動されて処理を実行 ○起動モード ・クラスター クラスタを起動す…
■ はじめに https://dk521123.hatenablog.com/entry/2019/09/15/100727 の続き。 HDFS があいまいだったので、こつこつまとめていく。 また、 https://dk521123.hatenablog.com/entry/2020/11/13/145545 でやった EMRFS の基礎になるので、勉強しておく。 目次 【0】前提知識:ファイルシステム 【1】HDFS (Hadoop Distributed File System) 【2】HDFS の構成 1)Name Node (ネームノード) 2)Data Node (データノード) 【…
皆さんこんばんは。花粉が舞いに舞っている昨今、いかがお過ごしでしょうか。 春といえば、OSSのDBが恋しくなります。ということで、HBaseを今日一日触っていたので、その記録を書こうかと思います。 というのも、オライリーのデータ指向アプリケーションデザインの第6章「パーティション」を読んでいて、実際にプロダクトを触りたくなってきたからです。 データを分散して分けた1つ1つをパーティションと呼び、それをどのように分けるか?はたまたどのようにリバランシングするか? などが載っていました。概念は理解しましたが、実際に実装だとどういう感じなのか理解したかった次第です。 HBaseとは? hbase_l…
最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org
概要 インフラ系のクラウドエンジニアとして、日々自己研鑽に努めています。 本投稿は今年度の学習のまとめとして、今後も覚えておきたい情報を記載したものです。 AWS analytics servicesに含まれるサービスについて、要件に適したサービスや、調査・検証が必要な内容をすぐに探し出せるようになることを主な目的に、各サービスと関連技術の特徴と効果的に活用するためのTipsを記載しています。 記載内容は、AWS公式ドキュメントやインターネットから拾い集めた情報を個人的に解釈した結果を記載しています。実機確認等による裏付けがされた内容ではない点、ご留意ください。 Analytics Athen…
hadoop fs -rm コマンドの挙動を詳しく確認する必要があり、コードリーディングを行った。 コード自体は自体は以下に存在しており、他のコマンドの実装も周辺にある。 github.com 実装上、-rm、-rmdir、-rmr、-expungeは全て異なる実装が行われているが、 今回対象としたのは -rm だけである。 引数で与えられたオプションを処理 (-r, -f, -R, -skipTrash, -safely) 引数で与えられたパス文字列を内部で PathData に変換 pathが見つからない場合終了 与えられたパスごとに以下の処理を実行。パスが存在しない場合終了 まずディレク…
目次 目次 とある日 Oracle提供イメージ ベアメタル・コンピュート・インスタンス ポリシー継承 Oracle RAC DBシステム ブロック・ボリューム・パフォーマンス ブロック・ボリューム・パフォーマンス・レベル OS管理 OS管理のコンポーネントと機能 インフラの保護を行うセキュリティ・サービス レイヤー7 DDoS緩和 WAF バックアップ・ポリシー ユーザー定義バックアップ・ポリシー スケジュール Oracle定義バックアップ・ポリシー ブロンズ・ポリシー シルバー・ポリシー ゴールド・ポリシー Heatwave 事前認証済リクエスト Autonomous JSON Databa…
約3ヵ月ぶりの記事となってしまいましたが、この間にAWS認定資格の内、ネットワーク、データベースを取得し、本日無事データアナリティクスも合格しました! ネットワーク、データベースについては追々記事にするとして、今日は「AWS認定 データアナリティクスー専門知識」について、私の勉強方法と学んだことを書き出しておこうと思います。
こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL…
はじめに Goog Cloudのプロダクトを体系的に学ぶ目的として、Associate Cloud Engineer の試験項目を学習しました。その後、学習後に同試験を受けてみたところ、1度で合格できましたので試験までにやったことをまとめておきます。 【追記】 こちらの試験のあと、「Professional Data Engineer」につきましても取得できましたので下記で記載しています。 【GoogleCloud 認定資格】Professional Data Engineer の取得 - セグメント例外(コアダンプしました。) このドキュメントの使いみち 下記にあてはまる方であれば、多少は参…
3-1 IoT データ活用の概要 省略 3-2 IoT データ処理方式 p57 データ保存方式 IoTデータには,データ更新はほとんど発生せず,トランザクションも不要,という特徴がある. ビッグデータは,Volume,Velocity,Varietyの3Vで表される点が従来のデータとは異なる. RDBはSQLを用いており,複雑なデータ検索や集計が可能であるが処理のオーバーヘッドが高い.一般的にはスケールアウトによる能力向上は難しく,スケールアップに頼る必要がある. 一方でNoSQLはデータ整合性の保証を緩めることで,スケールアウトが容易に行え,またデータ構造の変化に柔軟に対処しやすいという特徴…