(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
目次 目次 はじめに プラットフォーム事業本部:pospome IT インフラ本部 SRE 部:小野輝也 AWS Migration and Modernization GameDay Data analysis with Amazon EKS and AWS Batch 全体的な感想 プラットフォーム事業本部:Anri ITインフラ本部 インフラ部:星野卓哉 Best practices for automating AWS account migration Delegating access in a multi-account environment with IAM Identity…
この記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。 今年のアドカレも最終日になりました。 とは言え、Distributed computing Advent Calendar 2022 の方はエントリが結構残ってるので、引き続き空いてる枠への参加をお待ちしてます! qiita.com qiita.com 今回は、Hadoopクラスタ管理者の視点で、データ基盤としてTiDBの使い所について考えてみ…
元論文 https://arxiv.org/pdf/2209.07663.pdfbytedance社のレコメンドエンジンに関する内容。 Deepなモデルをプロダクション環境で扱うためのモデルの学習・更新の方法やデータの管理方法の工夫などをまとめている。全体のアーキテクチャ 特徴量のメモリ削減 モデルのパラメータはdenseとsparseの二つにカテゴライズされる。 dense:DNNの重みや変数 sparse:embedding tableなど1. ハッシュ関数の工夫 新しいIDの増加に伴いパラメータの管理に対するコストが高くなる。 その問題を防ぐため、スパースなパラメータについてTensor…
この記事は Distributed computing Advent Calendar 2022 の5日目の記事です1。 qiita.com 今回は、今年の5月にApache Software Foundation (ASF)のTop-Level Project (TLP)2になった Apache YuniKorn について紹介します。 yunikorn.apache.org YuniKornの概要 YuniKornの由来と読み方 なぜYuniKornが必要なのか? どこが使ってるのか? リリース状況 YuniKornの特徴 アプリを考慮したスケジューリング 階層型のリソースキュー ジョブオー…
内容 https://www.amazon.co.jp/gp/product/B09DKZWX7N 3-3 事業継続性 RPOとPTO バックアップ&リカバリー パイロットランプ ウォームスタンバイ マルチサイトアクティブ/アクティブ 3-4 パフォーマンス EC2のパフォーマンス ジャンボフレーム ストレージのパフォーマンス 気になったこと PROは復旧点、RTOは復旧にかかる時間 ストレージゲートウェイは4つ S3ファイルゲートウェイ:SMB、NFSマウント、自動的にS3に保存 ボリュームゲートウェイ:iSCSI、ストレージゲートウェイのボリュームに保存、保管型とキャッシュ型 テープゲート…
神を信仰するとこの世がとても汚れてることがわかる親しい友人や仲の良い妻なども汚れてることがわかるヨブのように畳み掛けてくるような災いがくるやもしれないしかし誰かを呪ったりしてはいけない受け止めるのだ災いには理由があるのだ神を愛すことで乗り越えるのだ— ヨハネ (@yohaneflowers) 2022年11月21日 「今、何をすれば神様は喜んでくださるのでしょうか?」それを詳しく知るために#御言葉 (RAPTブログの有料記事と朝会)を学びますそして祈って聞きます私は『信仰の #四本の柱 をもっとしっかり立てなさい』と言われた気がしました😅がんばります!⚜️朝会2022年11月⚜️▶️https…
www.youtube.com Sananda Maitreya - Mama's Boy Blues (Live) (4K)Pandora's PlayHouseサナンダ・マイトレイヤロック¥3400 鯛温兆説 暇なのに毎日更新できていない... 寝ても寝ても眠すぎる。 今日から気温がぐっと下がるので体温調節気をつけないなとなぁ... 厚着して汗ぴっちょりになったり、寒くてブルブル震えたり。 その辺の調節が何時まで経っても出来ないまま。 いくら発達障害といえども毎年毎年、ダメなままで嫌になる。 町田で開催されていた、一箱古本市というのに行ってきた。戦利品はビックイシューのバックナンバー数冊の…
LUNA SEAさん「【各プレイガイド先行受付中!!】 ▷e+ https://t.co/qBs9yPhymF ▷ローチケ https://t.co/3mFjvxLxM2 ▷ぴあ https://t.co/OCmcDooLkG チケット一般発売前、最後の先行受付となります!! この機会をお見逃しなく!! #黒服限定GIG #LUNACY #LUNASEA」https://twitter.com/LUNASEAOFFICIAL/status/1587735450164555776 SUGIZOさん「THE ONENESS、マーメイド・スカートを纏うシュナイダー飛夢ちゃんが超美麗なPhotoの数々…
小西秀和です。 今回は「AWSサービスのServerlessオプション、オンデマンドモードの特徴・比較・まとめ・プロビジョニングとの違い」の記事の一部としてAWSサービスの一部でクラスターやインスタンスのプロビジョニングに対して用意されているServerlessオプションについて、主なAWSサービスごとに特徴、設定項目、料金、制限事項を見ていきたいと思います。 今回の記事の内容は次のような構成になっています。 Serverlessオプションが使える主なAWSサービス Amazon Aurora Serverless v1 Amazon Auroraの概要 Amazon Aurora Serve…
+ 案件でHadoopを扱う事になりそうなので、勉強のためにDockerコンテナでHadoop + Spark環境を構築してみました。擬似分散モードでの起動を想定しています。 ソースコードはgit hubに上げてあります。 github.com Hadoopのインストール 公式サイトからファイルをダウンロードする必要があります。 配布されているHadoopのバージョンは以下URLから確認できます。 ftp.kddilabs.jp Sparkのインストール Sparkも公式サイトからダウンロードします。 ダウンロードするHadoopのバージョンと同じ物をChoose a package type…
仕事でMicrosoft Purviewを使う事になったので、構築までの道のりを備忘録的にまとめていこうと思います。 第一回は、「Microsoft Purviewって何?」といったところから始めようと思います。 Microsoft Purviewとは? 期待される効果 どんなサービスと連携できる? どんなデータ形式が利用できる? 費用について おわりに Microsoft Purviewとは? Microsoft Purviewの主要システムは、もともと「Azure Purview」という名称で呼ばれていました。 そこに、Microsoft 365の「コンプライアンスセンター」が統合され、「…
Databricksのことを調べつつ、構成しているものって何?とか思いながら、まとめてみました。 背景・経緯 Databricks Components データ環境の構成要素 背景・経緯 昨年までGoogle CloudでBigQueryを中心にデータ分析基盤を扱っていた 単純な、Storage(データレイク)→DWH→BIだけでは無さそう よりデータ環境の要素を整理して、レイヤーの重なりとそのプロダクトを押さえていきたい Databricks Components Delta Lake Data Lake Table Formats Databricks Lakehouse Delta ta…
AWS分析環境構築メモ S3 S3の料金計算をもとに検討内容を確認 https://calculator.aws/#/addService/S3 リージョンはどうなるか? どのストレージを使う? https://aws.amazon.com/jp/s3/storage-classes/ ↑の S3 ストレージクラスのパフォーマンスを見て判断する S3 Management and Analytics s3に置いたオブジェクトからダッシュボードを出すらしい https://aws.amazon.com/jp/blogs/news/s3-storage-lens/ S3 Object Lambda…
これは、なにをしたくて書いたもの? Trinoから、Amazon S3のようなオブジェクトストレージにアクセスしてみたいな、ということで。 今回はAmazon S3互換のオブジェクトストレージであるMinIOを使って、Trinoからアクセスしてみたいと思います。 MinIO | High Performance, Kubernetes Native Object Storage TrinoからAmazon S3のようなオブジェクトストレージにアクセスするには、Hive connectorを使うとよさそうです。 Hive connector — Trino 393 Documentation H…
概要 AutoML Vision Apache Hadoop BigTable 何百万台ものコンピュータのCPUとメモリの使用量を時系列で保存したい BigTableのクラスタサイズを増やすタイミングが知りたい パフォーマンスのボトルネックがある場合 Bigtable インスタンスを作成した後にストレージを変更したい 行キーのベストプラクティス バッチ分析ワークロードを他のアプリケーションから分離する BigQuery バックアップ パフォーマンス BigQueryのレガシーSQL TABLE_DATE_RANGE関数 非正規化 リージョン/マルチリージョン CSV読み込み時の注意 クォータを…