データサイエンスグループでエンジニアやっています 竹野です。 本日は先日登壇したDataOps Nightについて参加報告させていただきます。 DataOps Nightについて finatext.connpass.com 「データガバナンス」や「アナリティクスエンジニアリング」、「DataOps」といったキーワードは近年注目の大きい分野となり、イベントも盛んに行われるようになりました。 DataOps Nightもその一つで、そのテーマに「データ品質の向上に取り組むエンジニアを集めて知見を共有する勉強会」を掲げています。 データを溜めるだけではなく活用するところにまで踏み込んでいくためには、…
BIツールって何?って感じになったので 今日はBIツールについて調べていきます。 BI(Business Intelligence)ツール BIツールは、 企業に蓄積された大量のデータを集めて分析し、可視化するツールのことです。 経営管理や売上のシュミレーションなどに活用され、近年導入する企業が増えています。 メリットとしては、 ・レポート作成が短時間で出来ること ・膨大な情報の分析を素早く行えること ・専門家でなくてもデータ分析が可能なこと が挙げられます。 データウェアハウス ウェアハウスとは「倉庫」という意味です。 データウェアハウスは、業務でさまざまなデータを時系列で保管したものです。…
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehou…
「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリュー…
はじめに AI関数を試してみる AIClassify 構文 実行例 実行結果 AIExtract 構文 実行例 実行結果 AIReply 構文 実行例 実行結果 AISentiment 構文 実行例 実行結果 AISummarize 構文 実行例 実行結果 AITranslate 構文 実行例 実行結果 おわりに はじめに Power Appsにいつの間にか新しいAI関数が追加されていました! learn.microsoft.com 今回紹介するのは、以下6つの関数です。 AIClassify AIExtract AIReply AISentiment AISummarize AITransl…
今週から Google Cloud NEXT 24 が始まってて読む記事が増えそうな予感 Kedroを使って感じたこと - Insight Edge Tech Blog Kedro は初めて知った。こういうのもあるんだねえ でも Vertex AI Pipelines だと GCS にファイル吐き出せなかったっけ? これでもよかったのでは? と思った(あんま ML やらないから確信はないけど) Devin を含むAIソフトウェアエンジニアと周辺技術のざっくり紹介 - Algomatic Tech Blog 結局、自然言語で要求を定義できるスキルは人間に必要らしい。そんなことくらい汲み取ってくれ…
はじめまして!4月に G-gen に入社した奥田梨紗です。この度 Google Cloud Next '24 in Las Vegas で発表された Gemini in BigQuery を試してみたので手順等をご紹介します。 はじめに Gemini in BigQuery とは 試したこと Google Cloud 側へ利用申請を行う BigQuery キャンバスを作成 Gemini in BigQuery を用いて SQL やグラフを作成 例1: 特定の数値でデータを分類する 例2: 分類分け 例3:グラフを作成 関連記事 はじめに Gemini in BigQuery とは Google…
Data Engineering Study #23 Data orchestration 特集の発表「ワークフローオーケストレーション入門」から、ワークフローオーケストレーションの歴史について記事にまとめました。 概要 近年データエンジニアリングの周辺技術が話題に上がるようになり、ワークフローオーケストレーションが注目を集めています。 workflow orchestration関連語のGoogle Trend 上図はワークフローオーケストレーションの関連ワードのGoogle Trendです。 データオーケストレーションを中心として、ワークフローオーケストレーション関連語の検索数が上昇傾向に…
データ指向アプリケーションデザイン 第I部 データシステムの基礎を読んだ - $shibayu36->blog; の続き。今回は第Ⅱ部を読んだ。長いし難しいが勉強になる。 今回はクオラム、並行操作の検知、パーティショニングとセカンダリインデックス、スナップショット分離、さまざまな課題が合意の問題に帰結する話あたりが面白かった。 データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理作者:Martin KleppmannオライリージャパンAmazon 読書ノート ### 5章 レプリケーション - 同期型と非同期型レプリケーション 4001 - 同期型レプリケー…
Software Design 2024年04月号を読んで、ちょこっとずつ感想を書いてます。 gihyo.jp 表紙 新年度にふさわしい爽やかなグリーン…! 第1特集 新年度のはじまりに学ぶ! Linux基礎知識60 あなたの実力をチェックしてみよう Introduction:Linux基礎知識チェックリスト ......編集部 うわあ…自信ないw 結構知らない単語が…。 LVM、UsrMerge、CGroups、runuserコマンド、NetworkManager、Netplan 名前だけとか、説明できそうもないのも結構…。 でも、なんとなくでも目を通しておけば、ちゃんと役立ちそうで、期待……
米国時間、2024年3月26日から28日まで、ラスベガスで開催されたFabric Conference(略称:FabCon)に参加しました。FabConはMicrosoft Fabricに焦点を当てた初のカンファレンスであり、その内容について紹介したいと思います。下記動画は、FabConでのエキサイティングなシーンをまとめたもので、世界中でFabricに興味を持つ約4,000人の参加者が集まったイベントです。 youtu.be
主に一般向け製品やサービスを提供している企業等からのリリース、お知らせを不定期に収集しています。対象企業は徐々に数を増やしていく予定です。キャンペーン情報、イベント情報等の関連する情報も掲載しています。 ランキング参加中インターネット Hamee 2024-04-02 多機能充電タップ「humor handy Plus」からノスタルジーを感じるスケルトンカラーが登場!アラサー世代には懐かしく Z世代には新しい平成レトロ製品を展開 ~2024年4月2日(火)よりオンライン予約開始~ 楽天市場 Amazon Yahoo! LINEヤフー 2024年4月2日 Yahoo!カーナビ、「マイカー登録」を…
株式会社エイトハンドレッド テクノロジー本部 データエンジニアの三宅です。 普段、業務で分析システムの論理設計をどのように進めているでしょうか? 分析システムでよく採用される設計手法にディメンショナル・モデリングがあります。 ディメンショナル・モデルをデータアーキテクチャに組み込むことにより、分析システムのパフォーマンスとメンテナンス性を高め、これまで以上に柔軟に分析を進めることができるようになります。 本日は、ディメンショナル・モデリングの進め方 前編として、ディメンショナル・モデルとはどんなものか、データアーキテクチャにどのような戦略でディメンショナル・モデルを組み込んでいくか、プロジェク…
内容 試験には次の内容ドメインと重み付けがあります。 ドメイン 1: データの取り込みと変換 (34%) ドメイン 2: データ ストア管理 (26%) ドメイン 3: データの運⽤とサポート (22%) ドメイン 4: データ セキュリティとガバナンス (18%) ドメイン 1: データの取り込みと変換 1.1: データの取り込みを実⾏ データを取り込むAWSサービスのスループットとレイテンシの特性 Kinesis Data Streams - TB/時のスループットで、数十万のソースから大量のデータを取り込むことができます。データは1秒以内に処理できるため、待ち時間が短くなります。KCLま…
スタースキーマ 1つのファクトテーブルとそれに関連付けられた複数のディメンションテーブル データマート データウェアハウスの一部を切り出して格納 SQL UNIQUE制約:データの更新、追加の際に重複する行がないようにする制約。NULL大丈夫 GRANT文:権限を与える UNION:表の和演算 ATTER USER文:パスワードの設定 CASCADE:参照先の行が削除されたら参照元も削除 SET NULL:参照先削除されたらNULLにする RESTRICT:参照規約性を損なう変更の禁止 導出表:1つ以上の表に演算を行い得られた表全般、実データは持たない ビュー:作成することでセキュリティの向上…
データ分析の話題に関連して、データレイクやデータウェアハウスといった単語を聞くことがあります。以前、聞いて調べたこともあるのですが、いまいちピンとくる説明が見つかりませんでした。今は、以前と比較して「データレイクやデータウェアハウスって、こういうこと?」と言う理解が進んできました。今回は、現時点の知識を元に当時の私が知りたかった情報を説明してみます。
本記事では、データエンジニアリング初学者の学習記録として、データエンジニアリングの概要から実践までの内容をまとめています。 今回は前編として、データエンジニアリングおよびAzure Data Factoryについてご紹介します。 データエンジニアリングとは? データエンジニアリングの必要性 データエンジニアリングのプロセス Azure Data Factoryについて 実践するシナリオについて おまけ:ダミーデータを用意する ユーザー情報の作成 Power Platform監査ログの作成 まとめ データエンジニアリングとは? データエンジニアリングはデータサイエンティスト協会が定義している3つ…
最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていない データ分析基盤まとめ(随時更新) などもあり大変参考にさせていただきました。ありがとうございます。 はじめに データエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engi…