アイキャッチ画像 はじめに こちらはバイセルテクノロジーズAdvent Calendar 2023の7日目の記事です。 前日のバイセル アドベントカレンダー2023は小松山さんの「Cloud RunのDirect VPC Egressを使おうとして断念した」でした。 こんにちは。テクノロジー戦略本部、開発一部に所属している那仁です。 2023年に新卒入社し、買取管理システムGYROというサービスを開発・運用しています。 私は2023年の夏頃、GYROで利用されていたDataflowをBigQueryサブスクリプションに移行するプロジェクトを進めていました。 今回は、その過程や移行してみてどうだ…
拡張コンピューティング エンジンデータフローシリーズの最後として、実際にデータフローの運用シナリオについて見ていきたいと思います。複数の選択肢があると思いますが、どのように選択するかはライセンスの種類や企業内部のポリシーに従うものとなります。なお、本記事で紹介する例はあくまで参考程度にしていただき、実際の運用はこれまでのシリーズを参考にベストな手法を取って頂くのが良いかと思います。 過去記事(データフロー)データフロー(Power Query Online)①_基礎知識 - テクテク日記データフロー(Power Query Online)②_簡単なデモ - テクテク日記データフロー(Power…
前回は、Premium環境におけるデータフローの機能について説明しました。今回は、1つのデータフローから別のデータフローを構築する場合の留意点について見ていきたいと思います。シナリオをいくつか準備したので、1つずつ見ていきます。
データフローに関して、前回から少し間が空いてしまいましたが、データフローを通常(Premium)に運用する際のことについて、留意点も含め記載しておきたいと思います。これまでの話では、データフローは ステージングクエリ(ストレージ)であり、ソースシステムへの負担を減らす働きがあるミニデータマートのような存在 Power BI Premium (PPC = Premium Per Capacity) or PPU (Premium Per Uer)を使用して初めて威力が発揮される 個ではなく組織での共有を目的とする コードベースで開発され、UIはモダンPower Queryであり、ExcelやPo…
以前のブログでデータフローの更新について紹介しました。更新履歴を可視化したpbixについて具体的に解説しませんでしたが、今回はこれについて少し改善された点も含めて簡単に紹介したいと思います。
データフローのシリーズは前回に続き、もう少し続きます。データフローはPower BI Pro、もしくはPremium(PPC、もしくはPPU*1)でしか使えませんので、通常よりも追加コストが掛かってしまいます。そこで今回はPower BI Proだけで運用する場合のやり方を紹介したいと思います。なお、現在はPower BI FreeからPower BI Proへのトライアル(60日間有効)を行おうとすると、自動的にPremium Per Userの機能も付随された状態となりますので、本記事は毎月Power BI Pro(下図例)で運用をされる方を対象としています。 *1:PPC = Premi…
前回はデータフロー(Power Query Online)の便利なショートカット等について触れてきました。データフローはPower Queryと同じ体験ですが、クラウドサービスということで料金の問題であったり、使い勝手がデスクトップ版のPower Queryと異なったりすることがあります。使いこなせるようになると非常に便利ですが、今回はデータフローの気になるポイントをまとめてみました。
前回はデータフローの基礎及び簡単なデモを紹介しましたが、今回はそれをより使いやすくするためのTipsについて少し紹介したいと思います。前回もお話をしましたが、データフロー(Power Query Online)はモダンUIがベースとなっており、こちらはいずれPower BI DesktopのUIにも搭載されることになるため、Power Query Onlineを今のうちに使い慣れておけば、そうなった際の”ネガティブ・サプライズ”を避けることができるはずです。 まずは簡単なデモからスタートします。
前回はデータフローの概要について話をしましたが、今回はもう少し掘り下げつつ、実際にハンズオンで構築してみたいと思います。データフローのユースケースは前回少し話をしましたが、個人+組織の両方で活用を広げていくことが目的となります。データフローに限らず、Power BI Desktopで作ったレポートをPower BIサービスに発行してレポートを共有すること自体、チームコラボレーションを実現するものとなりますが、データフローに関してはスケジュール更新やステージングクエリ*1を構築することでクエリのパフォーマンスを最適化させることを目的としています。 *1:ソースデータを変換プロセスを経てデータモデ…
ExcelやPower BI Desktopに搭載されているセルフサービスETL*1機能であるPower Queryは本ブログで何度も紹介してきました。Power Queryはローカル環境で作業するのに最適で、特にスペックの高いPCを使っている場合、メモリフットプリントを最小化して処理を行う特性により、殆どの場合ストレスなく"データをマッサージ"することができます。 一方で、クラウドサービスとしてのPower Query、すなわちPower Query Online(別名「データフロー」)も提供しており、今回はこちらについて数回に分けて紹介していきたいと思います。データフローの使い方について、…
時間のない人向け はじめに 結果どうだった? 作業環境 周辺環境 食事環境 香雅 珈香和cocowa Tearoom Ciffon 参考 その他感想など 生活リズム 気になったところ・注意した方が良いところ まとめ 時間のない人向け Otellを使って4泊5日のワーケーションに行ってきた ワーケーションに適した作業環境がきちんと揃っていた 温泉や周辺の自然でリフレッシュできた 食事には少し困るが事前に調べてから行けば問題ない また他の場所にも行ってみたい はじめに 去年9月に現職に転職した後3月に大きめのリリースを終えて、ゆっくりと気分転換をしたくなり、4月中旬に以前から気になっていたワーケー…
こんにちは!エンタープライズクラウド部クラウドコンサルティング課の日高です。 もし私のことを少しでも知りたいと思っていただけるなら、私の後輩が書いてくれた以下のブログを覗いてみてください。 sabawaku.serverworks.co.jp 今回は、AWS Healthの重要度が高いイベント について調査をしてみたので記載していきます。 はじめに 結論 調査内容 全体像 AWS Healthのイベントの形式と種類について イベントのリクエスト構文 イベントタイプの構文 eventTypeCategoriesの種類 eventTypeCodesとservicesの種類 重要度が高いAWS He…
pre-amble setup Spanner Spanner とは sample DB + backend outputs Change stream Change stream とは Change stream の作成 outputs Dataflow の作成 BigQuery dataset (in other project) の作成 Service Agent への権限付与 「まじか」ってなったところ outputs 調べもの Dataflow job > "metadata instance ID" "metadata database" とは?? Change stream: e…
「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリュー…
G-gen の西島です。本記事は Google Cloud Next '24 in Las Vegas の2日目に行われた Breakout Session「What's new with BigQuery」のレポートです。 他の Google Cloud Next '24 の関連記事は Google Cloud Next '24 カテゴリの記事一覧からご覧いただけます。 セッションの概要 BigQuery data preparation(Preview) BigQuery workflows(Preview) BigQuery continuous queries(Preview) Cro…
米国時間、2024年3月26日から28日まで、ラスベガスで開催されたFabric Conference(略称:FabCon)に参加しました。FabConはMicrosoft Fabricに焦点を当てた初のカンファレンスであり、その内容について紹介したいと思います。下記動画は、FabConでのエキサイティングなシーンをまとめたもので、世界中でFabricに興味を持つ約4,000人の参加者が集まったイベントです。 youtu.be
G-gen の杉村です。2024年3月のイチオシ Google Cloud アップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。 はじめに 放置プロジェクトに対する推奨事項が表示 AlloyDB AI が Preview => GA BigQuery で Amazon S3 に対するマテビュー等が Preview => GA IAM 事前定義ロール一覧ドキュメントの読み込みが高速化 Cloud Run の service レベルで最小インスタンス数を設定可能に 別 GWS アカウントにメールデータを移行(Open Beta) VPC で Internal …
Google Cloud 認定 Cloud Digital Leader 試験の合格を目指す方は、ぜひこれらの 10 のドキュメントを熟読することをおすすめします。ドキュメントをしっかりと理解することで、試験対策を効率的に進め、合格に近づくことができます。 この投稿では、Google Cloud 認定 Cloud Digital Leader 試験を受ける前に読んでいただきたい 10 のドキュメントをまとめました。 Google Cloud Digital Leader 試験について 概要 Google Cloud Digital Leader 試験は、Google Cloud Platfor…
Csol本部所属の福濵です。 本記事では、Microsoft Fabricのデータの取得からグラフ化の一連の手順についてご紹介します。 Microsoft Fabricを学び始めた方に参考にしていただければと思います。 はじめに Microsoft Fabricとは 実装内容 実装準備 実装 データのアップロード データフローの作成 データの準備 データの整形 公開先の指定 データのグラフ化 定期実行の設定 おわりに はじめに Microsoft Fabricとは Microsoft社が提供するクラウドベースのオールインワン統合ソリューションのことです。 SaaS基盤上にPower BI、Az…
はじめに 研修 全体研修 テクノロジー戦略本部の研修 新規APIの実装 やったこと 振り返り インフラサービスの一部移行 24卒内定者インターンのメンター Cosmosとの連携 通期で取り組んでいたこと 問い合わせ対応 イベントワーキンググループでの活動 その他自主的な活動 おわりに はじめに こんにちは!テクノロジー戦略本部、開発3部の那仁です。 バイセルでGYROという買取領域を司るプロダクトの運用に携わってきました。最近はCosmosへの移行を推し進めるためのプロジェクトに参加しています。 私は2023年に新卒でバイセルに入社し、執筆時点ではおよそ1年が経とうとしているところです。 この…
Direct LakeはFabricアイテムであるLakehouseやWarehouseを活用しますが、データがDelta Parquet形式*1となります。Power BIサービスに発行されたセマンティックモデルはインポートモードであることが多いですが、今回はこのインポートモードやDirectQueryモードのセマンティックモデルをDirect Lakeへ移行(マイグレーション)するやり方を紹介します。 なお、今回の方法は前回のOneLake Integrationとは異なり、ショートカットを作るのではなく、Dataflow Gen2を使用してDelta Parquetファイルを作成していく…
xtech.nikkei.com ⇧ 2024年が「閏年」だったということで、システム障害の原因は「閏年」の仕組みに対応できていなかったのが原因ということらしい。 『何をやっとるんだ、君。けっ…けしからんではないか』と、ご立腹される方もおられるかもしれないですが、 xtech.nikkei.com ⇧ 2012年にメジャーどころの「クラウドサービスプロバイダー(CSP:Cloud Service Provider)」である「Microsoft Azure(旧:Windows Azure)」でも、「閏年」の仕組みに対応できずに障害を起こしていたらしいのですよ。 つまり、「閏年」によるシステム障害…
datatech-jpで開催中のFundamentals of Data Engineering (English Edition)読書会に向けた、「Chapter 11.The Future of Data Engineering」のまとめ。 以下は基本的には本文の要約であり、★マークがついている部分は私のコメントや付加情報である。 全体のあとがき/エピローグ的なChapter データエンジニアリングの未来への洞察が語られる(同書が刊行されたのは2022年6月22日) Introduction データエンジニアリングのライフサイクルはなくならないだろう 複雑性は低下し使いやすいデータツールが…
G-gen の杉村です。Pub/Sub の BigQuery サブスクリプションを使うと、Pub/Sub に対して発行したメッセージを簡単に BigQuery テーブルに書き込むことができます。 前提知識 BigQuery サブスクリプションとは テーブルスキーマの利用 テーブルの作成 Pub/Sub トピックの作成 Pub/Sub サブスクリプションの作成 メッセージ送信のテスト BigQuery テーブルの確認 前提知識 BigQuery サブスクリプションとは Pub/Sub は、Google Cloud(旧称 GCP)のフルマネージドなメッセージングサービスです。Pub/Sub の意義…
はじめに ML・データ部推薦基盤ブロックの佐藤(@rayuron)です。私たちはZOZOTOWNのパーソナライズを実現するために、機械学習モデルとシステムを開発・運用しています。本記事ではクーポン推薦のための機械学習モデルとシステム改善に取り組んだ話を紹介します。 はじめに 背景 課題 1. 古い基盤でシステムが運用されている 2. KPIに改善の余地がある 3. 機械学習モデルの評価体制がない 課題解決のために 1. Vertex AI Pipelinesへの移行 2. Two-Stage Recommenderの導入 プロジェクトへの導入 Candidate Generation 1. 過…