こんにちは。 エキサイト株式会社の三浦です。 tech.excite.co.jp 以前こちらのブログで、「MySQLにおいて、Indexだけではパフォーマンス改善に限界があり、一定以上複雑なSQLやデータ構造に対してはIndex以外の手段を講じる必要がある」ことを説明しました。 今回は、その方法の1つであるMaterialized ViewをMySQLで実現する方法を説明します。 Materialized Viewとは Materialized Viewとは、SQL実行パフォーマンスの改善等のために作るテーブルのことです。 通常のデータ構造でのIndexだけではパフォーマンス等が改善できないと…
リリースを間近に控えた環境で、2つの MATERIALIZED VIEWの作成で以下のエラーが発生するとの連絡を受けました。 ORA-00600: 内部エラー・コード, 引数: [KGL-heap-size-exceeded], [0x303FBFEA10] 環境は以下の通りです。 Oracle RAC(2ノード) EE 19.9 Oracle Linux 7.9
こんにちは、MLBお兄さんこと松村です。 シカゴ・カブスの今永昇太投手は、ここまで3試合の先発登板でいまだに防御率が 0.00 という、素晴らしい成績を残しています。 今回は Azure Cosmos DB for NoSQL のデザインパターン解説記事の第6弾です。 前回は「イベントソーシング (Event sourcing) パターン」を解説しました。 aadojo.alterbooth.com 今回は「マテリアライズド・ビュー (Materialized View) パターン」について解説をします。 このデザインパターンについては、Cosmos DB の GitHub リポジトリやブログ…
G-gen の杉村です。2024年3月のイチオシ Google Cloud アップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。 はじめに 放置プロジェクトに対する推奨事項が表示 AlloyDB AI が Preview => GA BigQuery で Amazon S3 に対するマテビュー等が Preview => GA IAM 事前定義ロール一覧ドキュメントの読み込みが高速化 Cloud Run の service レベルで最小インスタンス数を設定可能に 別 GWS アカウントにメールデータを移行(Open Beta) VPC で Internal …
小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…
過去の記事でも書きましたが、Oracle Database 23cから従来型監査がサポートされなくなり、統合監査を使用しなければいけなくなりました。 今回は統合監査を使用するために必要な設定や、従来型における標準監査相当を行うための監査ポリシーの作成方法などについて調べてみました。なお、実機調査の際は、Linux x86-64版Oracle 19c(19.22.0)のRAC環境を用いて行いました。
G-gen の杉村です。2023年12月のイチオシ Google Cloud アップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。 はじめに PaLM 2 の Unicorn サイズのモデルが公開(GA) Generative AI on Vertex AI でグラウンディング(Preview) Googleの新生成AIモデル・Gemini(ジェミニ)が公開 Cloud Armor の Managed Protection Plus で PayGo (Preview) Cloud Monitoring のアラートポリシーで重要度を設定できるように Vert…
アプリケーションにおいて高負荷になりやすい処理の一つにレポート・データ集計があります。 リアルタイム性が求められる場合もあれば、ある時点までに集計されたデータを見れればOKなど、要件はさまざまですが、一般的にはデータベースに対して複雑なクエリや複数テーブルに対しての結合を行う必要があります。そのためデータ量に依存しやすく、リリース当初は問題なくレポートが見れていたのに、サービスの運用期間が長くなるとレポートが見えなくなったという話をよく聞きます。 この問題への対処方法の1つとして、データのキャッシュ化が挙げられます。 リアルタイム性は失われてしまいますが、ある時点までの集計がされているデータを…
\dp コマンドは、PostgreSQL のテーブル、ビュー、シーケンスのアクセス権一覧を表示するためのコマンドである。 しかし、PostgreSQL 15 を利用している場合に以下のようなエラーが出て失敗してしまうことがある。 postgres=# \dp ERROR: operator is not unique: unknown || "char" LINE 16: E' (' || polcmd || E'):' ^ HINT: Could not choose a best candidate operator. You might need to add explicit type…
データセットの管理 データセットを作成する プロジェクトの全データセット名をリスト表示 データセットの削除 テーブルの管理 テーブルの作成 テーブルのメタデータの表示 テーブルの削除 テーブルの外部エクスポート ネストされた列と繰り返し列を含むテーブルを作成する ネストされたレコードの挿入 ネストされた繰り返し列(addresses)に対して、特定の位置にある ARRAYの値を取得する テーブルに空の列を追加する テーブルの列の名前を変更する テーブルの列のデフォルト値を変更する 列のデフォルト値を削除する パーティーション分割 (時間単位列)パーティション分割テーブルを作成する (取り込み時…
G-gen の杉村です。Google Cloud のメタデータ管理ツールである Data Catalog を解説します。 概要 Data Catalog とは Data Catalog の機能 データカタログの利点 メタデータとは データ検索機能 検索方法 クエリの構文 メタデータ管理機能 Data Catalog が自動収集するメタデータ Google Cloud 以外のカタログ化 テクニカルメタデータとビジネスメタデータ テクニカルメタデータ ビジネスメタデータ Data Catalog のオブジェクト エントリとエントリグループ Data Catalog におけるタグ データの自動登録 …
Google CloudのDataformがGAになり旧版のDataformも使えなくなるとのアナウンスがあったので、いくつか個人で作っていたプロジェクトを移行し始めた DataformのパイプラインをAPI経由で実行している部分も移行したためそのときに調べたことなどのメモ パイプラインの実行までの流れ 前提の説明 自分が作っているDataformプロジェクトは小さいプロジェクトが多く、処理の起点がWorkflowsなどGoogleCloudのサービスを使わずGitHub Actionsで済ませてしまう場合が多い 具体的にはActionsで次のようなフローでデータマートまでの生成を行っていた …
G-gen の杉村です。2023年8月29日〜31日 (現地時間)、Google Cloud Next '23 が米国・サンフランシスコで開催されました。前回の記事では1日目の発表を扱いましたので、今回の記事ではそれ以外の発表等をご紹介します。 はじめに 開発の効率化 Jump Start Solutions GitLab との提携 Application Integration の GA インフラ C3A / C3D VM Titanium BigQuery と AI/ML BigQuery ML での生成 AI 利用 Feature Store の BigQuery 対応 BigQuery…
はじめに エキサイト株式会社 バックエンドエンジニアの山縣(@zsp2088dev)です。 2022年3月末にエキサイトブログはAzure/SQL ServerからAWS/PostgreSQLの移行をしました。 詳細は下記記事をご参照ください。 優先度の高いAWSへの移行が終わったことで、次点で優先度の高いDBのコスト削減に取り組むことができるようになりました。 tech.excite.co.jp 本記事ではAmazon AuroraのDBのインスタンスサイズを下げるために取り組んできたことについて紹介します。 はじめに 実施内容 既存のクエリーの見直し イベントトリガの活用 マテリアライズド…
はじめに GLB事業部Lakehouse部の鄭(ジョン)です。 Databricks Lakehouse Platformが提供するデモであるdbdemosの中で、dbt jobsの調整と実行をするデモを紹介したいと思います。 www.dbdemos.ai 今回の投稿はdbdemosを初めて使う初心者に参考になるガイドを作成することを目標にしています。 以下の内容は前回の記事に続きます。 techblog.ap-com.co.jp 前回に作成されたフォルダとdbt_c360_gold_churn_featureの作業について学びましょう。 目次 はじめに 目次 dbt jobsの流れ Repo…
はじめに 近年、多くの業界においてDXを進める企業が増加し、ビジネス上の重要な意思決定においてデータの活用と分析の需要はますます高まっていると感じています。 その手始めとして、データ分析用の基盤構築・整備が行われると思うのですが、その際の大変なことの1つとして、集計したいデータが複数のデータソースに存在し、それを定期的に集めてくることの実現ではないでしょうか。 弊社でも最近、データ分析基盤の整備を行いました。その際の上記課題感に対しては、記事タイトルにもあるように、「Fivetran x BigQuery x dbt」といったサービスを組み合わせて解決・実現しました。 なお、弊社のメインサービ…
メタバースプラットフォーム「cluster」のプラットフォーム事業部インフラチームの佐藤です。 clusterではクリエイターの皆様が創造力を発揮できるよう、またユーザーの皆様がよりclusterでの体験を楽しんで頂けるように日々機能開発、改善を行っています。これらの開発、改善を行う際の指標としてWebやアプリでのユーザーの機能の利用状況などのデータ収集を行っています。 このデータ収集基盤は社内では「Panama」というプロジェクト名で運用されています。 様々な場所で発生した大量のデータが集まり、次にデータを必要とするアナリティクスチームなどに届けるための中継点になれるよう、物流の要所であるパ…