Apache Spark

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

MicroAd Developers Blog•1ヶ月前

Spark Connectの検証における知見と課題

マイクロアドでサーバーサイドエンジニアをしている高橋です。 PySpark x Spark Connectの検証によって知見が溜まってきたので共有します。検証に至った経緯は別の記事で紹介しています。 developers.microad.co.jp Spark Connect関連の情報は検索してもまだ少なく、試行錯誤しながら進めています。この記事が少しでも参考になれば幸いです。構成知見 Spark Connect server起動時にオプションを全て渡さなければならない Decimal型の列同士の四則演算で精度が変わる Hiveのクエリ・UDFが使える課題点構成今回想定する構成は…

#Python#Pyspark#Apache Spark#Kubernetes

ネットで話題

235ブックマーク Apache Spark による推薦システム案件例

speakerdeck.com

231ブックマーク「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

www.publickey1.jp

214ブックマーク Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

kimutansk.hatenablog.com

137ブックマーク Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

www.intellilink.co.jp

116ブックマーク Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）

www.publickey1.jp

109ブックマーク Apache Spark の紹介（前半：Sparkのキホン）

www.slideshare.net

98ブックマーク Apache Spark チュートリアル

www.slideshare.net

91ブックマーク Apache Spark™ - Unified Engine for large-scale data analytics

spark.apache.org

74ブックマーク Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など

www.publickey1.jp

関連ブログ

神戸のデータ活用塾！KDL Data Blog•1年前

AWS Glueを使ってみた！～環境構築・実行編～

こんにちは！Dataintelligenceチームの垣内です。本連載ではAWSの分散処理サービスである「AWS Glue」を使って、分散処理を実行してみます！第一回目の「サービス調査編」を見られたい方は、こちらからご覧ください！ kdl-di.hatenablog.com 今回は、ローカルでの開発方法をご紹介します。アーキテクチャのおさらい compose.yamlの修正 ①ファイル名の変更 ②S3コンテナ init.shの作成 yamlの修正～LocalstackでAmazon S3を立ち上げる～ Localstackの起動初期スクリプトをマウントする ③Glueコンテナ yamlの修…

#AWS#Amazon S3#AWS Glue#Spark#Apache Spark#Docker

バイセル Tech Blog•1年前

Databricks ＋ BigQueryでSSOTを実現しようとしている話

テクノロジー戦略本部データサイエンス部の近藤です。バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、新たにDatabricksの導入を決めました。バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとはバイセルの今の課題と…

#データサイエンス#BigQuery#Databricks#SSOT#Apache Spark

AOEの日記•2年前

PySparkでコントロールブレイク処理

お題は次のエントリです。 gonsuke777.hatenablog.com 上記エントリではいわゆるコントロールブレイク処理（ソート済みのレコードを読み込み、キー項目ごとにグループ分けして行う処理のことでキーブレイク処理と呼ぶことも）を 1 本の SQL でスマートに行っています。これと同じことを PySpark でやってみるという話です。次のような CSV ファイルを用意しておきます。 sales_date,jan_code,sales_cnt 2014/10/06,AAA,100 2014/10/07,AAA,200 2014/10/08,BBB,100 2014/10/09,BBB,…

#Pyspark#Apache Spark

AOEの日記•2年前

PySparkでの時刻変換色々

最近はデータエンジニアリングのお仕事がメインで、もっぱら PySpark を触っています。自分向けの備忘録的も兼ねてちょいちょい blog に tips を書いていきたいと思います。今回は時刻変換に関するもの。タイムゾーン付き日付文字列をパースしてtimestamp型に変換基本は to_timestamp 関数を使います。 from pyspark.sql.functions import col, to_timestamp df = spark.createDataFrame([('2021-05-16T23:03:49.220Z',)], ['str_datetime']) df …

#Pyspark#Apache Spark

dshimizu/blog/alpha•2年前

Apache Spark のクラスターを Standalone Mode で動かしてみる

はじめに Apache Spark のクラスターモードを動かしてみたく、 Standalone Mode で動かしてみた。

#Apache Spark

dshimizu/blog/alpha•2年前

macOS で PySpark を試す

はじめに PySpark がどんなものかまずはざっくり把握したく、macOS で触ってみたかったのでやってみた。

#Apache Spark

dshimizu/blog/alpha•2年前

Apache Spark のクラスターモードと YARN で動く際の概要についてちょっと調べたメモ書き

はじめに Spark を Hadoop の基盤で動かしてみて、そもそもどういう仕組みで動いているんだろうか、と気になったので調べたことのメモ。 spark.apache.org spark.apache.org

#Apache Spark

Tech news•3年前

RAPIDS Accelerator for Apache Spark v21.06 がリリース

RAPIDS Accelerator for Apache Spark v21.06 がリリースされました。 developer.nvidia.com RAPIDS Accelerator for Apache Spark は NVIDIA の GPU を Apache Spark から活用できるようにするためのライブラリになります。大規模なデータセットに対する演算では、GPU を使用することで処理時間の削減が期待されます。Databricks の環境では、GPU を使用することで ETL 処理が 3.8 倍高速化され、コストは 50% 削減されるそうです。 (出典：https://nvidi…

#Apache Spark#NVIDA

every Tech Blog•3年前

Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計

Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか？ Delta Lakeは、Apache Sparkを利用したLakehou…

#データウェアハウス#Spark#Databricks#Lakehouse#Apache Spark

たけぞう瀕死ブログ•4日前

Apache Spark徹底入門

Apache Spark徹底入門作者:Jules S. Damji,Brooke Wenig,Tathagata Das,Denny Lee翔泳社Amazon 翔泳社さんの徹底入門シリーズですが、オライリーのLearning Spark 2nd Editionの邦訳のようです。以前原著を読んだ時にレビューを書いたのですが、Sparkを触るならまずこれを読んでおけば間違いないという素晴らしい入門書でした。 takezoe.hatenablog.com 原著が出版されたのが2020年でだいぶ時間が経ってしまっているのですが、日本版では独自に最新の情報が追加されているようです。目次からわかる範囲では…

フレクトのクラウドblog re:newal•15日前

認証プロバイダ Keycloak の手元テストでコストパフォーマンス最強となった AWS Graviton3

みなさんこんにちは。エンジニアの佐藤です。今回はAWS製プロセッサGraviton3の強さを再確認した、というお話です。難しい！今時のEC2インスタンス選び AWS EC2にはさまざまな種類のインスタンスがあります。本稿執筆時点(2024年4月初旬)では、最新世代のCompute Optimizedタイプのインスタンスとして以下の3種類が利用可能です。種類プロセッサ一般利用開始アーキテクチャ C7g AWS Graviton3 2022-03 arm64 C7i Intel 4th gen Xeon 2023-09 x86_64 C7a AMD 4th gen EPYC 2023-1…

APC 技術ブログ•16日前

DatabricksのUnity Catalogによって管理されるデータをDelta Sharingで共有してみる

はじめに GLB事業部 Lakehouse 部のメイです。この記事では Databricks の Unity Catalogで管理されるデータを Delta Sharingで共有する方法を紹介致します。デルタテーブル内である全体のデータまたはチェンジデータフィード (Change Data Feed) を REST API で取得し、Pandas を利用してCSVで保存する検証を共有します。目次はじめに目次 Delta Sharing とは Provider側のアクセス管理 Recipient (データ受領者) 側で REST API を利用する変更データのみ取得する Delta …

テクテク日記•20日前

Microsoft Fabric Community Conferenceまとめ

米国時間、2024年3月26日から28日まで、ラスベガスで開催されたFabric Conference（略称：FabCon）に参加しました。FabConはMicrosoft Fabricに焦点を当てた初のカンファレンスであり、その内容について紹介したいと思います。下記動画は、FabConでのエキサイティングなシーンをまとめたもので、世界中でFabricに興味を持つ約4,000人の参加者が集まったイベントです。 youtu.be

nozakitakahirokunのブログ•1ヶ月前

AWS Certified Data Engineer - Associate(DEA-C01)試験対策資料

内容試験には次の内容ドメインと重み付けがあります。ドメイン 1: データの取り込みと変換 (34%) ドメイン 2: データストア管理 (26%) ドメイン 3: データの運⽤とサポート (22%) ドメイン 4: データセキュリティとガバナンス (18%) ドメイン 1: データの取り込みと変換 1.1: データの取り込みを実⾏データを取り込むAWSサービスのスループットとレイテンシの特性 Kinesis Data Streams - TB/時のスループットで、数十万のソースから大量のデータを取り込むことができます。データは1秒以内に処理できるため、待ち時間が短くなります。KCLま…

kmuto’s blog•1ヶ月前

OpenTelemetry Collector Contribを眺めてみる - receiver編

OpenTelemetryブームなので、実際今Collectorでどこまですぐに（何かを自作せずに）監視したいもの、特にミドルウェアまわりが見られるのか、というのを把握しておこうと思う。 opentelemetry-collector-contribリポジトリのまずはreceiverを一覧してざっとREADMEを見て回るところから始めた。 github.com 箇条書きのalpha、betaといったものは安定度（stability）で、development→alpha→beta→stableというステージになっているとのこと。実際のところcontribにあるものでstableなものはなく、d…

sou (08thse) のはてなブログ•1ヶ月前

[Azure] 結構たくさんのサポート終了が発表されました

Azure Update を眺めていたところ、結構たくさんのサポート終了アナウンスが発表されていましたので、一通りリストアップしてみました。なお、日付は US 時間の日付です。一個目の「Retirement: Support for .NET 7 ends on 14 May 2024—upgrade your Azure Functions resources to .NET 8」はサポート終了日が 2024/5/14、二個目の「Azure Synapse Runtime for Apache Spark 3.2 End of Support」はサポート終了日が 2024/7/8 と間近な…

yikegaya’s blog•1ヶ月前

NVIDIA製GPUの周辺ソフトウェアとコミュニティを調べてみた

Rebuildfm聴いてたらNVIDIAの決算の話題があり、GPUそのものだけでなくサポートやコミュニティがあるので強い。的な話をされており気になったのでソフトウェア開発やコミュニティなどNVIDIA製GPUの周辺事情について調べてみました。 rebuild.fm NVIDIAの提供するソフトウェア CUDA 2006年からCUDAというコンパイラやライブラリを含んだCPUプログラミングの開発プラットフォームを提供しておりここに依存したエコシステムが出来上がっているようです。物理的にGPUを開発しても付随するソフトウェアがないと開発ができないのでCUDAを開発していることはかなり強みということ…

NRIネットコムBlog•1ヶ月前

AWS Certified Data Engineer - Associate(DEA)の学習方法

小西秀和です。この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。重複する内容については省略していますので、併せて元記事も御覧ください。また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…

サーバーワークスエンジニアブログ•1ヶ月前

【初級編】 Amazon EMRとはなんぞや？（概要と他社SaaS比較）

こんにちは、近藤（りょう）です！社内で複数の近藤さんがいますので識別するために（）付きにしています。ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます～！ EMRとは？ Hadoop, Spark, Hive, Presto などのオープンソースフレームワークを使⽤したペタバイトスケールのビッグデータ分析が可能なAWSサービスです。データ処理以外にも相互分析、機械学習を行なう業界をリードするクラウドビッグデータソリューションとなります。参考 aws.amazon.com EMRで利用…

APC 技術ブログ•2ヶ月前

私がDatabricks Data Engineer Professionalに合格した方法

はじめに GLB事業部Lakehouse部の阿部です。先日、Databricksの認定資格であるData Engineer Professionalに合格しました。 credentials.databricks.com 本記事では、試験の概要と試験対策についてAssociateとの比較も含めて述べております。 Data Engineer Associate合格に向けた試験対策については、以下のブログに記載しております。こちらも見ていただけると幸いです。 techblog.ap-com.co.jp 目次 Databricks Data Enginner Professional（DDEP）と…

kaeken(嘉永島健司)のTech探究ブログ•2ヶ月前

Azure Products 一覧まとめ

overview products AI and Machine Learning - Azure Services | Microsoft Azure Azure Analytics Services | Microsoft Azure Azure Compute—Virtualization and Scalability | Microsoft Azure Azure Databases - Types of Databases on Azure | Microsoft Azure Developer Tools | Microsoft Azure DevOps Technologies…

Sansan Tech Blog•2ヶ月前

AWS Glueを使ってバッチ処理を60倍高速化した話

初めまして、技術本部Digitization部データ化グループ所属の高田です。今回はAWS GlueのJobを使ってバッチ処理を60倍高速化した話をします。この記事は以下の内容を共有しています。 AWS Glueの概要とメリット Apache Sparkの概要とメリット Pythonを使ったAWS Glue ETL Jobの書き方（一例）

QuestforKnowledge’s blog•2ヶ月前

『データサイエンスの新時代：未来を創る知識と技術』第5回：データサイエンスのツールと技術～データの探求者たちへの武器～

データサイエンスとその重要性データサイエンスは、データの収集、処理、分析を通じて洞察を得る学際的な分野です。ビジネス、科学、政府政策など多くの分野において重要な役割を果たしており、データ駆動型の意思決定を可能にします。データサイエンスにおける主要ツールプログラミング言語: PythonとRはデータサイエンスに広く使われています。Pythonはその汎用性と豊富なライブラリで人気があり、Rは統計分析とデータの可視化に特化しています。データクレンジングツール: データのクリーニングや前処理には、PandasやApache Sparkなどが使われます。ビジュアライゼーションツール: Tabl…

IT技術紹介•2ヶ月前

プログラミング言語：JAVA

※プロモーションを含んでいます Javaは、広く使われているプログラミング言語の一つであり、多くの開発者や企業によって信頼されています。この記事では、Javaの特徴、主な用途、そして将来性について解説します。 Javaの特徴プラットフォームの独立性: Javaは、プラットフォームに依存しないプログラムを開発することができます。つまり、Javaで開発されたアプリケーションは、Windows、Mac、Linuxなど、さまざまなオペレーティングシステム上で動作します。オブジェクト指向プログラミング: Javaはオブジェクト指向プログラミング言語であり、クラスやオブジェクトを使ってプログラムを構築…