こんにちは!Dataintelligenceチームの垣内です。 前回、公開した「【PySpark】Pythonで分散処理を体験してみよう」では、簡単にPySparkの書き方をご紹介いたしました。 実務でPySparkで分散処理を実行するとなると、クラウドサービスを使うことになると思います。本連載ではAWSの分散処理サービスである「AWS Glue」を使って、分散処理を実行してみます!第一弾の今回は、AWS Glueとはなにか?そしてローカルでの開発方法や開発に使うサービス・ツールをご紹介します。 AWS Glueとは Jobの作成方法 価格 DPUとは Jobの実行時間と料金の注意事項 AWS…