最近はデータエンジニアリングのお仕事がメインで、もっぱら PySpark を触っています。 自分向けの備忘録的も兼ねてちょいちょい blog に tips を書いていきたいと思います。 今回は時刻変換に関するもの。 タイムゾーン付き日付文字列をパースしてtimestamp型に変換 基本は to_timestamp 関数を使います。 from pyspark.sql.functions import col, to_timestamp df = spark.createDataFrame([('2021-05-16T23:03:49.220Z',)], ['str_datetime']) df …