r0w0

PythonやDeepLearning関連で学んだこと、調べたことの備忘録

parquetの中身を閲覧

閲覧方法

こちらの記事を参考にさせていただいた。 ※一部、Docker for Windows仕様に書き直している

# imageの取得
docker pull nathanhowell/parquet-tools   
# dirをマウントし、配置したparquetファイルの中身を表示
docker run -v D:\Programs\cur_dir:/parquet-mr/parquet-tools nathanhowell/parquet-tools head /parquet-mr/parquet-tools/someghing.parquet

背景

データエンジニアのような仕事も増えてきたので、AWSについて触ってみている。 AWS Glueで適当な複数のJSONをDynamicFrameとして読み込み、1行1レコードとなるよう配列をExplodeしたうえでparquetとして保存したとき、複数のparquetが出力された。 1parquet1レコードなのか、1parquet1JSONファイルなのか、適当なサイズごとにファイルが分かれて保存されているのか分からず、中身を除きたくなった。 ※AWS Glueのスクリプト

結果

1つ目のJSONファイルに対応する内容が1つ目のparquetに保存されていた。 ドキュメントによると、Parquetの変換は小さなファイルのグループ化はサポートしていないらしい。

適度なサイズのオブジェクトにグループ化しないと、オブジェクト読み込みのオーバーヘッドが大きくなってしまうと良く聞く。今回のケースだと、CSVで小さなファイルのグループ化を行ったうえで、parquetに変換することになるのだろうか?