2024-04-28

[] 暗黙の集計

プロットライブラリデータフレームライブラリデータベース、などが集計関数を用意している。

例えばある場所ではプロットライブラリの集計を使っているが、別の場所ではデータベースで集計してからプロットするということがあるだろう。

そうするとどういうわけか計算が合わなくなるのである

ライブラリが内部でどういう処理をしているかブラックボックスであるため、これは問題である

ライブラリの集計関数を使う場合テスト用のデータを用意しておき、集計値が一致するかを確認するのがまず必要

次に集計方法バラバラでなく揃える必要がある。プロットライブラリに集計させるより、データフレームに集計させてそれをプロットしたほうが良い。

またデータフレームにおいても、groupbyとpivot_tableで集計の扱いに差があったりする。

これらの差が生じる一つの理由はNullやdatetimeに対する処理の違いだったりする。

暗黙の集計に対応するのは大変なので、テストデータに対する集計が正しいバリエーションを選び、その方法で全部揃えたほうが良い。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん