#polars #parquet #arrow
Практическое наблюдение: не надо категорийные столбцы с высокой кардинальностью сохранять в паркетный формат именно в виде категориек. Кто-то из цепочки polars-arrow-parquet жёстко лажает, и без причины может раздуть размер файла в сотни раз.
используйте хотя бы
перед сохранением на диск.
Практическое наблюдение: не надо категорийные столбцы с высокой кардинальностью сохранять в паркетный формат именно в виде категориек. Кто-то из цепочки polars-arrow-parquet жёстко лажает, и без причины может раздуть размер файла в сотни раз.
используйте хотя бы
df=df.with_columns(pl.col(pl.Categorical).cast(pl.Utf8))
перед сохранением на диск.