Aspiring Data Science
370 subscribers
425 photos
11 videos
10 files
1.88K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#polars #parquet #arrow

Практическое наблюдение: не надо категорийные столбцы с высокой кардинальностью сохранять в паркетный формат именно в виде категориек. Кто-то из цепочки polars-arrow-parquet жёстко лажает, и без причины может раздуть размер файла в сотни раз.

используйте хотя бы

df=df.with_columns(pl.col(pl.Categorical).cast(pl.Utf8))


перед сохранением на диск.