#parquet #pyarrow #bugs
Удалось выследить очень противный баг в pyarrow (а именно этот движок использует по умолчанию пандас при чтении паркета).
При чтении больших файлов со смешанными типами столбцов расходовалось памяти вдвое больше, чем надо, причём не релизилось. Настоящая утечка. На Винде точно есть, про никсы не знаю.
Я его видел ещё год или два назад, не стал репортить, думал, и без меня починят.
https://github.com/apache/arrow/issues/38736
Удалось выследить очень противный баг в pyarrow (а именно этот движок использует по умолчанию пандас при чтении паркета).
При чтении больших файлов со смешанными типами столбцов расходовалось памяти вдвое больше, чем надо, причём не релизилось. Настоящая утечка. На Винде точно есть, про никсы не знаю.
Я его видел ещё год или два назад, не стал репортить, думал, и без меня починят.
https://github.com/apache/arrow/issues/38736
GitHub
Memory leak on Windows when reading parquet with mixed dtypes via Pyarrow · Issue #38736 · apache/arrow
Describe the bug, including details regarding any error messages, version, and platform. I've been noticing a memory leak for several years now. When reading a big parquet file, pyarrow lib or ...