Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:
- Если раньше pandas работал только поверх
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
- Если раньше pandas работал только поверх
numpy
, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
int64
, uint64
, float64
), но и любых других числовых типов - У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
dtype="datetime64[s]"
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
datapythonista blog
pandas 2.0 and the Arrow revolution (part I)
Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...