Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:
- Если раньше pandas работал только поверх
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
- Если раньше pandas работал только поверх
numpy
, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
int64
, uint64
, float64
), но и любых других числовых типов - У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
dtype="datetime64[s]"
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
datapythonista blog
pandas 2.0 and the Arrow revolution (part I)
Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...
This media is not supported in your browser
VIEW IN TELEGRAM
Релиз NumPy 2.0.0
16 июня 2024 года состоялся релиз стабильной версии Python-библиотеки для научных вычислений #NumPy 2.0.0. Это первый значительный релиз открытого проекта с 2006 года.
По информации OpenNET, наиболее крупное нарушение совместимости в релизе NumPy 2.0.0 связано с сохранением точности скалярных выражений, например, "np.float32(3) + 3" теперь вернёт значение с типом float32, а не float64, а в выражениях с несколькими типами для результата будет использован тип с наивысшей точностью, то есть "np.array([3], dtype=np.float32) + np.float64(3)" вернёт значение с типом float64.
https://t.me/dataexplorers/332 #release
16 июня 2024 года состоялся релиз стабильной версии Python-библиотеки для научных вычислений #NumPy 2.0.0. Это первый значительный релиз открытого проекта с 2006 года.
По информации OpenNET, наиболее крупное нарушение совместимости в релизе NumPy 2.0.0 связано с сохранением точности скалярных выражений, например, "np.float32(3) + 3" теперь вернёт значение с типом float32, а не float64, а в выражениях с несколькими типами для результата будет использован тип с наивысшей точностью, то есть "np.array([3], dtype=np.float32) + np.float64(3)" вернёт значение с типом float64.
https://t.me/dataexplorers/332 #release