ML Career
214 subscribers
121 photos
4 videos
2 files
148 links
Branched from @data_career
Download Telegram
Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:

- Если раньше pandas работал только поверх numpy, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (int64, uint64, float64), но и любых других числовых типов
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа dtype="datetime64[s]"

Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html

Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.

https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
This media is not supported in your browser
VIEW IN TELEGRAM
Релиз NumPy 2.0.0

16 июня 2024 года состоялся релиз стабильной версии Python-библиотеки для научных вычислений #NumPy 2.0.0. Это первый значительный релиз открытого проекта с 2006 года.

По информации OpenNET, наиболее крупное нарушение совместимости в релизе NumPy 2.0.0 связано с сохранением точности скалярных выражений, например, "np.float32(3) + 3" теперь вернёт значение с типом float32, а не float64, а в выражениях с несколькими типами для результата будет использован тип с наивысшей точностью, то есть "np.array([3], dtype=np.float32) + np.float64(3)" вернёт значение с типом float64.

https://t.me/dataexplorers/332 #release