Forwarded from ML Career
Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:
- Если раньше pandas работал только поверх
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
- Если раньше pandas работал только поверх
numpy
, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
int64
, uint64
, float64
), но и любых других числовых типов - У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
dtype="datetime64[s]"
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
https://t.me/tricky_python/118
https://t.me/dataeng/522
#pandas #pandas2 #release #release_notes
datapythonista blog
pandas 2.0 and the Arrow revolution (part I)
Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...
Data & IT Career
The state of Apache Airflow Компания #astronomer подготовила отчет о состоянии apache airflow на 2024 год. #Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время…
Telegram
Data engineering events
🖼️ Airflow 2.9
Сегодня выкатили новую версия Apache #Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:
▶️ поддержка Python 3.12
▶️ Listener API стабилизировался и его можно использовать в продакшене
▶️ Поддержка multiple…
Сегодня выкатили новую версия Apache #Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:
▶️ поддержка Python 3.12
▶️ Listener API стабилизировался и его можно использовать в продакшене
▶️ Поддержка multiple…