OK ML

Коммит, который все сломал

Вот история о том, как крошечное изменение в зависимостях устроило тихий ужас в мире pandas.

🐼В репозитории pandas-dev/pandas есть коммит 9cd5e55. Его цель — перевести сборку на NumPy 2.0 rc. На первый взгляд это инфраструктурное обновление, но именно оно стало причиной обсуждения в issue «Potential regression induced by commit 9cd5e55».

В диффе почти нет изменений кода. Просто вместо зависимостей на numpy>=1.22.4 и numpy 1.26.* появились ссылки на numpy>=2.0.0rc1. Однако такие минимальные изменения могут повлиять на весь стек. NumPy 2.0 rc изменяет работу ufunc, диспетчеризацию и представление типов. Для pandas это означает потенциальные регрессии в groupby, value_counts, индексации, конвертациях и строках на базе pyarrow.

Чтобы почувствовать разницу, достаточно замерить выполнение нескольких операций. На pandas 2.2.1 и numpy 1.26.4 операции value_counts или groupby.mean отрабатывают стабильно. На pandas с numpy 2.0 rc результаты могут быть медленнее или вести себя иначе. Похожая история возникала и с соседним коммитом 924f246, где изменения в форматировании вывода неожиданно ломали тесты.

🫚 Корень проблемы прост. Обновление зависимости без изменения кода библиотеки влечёт изменение поведения самой библиотеки. Ловить такие ситуации можно через тесты производительности, прогон матрицы версий зависимостей и использование git bisect для отслеживания первых проблемных версий.

👀 История этого коммита хорошо показывает, как один на вид безобидный шаг в сторону новой версии NumPy может вызвать регрессии во всей экосистеме. NumPy 2.0 — это как новый сосед, который переставил всю мебель в вашей квартире и искренне недоумевает, почему вы не рады. А git bisect — ваш личный юрист, когда надо найти того единственного виноватого в коммитах.

1👍9❤5⚡3

197 viewsedited 16:22