#stats #informationtheory #sklearn #bollocks
Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:
mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug
Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:
mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug
GitHub
Proposal to change default value of n_neighbors in mutual_info_regression · Issue #25580 · scikit-learn/scikit-learn
Describe the bug Hi, recently I figured out that for short sequences default value of 3 is way too unstable and gives poor results. Don't know the reasons why 3 was used, my testing shows t...
#ml #sklearn #quasitolerance #bollocks
Sklearn продолжает отжигать. В новой версии они удалили датасет Бостон из-за какой-то надуманной херни. А ведь на него завязана уже было куча примеров в сторонних либах. BorutaShap вообще при импорте сломался.
"
The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the validity of this assumption.
The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning."
Что на очереди? BreastCancer, потому что там нет данных мужиков и геев? А все ли цвета радуги есть в ирисах Фишера, может, лучше их тоже удалить во избежание?
Sklearn продолжает отжигать. В новой версии они удалили датасет Бостон из-за какой-то надуманной херни. А ведь на него завязана уже было куча примеров в сторонних либах. BorutaShap вообще при импорте сломался.
"
load_boston
has been removed from scikit-learn since version 1.2.The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the validity of this assumption.
The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning."
Что на очереди? BreastCancer, потому что там нет данных мужиков и геев? А все ли цвета радуги есть в ирисах Фишера, может, лучше их тоже удалить во избежание?
#jupyter #bollocks
Мне вот интересно, кто это придумал в Юпитер ноутбуке, что появляется два курсора, когда ты печатаешь, и текст вводится твой сразу в 2 местах? Я даже технически себе не представляю, как этого добились, но ещё более удивляет, нахера вообще это сделали и оставили. Кто-то реально этим пользуется? Зачем?! Это даже хуже, чем тупые юпитеровские автоскобки, которые каждый раз удаляешь и вручную переставляешь, уже правильно.
Мне вот интересно, кто это придумал в Юпитер ноутбуке, что появляется два курсора, когда ты печатаешь, и текст вводится твой сразу в 2 местах? Я даже технически себе не представляю, как этого добились, но ещё более удивляет, нахера вообще это сделали и оставили. Кто-то реально этим пользуется? Зачем?! Это даже хуже, чем тупые юпитеровские автоскобки, которые каждый раз удаляешь и вручную переставляешь, уже правильно.
#pandas #bugs #bollocks
Только решил поработать с финансовыми данными, так на них обосрался pandas. Ну как так-то, а? Он же такой медленный, такой проверенный временем и сотнями тысяч кодеров.
https://github.com/pandas-dev/pandas/issues/52505
Только решил поработать с финансовыми данными, так на них обосрался pandas. Ну как так-то, а? Он же такой медленный, такой проверенный временем и сотнями тысяч кодеров.
https://github.com/pandas-dev/pandas/issues/52505
GitHub
BUG: incorrect reading of CSV containing large integers · Issue #52505 · pandas-dev/pandas
Pandas version checks I have checked that this issue has not already been reported. I have confirmed this bug exists on the latest version of pandas. I have confirmed this bug exists on the main br...
#pandas #bollocks
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
if features:
File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\generic.py", line 1466, in __nonzero__
raise ValueError(
ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
P.S.:То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
#profiling #optimisation #python #speed #sklearn #bollocks
Эскалёрновские волшебники-программисты в деле. Столкнулся с неприемлемо низкой скоростью построения отчёта классификационных метрик на 8M примеров. 15 секунд, ну куда это годится? Проверил кирпичики расчётов по нисходящей. Матрица ошибок считается за полторы секунды. Это чем же надо угандошить процессор, чтобы простое деление пары чисел и упаковка в словарь выполнялись больше 10 секунд и делали расчёты в ДЕСЯТЬ раз длиннее? Такое и специально не сразу сделаешь.
Эскалёрновские волшебники-программисты в деле. Столкнулся с неприемлемо низкой скоростью построения отчёта классификационных метрик на 8M примеров. 15 секунд, ну куда это годится? Проверил кирпичики расчётов по нисходящей. Матрица ошибок считается за полторы секунды. Это чем же надо угандошить процессор, чтобы простое деление пары чисел и упаковка в словарь выполнялись больше 10 секунд и делали расчёты в ДЕСЯТЬ раз длиннее? Такое и специально не сразу сделаешь.
#docs #keras #bollocks
Пример плохо, по-мудацки написанной документации.
Вроде технически все опции описаны, но не сказано, в какой ситуации какую применять и зачем. Будущий юзер отрывает доку, читает, и не может понять, а нафига это всё нагородили вообще. Например: когда может понадобиться mask_token? Какая выгода от multi_hot? итд
https://keras.io/api/layers/preprocessing_layers/categorical/string_lookup/#stringlookup-class
Хреновая дока ведёт к тому, что люди постоянно задают на других ресурсах вопросы: а в чём различие, а какую опцию мне лучше использовать, а что это даст? типа этого. Особенно это касается специфичной для продукта функциональности, которая не является общеизвестной в области, или вообще является "уникальной фишкой". А всё потому, что разработчики поленились и не подумали объяснить концепции на высоком уровне в форме, понятной для пользователей. То же самое, кстати, чувствуется при чтении документации Catboost.
Пример плохо, по-мудацки написанной документации.
Вроде технически все опции описаны, но не сказано, в какой ситуации какую применять и зачем. Будущий юзер отрывает доку, читает, и не может понять, а нафига это всё нагородили вообще. Например: когда может понадобиться mask_token? Какая выгода от multi_hot? итд
https://keras.io/api/layers/preprocessing_layers/categorical/string_lookup/#stringlookup-class
Хреновая дока ведёт к тому, что люди постоянно задают на других ресурсах вопросы: а в чём различие, а какую опцию мне лучше использовать, а что это даст? типа этого. Особенно это касается специфичной для продукта функциональности, которая не является общеизвестной в области, или вообще является "уникальной фишкой". А всё потому, что разработчики поленились и не подумали объяснить концепции на высоком уровне в форме, понятной для пользователей. То же самое, кстати, чувствуется при чтении документации Catboost.
keras.io
Keras documentation: StringLookup layer
#towardsdatascience #bollocks
"Hi Anatoly,
Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work."
Это уже не может быть совпадением. Наверное, авторов из России не публикуют. Ну или мои 2 статьи, в которых я вообще-то получаю оригинальные и ценные для практики DS результаты, на голову хуже любой из десятков тысяч статей, которые они к публикации приняли.
"Dear TDS editorial team,
After trying to publish with you my 2 original articles, where I receive novel, original and valuable from a practical DS standpoint results, I came to conclusion that my work does not adhere to high quality standards of towardsdatascience. Since my work is obviously much worse than that of other authors, tens of thousands articles of whom have been accepted by you, I solemnly promise not to bother you with my submittals anymore.
Best regards, Anatoly."
"Hi Anatoly,
Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work."
Это уже не может быть совпадением. Наверное, авторов из России не публикуют. Ну или мои 2 статьи, в которых я вообще-то получаю оригинальные и ценные для практики DS результаты, на голову хуже любой из десятков тысяч статей, которые они к публикации приняли.
"Dear TDS editorial team,
After trying to publish with you my 2 original articles, where I receive novel, original and valuable from a practical DS standpoint results, I came to conclusion that my work does not adhere to high quality standards of towardsdatascience. Since my work is obviously much worse than that of other authors, tens of thousands articles of whom have been accepted by you, I solemnly promise not to bother you with my submittals anymore.
Best regards, Anatoly."
#tensorflow #bollocks
Больше 2 лет юзеры просят мудаков из команды tensorflow предоставить способ освобождения памяти GPU без завершения процесса. Конечно же, я в 2023-м налетел на эту проблему.
https://github.com/tensorflow/tensorflow/issues/36465
Больше 2 лет юзеры просят мудаков из команды tensorflow предоставить способ освобождения памяти GPU без завершения процесса. Конечно же, я в 2023-м налетел на эту проблему.
https://github.com/tensorflow/tensorflow/issues/36465
GitHub
How can I clear GPU memory in tensorflow 2? · Issue #36465 · tensorflow/tensorflow
System information Custom code; nothing exotic though. Ubuntu 18.04 installed from source (with pip) tensorflow version v2.1.0-rc2-17-ge5bf8de 3.6 CUDA 10.1 Tesla V100, 32GB RAM I created a model, ...
#microsoft #bollocks
Шёл 2023-й год. Это флагманский продукт от мирового лидера с капитализацией триллион долларов.
Шёл 2023-й год. Это флагманский продукт от мирового лидера с капитализацией триллион долларов.
#pandas #optimization #bollocks
Пытаюсь выяснить, как передать большой фрейм пандас для чтения в другие процессы с помощью joblib без сериализации и копирования памяти. С массивом нумпай это сделать можно с помощью memmapping, пример есть в доке joblib, и это реально работает (память выделяется 1 раз, сериализации нет. правда, приходится один раз сдампить массив на диск). А вот с фреймом не прокатывает. Вроде оказывается, фрейм вообще нельзя инициализировать из общей памяти без копирования.
Набрёл на дискуссию, где человек приводит аргументы, что копирование излишне и вызывает пенальти к производительности. А 2 мудака-разраба пандас ему затирают про premature optimizaion. Cмотрю, у одного мудака знакомый ник. jreback. И вспоминаю, что это же существо из ядерных разрабов панадаса и мне когда-то давно писало про premature optimization, когда я спрашивал, почему какая-то операция была реализована без inplace (у меня была забита вся память и операция присваиванием просто не проходила).
Отсюда 2 вопроса:
1) кто знает техническое решение, напишите
2) почему подобные мудаки идут разрабатывать библиотеки для работы с данными, в том числе, большими данными? и потом херят все разумные начинания. так вот почему пандас такой сука медленный. вовсе не потому, что высокий уровень абстракции, гибкость. Просто разрабы - мудаки, которые под предлогом no premature optimization делают no optimization at all.
Пытаюсь выяснить, как передать большой фрейм пандас для чтения в другие процессы с помощью joblib без сериализации и копирования памяти. С массивом нумпай это сделать можно с помощью memmapping, пример есть в доке joblib, и это реально работает (память выделяется 1 раз, сериализации нет. правда, приходится один раз сдампить массив на диск). А вот с фреймом не прокатывает. Вроде оказывается, фрейм вообще нельзя инициализировать из общей памяти без копирования.
Набрёл на дискуссию, где человек приводит аргументы, что копирование излишне и вызывает пенальти к производительности. А 2 мудака-разраба пандас ему затирают про premature optimizaion. Cмотрю, у одного мудака знакомый ник. jreback. И вспоминаю, что это же существо из ядерных разрабов панадаса и мне когда-то давно писало про premature optimization, когда я спрашивал, почему какая-то операция была реализована без inplace (у меня была забита вся память и операция присваиванием просто не проходила).
Отсюда 2 вопроса:
1) кто знает техническое решение, напишите
2) почему подобные мудаки идут разрабатывать библиотеки для работы с данными, в том числе, большими данными? и потом херят все разумные начинания. так вот почему пандас такой сука медленный. вовсе не потому, что высокий уровень абстракции, гибкость. Просто разрабы - мудаки, которые под предлогом no premature optimization делают no optimization at all.
GitHub
No way to construct mixed dtype DataFrame without total copy, proposed solution · Issue #9216 · pandas-dev/pandas
After hours of tearing my hair, I've come to the conclusion that it is impossible to create a mixed dtype DataFrame without copying all of its data in. That is, no matter what you do, if you wa...
#smartphones #cameras #bollocks
На dxomark обновился лидер по мобильной фотографии. Я обрадовался, думаю, попробую его раздобыть, хватит пользоваться дешёвым китайским ширпотребом, жизнь слишком коротка.
Но вот смотрим обзорчик с реальным сравнением фоток на этом pura ultra и нескольких других топчиках: в 2024 сука году до сих пор на научились инженеры, прогеры, дата сайентисты и кто там ещё правильно определять, скажем, баланс белого. Ну как может девайс за $1.5k желтить? Ну возьми ты, сука, в свои китайские ручки референсную качественную камеру, и свою смартфоновскую, и научи модельку сопоставлять цвета при разных уровнях освещённости, ну почему это такие сложности у вас всех сука вызывает? Ну железо ведь одинаковое используете. Либо это реально необъяснимо сложно, либо просто всем похер, и так сойдёт.
Ещё и селфи-камера не в фокусе... Морда владельца на видео-селфи получается расплывчатая, зато хорошая детализация дальних домов. Если бы я там менеджерил, вся продуктовая команда после такого релиза такого "флагмана" дружно пошла бы на мороз.
https://www.youtube.com/watch?v=dlGr2hQ2Km8
https://www.youtube.com/watch?v=TavTpHDT9bo
На dxomark обновился лидер по мобильной фотографии. Я обрадовался, думаю, попробую его раздобыть, хватит пользоваться дешёвым китайским ширпотребом, жизнь слишком коротка.
Но вот смотрим обзорчик с реальным сравнением фоток на этом pura ultra и нескольких других топчиках: в 2024 сука году до сих пор на научились инженеры, прогеры, дата сайентисты и кто там ещё правильно определять, скажем, баланс белого. Ну как может девайс за $1.5k желтить? Ну возьми ты, сука, в свои китайские ручки референсную качественную камеру, и свою смартфоновскую, и научи модельку сопоставлять цвета при разных уровнях освещённости, ну почему это такие сложности у вас всех сука вызывает? Ну железо ведь одинаковое используете. Либо это реально необъяснимо сложно, либо просто всем похер, и так сойдёт.
Ещё и селфи-камера не в фокусе... Морда владельца на видео-селфи получается расплывчатая, зато хорошая детализация дальних домов. Если бы я там менеджерил, вся продуктовая команда после такого релиза такого "флагмана" дружно пошла бы на мороз.
https://www.youtube.com/watch?v=dlGr2hQ2Km8
https://www.youtube.com/watch?v=TavTpHDT9bo
DXOMARK
Huawei Pura 70 Ultra Camera test
Discover the exceptional camera performance of the Huawei Pura 70 Ultra in the DXOMARK tests. Top scores for still images, impressive detail retention, and natural skin-tone rendering.