🏆 Барабанная дробь... Объявляем финалистов трека «Искусственный интеллект» в этом сезоне
Задача «Нормализация адреса»
🏅 Лига начинающих
1 - Команда «Ильдар Бикмаматов»
2 - Pop().Usk
3 - ML reference
🏅 Лига продвинутых
1 - mr MISISter
2 - Polevoi_AI_MISIS
3 - BigBallЗабираем топ1 RuCode 7.0 (Mr MISISter), официально 😎😎😎
🔥18👍1🎉1
#ИсторияАдмина
Почему машин лернинг это не просто
и почему надо анализировать данные, особенно, в соревновательном DataScience?
Да, зачастую, если фичи (данные) не представляют собой какие-то физические величины или временные ряды, они могут не иметь никакой зависимости между собой и быть распределены черти как.
Но взглянуть хотя бы на pairplot (график зависимости одной фичи от другой попарно для всех фичей) однозначно стоит, особенно, если признаков не пипец много.
И вот здесь, шикарный пример - первая задача рукода. Описана она очень высокоуровнево, но, по замыслу, там зашита интересная физико-геометрическая задачка. На графиках построены попарные зависимости некоторых фичей и, о да, они (см. графики где красные точки) образуют какую-то функцию, которую градиентный бустинг, при всей моей любви к нему, нормально не поймает.
Что можно сделать? Ну, как минимум, сгенерировать новую фичу, которая бы объединяла в себе эти две фичи. Например, перейти в полярные координаты и получить две новые фичи: аргумент полярной координаты (угол наклона вектора, проведенного от точки (0, 0) до заданной точки, к оси икс) и длина вектора.
В результате, сразу увеличиваем метрику на лидерборде почти на 5%.
Анализируйте данные 💅
Почему машин лернинг это не просто
from catboost import CatBoostRegressor
model = CatBoostRegressor()
model.fit().predict()и почему надо анализировать данные, особенно, в соревновательном DataScience?
Да, зачастую, если фичи (данные) не представляют собой какие-то физические величины или временные ряды, они могут не иметь никакой зависимости между собой и быть распределены черти как.
Но взглянуть хотя бы на pairplot (график зависимости одной фичи от другой попарно для всех фичей) однозначно стоит, особенно, если признаков не пипец много.
И вот здесь, шикарный пример - первая задача рукода. Описана она очень высокоуровнево, но, по замыслу, там зашита интересная физико-геометрическая задачка. На графиках построены попарные зависимости некоторых фичей и, о да, они (см. графики где красные точки) образуют какую-то функцию, которую градиентный бустинг, при всей моей любви к нему, нормально не поймает.
Что можно сделать? Ну, как минимум, сгенерировать новую фичу, которая бы объединяла в себе эти две фичи. Например, перейти в полярные координаты и получить две новые фичи: аргумент полярной координаты (угол наклона вектора, проведенного от точки (0, 0) до заданной точки, к оси икс) и длина вектора.
В результате, сразу увеличиваем метрику на лидерборде почти на 5%.
Анализируйте данные 💅
❤6🤯5👎1🔥1
Побеждаем в Фонде Смелых Идей Mars. В рамках конкурса разработали лучшее диджитал решение для экосистемы
🥳🥳🥳
🥳🥳🥳
❤16👍1🎉1
Друзья, за последнее время нас стало значительно больше, поэтому я решил провести небольшую перекличку.
Большая просьба голосовать по максимуму, т.к. от этого будет зависеть контент 💆♂️
Большая просьба голосовать по максимуму, т.к. от этого будет зависеть контент 💆♂️
Final Results
60%
Я ML/DS/AI
32%
Я прогаю, но не МЛ
8%
Я гумманитарий
Дорогие подписчики. Завтра защита Рукода. Сижу пишу четвертую историю админа :)
Вобщем, к чему это я. Нас 99 человек... До рубежа остался 1 боец. Сможем до завтра? 🥺
Вобщем, к чему это я. Нас 99 человек... До рубежа остался 1 боец. Сможем до завтра? 🥺
👍8
💩5
#ИсторияАдмина
Любишь МЛ, люби и алгосы вывозить. Грустно, конечно, но это факт.
И нет, я сейчас не про собесы. Да, на них часто спрашивают за алгосы, но этот пост про другое.
Построить оптимальный маршрут автомобиля/автобуса/танкера/поезда - да чего угодно. Кто-то побежит обучать графовую нейронку или кетбуст, а кто-то вспомнит про алгоритмы кратчайших путей в графе (дейкстра).
Нормализовать входящий адрес (город Москва улиц. Одуванчиковая 6 -> г. Москва, ул. Одуванчиковая д. 6). Кто-то пойдет обучать ЛЛМ, а кто-то вспомнит про Бор или Корасика и бахнет автомат.
Часто бывает так, что решают алгосы, а не МЛ, поэтому важно смотреть на задачу с разных сторон.
Так было залутано первое место на Рукоде 😎
Наше решение можно посмотреть тут 👇
https://github.com/Kasuich/rucode-final-solution-c/tree/main
Любишь МЛ, люби и алгосы вывозить. Грустно, конечно, но это факт.
И нет, я сейчас не про собесы. Да, на них часто спрашивают за алгосы, но этот пост про другое.
Построить оптимальный маршрут автомобиля/автобуса/танкера/поезда - да чего угодно. Кто-то побежит обучать графовую нейронку или кетбуст, а кто-то вспомнит про алгоритмы кратчайших путей в графе (дейкстра).
Нормализовать входящий адрес (город Москва улиц. Одуванчиковая 6 -> г. Москва, ул. Одуванчиковая д. 6). Кто-то пойдет обучать ЛЛМ, а кто-то вспомнит про Бор или Корасика и бахнет автомат.
Часто бывает так, что решают алгосы, а не МЛ, поэтому важно смотреть на задачу с разных сторон.
Так было залутано первое место на Рукоде 😎
Наше решение можно посмотреть тут 👇
https://github.com/Kasuich/rucode-final-solution-c/tree/main
GitHub
GitHub - Kasuich/rucode-final-solution-c
Contribute to Kasuich/rucode-final-solution-c development by creating an account on GitHub.
🔥9❤1👍1👎1
❤1💩1
Друзья, сегодня должен был выйти первый пост рубрики #Ботаем, но что-то пошло не по плану...
1лайк = +1хп админу ♥️
1лайк = +1хп админу ♥️
❤23
рубрика #Ботаем
Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.
Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?
У выборочной оценки есть 3 характеристики
1. Несмещенность
2. Состоятельность
3. Эффективность
Подробнее про них на картинках.
Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!
Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲
Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.
Именно поэтому все любят "нормальность" в данных, такие дела 😌
Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.
Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?
У выборочной оценки есть 3 характеристики
1. Несмещенность
2. Состоятельность
3. Эффективность
Подробнее про них на картинках.
Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!
Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲
Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.
Именно поэтому все любят "нормальность" в данных, такие дела 😌
🔥6❤1👎1