Канал Доброго Вани | Data Science и Продуктики

🏆 Барабанная дробь... Объявляем финалистов трека «Искусственный интеллект» в этом сезоне

Задача «Нормализация адреса»
🏅 Лига начинающих 
1 - Команда «Ильдар Бикмаматов»
2 - Pop().Usk
3 - ML reference

🏅 Лига продвинутых 
1 - mr MISISter
2 - Polevoi_AI_MISIS
3 - BigBall

Забираем топ1 RuCode 7.0 (Mr MISISter), официально 😎😎😎

🔥18👍1🎉1

412 viewsedited 11:01

Канал Доброго Вани | Data Science и Продуктики

356 views14:14

Канал Доброго Вани | Data Science и Продуктики

#ИсторияАдмина

Почему машин лернинг это не просто

from catboost import CatBoostRegressor
model = CatBoostRegressor() 
model.fit().predict()

и почему надо анализировать данные, особенно, в соревновательном DataScience?

Да, зачастую, если фичи (данные) не представляют собой какие-то физические величины или временные ряды, они могут не иметь никакой зависимости между собой и быть распределены черти как.

Но взглянуть хотя бы на pairplot (график зависимости одной фичи от другой попарно для всех фичей) однозначно стоит, особенно, если признаков не пипец много.

И вот здесь, шикарный пример - первая задача рукода. Описана она очень высокоуровнево, но, по замыслу, там зашита интересная физико-геометрическая задачка. На графиках построены попарные зависимости некоторых фичей и, о да, они (см. графики где красные точки) образуют какую-то функцию, которую градиентный бустинг, при всей моей любви к нему, нормально не поймает.

Что можно сделать? Ну, как минимум, сгенерировать новую фичу, которая бы объединяла в себе эти две фичи. Например, перейти в полярные координаты и получить две новые фичи: аргумент полярной координаты (угол наклона вектора, проведенного от точки (0, 0) до заданной точки, к оси икс) и длина вектора.

В результате, сразу увеличиваем метрику на лидерборде почти на 5%.

Анализируйте данные 💅

❤6🤯5👎1🔥1

428 viewsedited 14:15

Канал Доброго Вани | Data Science и Продуктики

Побеждаем в Фонде Смелых Идей Mars. В рамках конкурса разработали лучшее диджитал решение для экосистемы

🥳🥳🥳

❤16👍1🎉1

386 views10:23

Канал Доброго Вани | Data Science и Продуктики

Друзья, за последнее время нас стало значительно больше, поэтому я решил провести небольшую перекличку.

Большая просьба голосовать по максимуму, т.к. от этого будет зависеть контент 💆‍♂️

Final Results

63 voters384 views06:54

Канал Доброго Вани | Data Science и Продуктики

И в чем этот мем неправ?

😁9

390 views07:34

Канал Доброго Вани | Data Science и Продуктики

Дорогие подписчики. Завтра защита Рукода. Сижу пишу четвертую историю админа :)

Вобщем, к чему это я. Нас 99 человек... До рубежа остался 1 боец. Сможем до завтра? 🥺

👍8

370 views15:57

Канал Доброго Вани | Data Science и Продуктики

Ура, дорогие папищеки. Наша общая победа. Как и обещал, голосование на добавление 💩 в реакции будет с минуты на минуту

👍1

358 views16:07

Канал Доброго Вани | Data Science и Продуктики

Возвращаем 💩 в реакции?

Final Results

💩5

53 voters351 views16:11

Канал Доброго Вани | Data Science и Продуктики

#ИсторияАдмина

Любишь МЛ, люби и алгосы вывозить. Грустно, конечно, но это факт.

И нет, я сейчас не про собесы. Да, на них часто спрашивают за алгосы, но этот пост про другое.

Построить оптимальный маршрут автомобиля/автобуса/танкера/поезда - да чего угодно. Кто-то побежит обучать графовую нейронку или кетбуст, а кто-то вспомнит про алгоритмы кратчайших путей в графе (дейкстра).

Нормализовать входящий адрес (город Москва улиц. Одуванчиковая 6 -> г. Москва, ул. Одуванчиковая д. 6). Кто-то пойдет обучать ЛЛМ, а кто-то вспомнит про Бор или Корасика и бахнет автомат.

Часто бывает так, что решают алгосы, а не МЛ, поэтому важно смотреть на задачу с разных сторон.

Так было залутано первое место на Рукоде 😎

Наше решение можно посмотреть тут 👇
https://github.com/Kasuich/rucode-final-solution-c/tree/main

GitHub

GitHub - Kasuich/rucode-final-solution-c

Contribute to Kasuich/rucode-final-solution-c development by creating an account on GitHub.

🔥9❤1👍1👎1

435 viewsedited 11:19

Канал Доброго Вани | Data Science и Продуктики

😁15💩3🥰1

420 views07:06

Канал Доброго Вани | Data Science и Продуктики

Что там у админа новенького?

- прошло 3 месяца стажировки в Марс

- в выходные залетаем на хак (временные ряды)

- сходил на алгоритмический Рукод и занял 11/60 место с командой, решив 8 задач

- поставил красивый мат с коробочкой и конем 😎

🔥7🤔2🎉2💩2

500 viewsedited 15:16

Канал Доброго Вани | Data Science и Продуктики

Хотели бы видеть в этом канале рубрику #Матеша ?

Final Results

❤1💩1

52 voters398 views07:48

Канал Доброго Вани | Data Science и Продуктики

Друзья, сегодня должен был выйти первый пост рубрики #Ботаем, но что-то пошло не по плану...

1лайк = +1хп админу ♥️

❤23

457 viewsedited 19:34

Канал Доброго Вани | Data Science и Продуктики

396 views09:09

Канал Доброго Вани | Data Science и Продуктики

рубрика #Ботаем

Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.

Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?

У выборочной оценки есть 3 характеристики

1. Несмещенность

2. Состоятельность

3. Эффективность

Подробнее про них на картинках.

Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!

Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲

Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.

Именно поэтому все любят "нормальность" в данных, такие дела 😌

🔥6❤1👎1

496 viewsedited 09:09

Канал Доброго Вани | Data Science и Продуктики

Выстрадали (Mr MISISter)

🔥14❤1

420 viewsedited 18:30

Канал Доброго Вани | Data Science и Продуктики

🔥1

401 views14:59

About

Blog

Apps

Platform