Канал Доброго Вани | Data Science и Продуктики
1.49K subscribers
502 photos
26 videos
7 files
116 links
Самый добрый канал про DataScience, ML, техпред, стартапы и про много чего еще 🥰

Реклама, сотрудничество и любые другие вопросы -> @Pleshakovski
Download Telegram
Побеждаем в Фонде Смелых Идей Mars. В рамках конкурса разработали лучшее диджитал решение для экосистемы

🥳🥳🥳
16👍1🎉1
Друзья, за последнее время нас стало значительно больше, поэтому я решил провести небольшую перекличку.

Большая просьба голосовать по максимуму, т.к. от этого будет зависеть контент 💆‍♂️
Final Results
60%
Я ML/DS/AI
32%
Я прогаю, но не МЛ
8%
Я гумманитарий
И в чем этот мем неправ?
😁9
Дорогие подписчики. Завтра защита Рукода. Сижу пишу четвертую историю админа :)

Вобщем, к чему это я. Нас 99 человек... До рубежа остался 1 боец. Сможем до завтра? 🥺
👍8
Ура, дорогие папищеки. Наша общая победа. Как и обещал, голосование на добавление 💩 в реакции будет с минуты на минуту
👍1
#ИсторияАдмина

Любишь МЛ, люби и алгосы вывозить. Грустно, конечно, но это факт.

И нет, я сейчас не про собесы. Да, на них часто спрашивают за алгосы, но этот пост про другое.

Построить оптимальный маршрут автомобиля/автобуса/танкера/поезда - да чего угодно. Кто-то побежит обучать графовую нейронку или кетбуст, а кто-то вспомнит про алгоритмы кратчайших путей в графе (дейкстра).

Нормализовать входящий адрес (город Москва улиц. Одуванчиковая 6 -> г. Москва, ул. Одуванчиковая д. 6). Кто-то пойдет обучать ЛЛМ, а кто-то вспомнит про Бор или Корасика и бахнет автомат.

Часто бывает так, что решают алгосы, а не МЛ, поэтому важно смотреть на задачу с разных сторон.

Так было залутано первое место на Рукоде 😎

Наше решение можно посмотреть тут 👇
https://github.com/Kasuich/rucode-final-solution-c/tree/main
🔥91👍1👎1
Что там у админа новенького?

- прошло 3 месяца стажировки в Марс

- в выходные залетаем на хак (временные ряды)

- сходил на алгоритмический Рукод и занял 11/60 место с командой, решив 8 задач

- поставил красивый мат с коробочкой и конем 😎
🔥7🤔2🎉2💩2
Хотели бы видеть в этом канале рубрику #Матеша ?
Final Results
71%
Да, матеша каеф🥰
29%
☠️☠️☠️
1💩1
Друзья, сегодня должен был выйти первый пост рубрики #Ботаем, но что-то пошло не по плану...

1лайк = +1хп админу ♥️
23
рубрика #Ботаем

Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.

Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?

У выборочной оценки есть 3 характеристики

1. Несмещенность

2. Состоятельность

3. Эффективность

Подробнее про них на картинках.

Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!

Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲

Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.

Именно поэтому все любят "нормальность" в данных, такие дела 😌
🔥61👎1
Выстрадали (Mr MISISter)
🔥141
#Хакатоны
GoodsForecastHack от Дикси

В дурке у ЦП официально пополнение. Глубокий вдох... поехали

🫠 Нужно было предсказать отсутствие товара на полке магазина (1 или 0)

⛔️ После окончания регистрации отменили 2-3 места на обоих кейсах (вместе с призами, надеюсь Дикси сделают у меня на районе ремонт с этих 4 сэкономленных комплектов мерча)

⛔️ На платформе слетела ссылка на наш репозиторий с решением, причем мы загрузили всё корректно. А узнали мы об этом только на питче, до которого с момента стоп-кода прошло 3 часа (менторы, вы лучшие)

⛔️ В конце забыли про нашу команду и не добавили ее в лидерборд

⛔️ Победила команда, с вот таким решением (см. фото). Боже, какой кринж, перебирали сиды через for. Причем победили с огромным отрывом ROC_AUC. Моё мнение - лик. Команда победителей не скинула мне свой репозиторий, а на компетентность жюри в поиске ликов я уже давно не рассчитываю, т.к. у них всего несколько часов на анализ аж 10 репозиториев.

Отмечу только, что эксперты на вопросы отвечали с первого раза (ну почти)

Потраченного времени жаль

P.s. Извините что затоксил :((
🔥10👍1
#Ботаем

Сегодня поговорим, чем отличаятся гистограмма 1 уровня от гистограммы 99 уровня

Но для начала вкину несколько фактов:

1. Гистограмма - это приближенная плотность распределения

2. Рекомендуемое кол-во бинов задается по формуле Стерджеса k = logN + 1 (N - объем выборки)

3. Так как гистограмма - это приближенная плотность, то и площадь ее должна равняться единице

На левой картинке дефолтная гистограмма (pd.Series.hist()) 1 уровня, на правой гистограмма 99 уровня, а именно:


plt.hist(data[0], bins=int(np.log2(len(data)) + 1), density=True)


(полный код в комментариях)

Обе гистограммы построены на одних и тех же данных

Кто-то использует дефолтную ненормализованную (площадь не равна единице) гистограмму, чтобы оценить моду (самое частое значение в выборке) или нормальность, но лучшее представление о плотности, а значит и о распределении, даст именно такая НОРМАЛИЗОВАННАЯ гистограмма со второй картинки

Пользуйтесь😌
👍72