Канал Доброго Вани | Data Science и Продуктики

Побеждаем в Фонде Смелых Идей Mars. В рамках конкурса разработали лучшее диджитал решение для экосистемы

🥳🥳🥳

❤16👍1🎉1

386 views10:23

Канал Доброго Вани | Data Science и Продуктики

Друзья, за последнее время нас стало значительно больше, поэтому я решил провести небольшую перекличку.

Большая просьба голосовать по максимуму, т.к. от этого будет зависеть контент 💆‍♂️

Final Results

63 voters384 views06:54

Канал Доброго Вани | Data Science и Продуктики

И в чем этот мем неправ?

😁9

390 views07:34

Канал Доброго Вани | Data Science и Продуктики

Дорогие подписчики. Завтра защита Рукода. Сижу пишу четвертую историю админа :)

Вобщем, к чему это я. Нас 99 человек... До рубежа остался 1 боец. Сможем до завтра? 🥺

👍8

370 views15:57

Канал Доброго Вани | Data Science и Продуктики

Ура, дорогие папищеки. Наша общая победа. Как и обещал, голосование на добавление 💩 в реакции будет с минуты на минуту

👍1

358 views16:07

Канал Доброго Вани | Data Science и Продуктики

Возвращаем 💩 в реакции?

Final Results

💩5

53 voters351 views16:11

Канал Доброго Вани | Data Science и Продуктики

#ИсторияАдмина

Любишь МЛ, люби и алгосы вывозить. Грустно, конечно, но это факт.

И нет, я сейчас не про собесы. Да, на них часто спрашивают за алгосы, но этот пост про другое.

Построить оптимальный маршрут автомобиля/автобуса/танкера/поезда - да чего угодно. Кто-то побежит обучать графовую нейронку или кетбуст, а кто-то вспомнит про алгоритмы кратчайших путей в графе (дейкстра).

Нормализовать входящий адрес (город Москва улиц. Одуванчиковая 6 -> г. Москва, ул. Одуванчиковая д. 6). Кто-то пойдет обучать ЛЛМ, а кто-то вспомнит про Бор или Корасика и бахнет автомат.

Часто бывает так, что решают алгосы, а не МЛ, поэтому важно смотреть на задачу с разных сторон.

Так было залутано первое место на Рукоде 😎

Наше решение можно посмотреть тут 👇
https://github.com/Kasuich/rucode-final-solution-c/tree/main

GitHub

GitHub - Kasuich/rucode-final-solution-c

Contribute to Kasuich/rucode-final-solution-c development by creating an account on GitHub.

🔥9❤1👍1👎1

435 viewsedited 11:19

Канал Доброго Вани | Data Science и Продуктики

😁15💩3🥰1

420 views07:06

Канал Доброго Вани | Data Science и Продуктики

Что там у админа новенького?

- прошло 3 месяца стажировки в Марс

- в выходные залетаем на хак (временные ряды)

- сходил на алгоритмический Рукод и занял 11/60 место с командой, решив 8 задач

- поставил красивый мат с коробочкой и конем 😎

🔥7🤔2🎉2💩2

500 viewsedited 15:16

Канал Доброго Вани | Data Science и Продуктики

Хотели бы видеть в этом канале рубрику #Матеша ?

Final Results

❤1💩1

52 voters398 views07:48

Канал Доброго Вани | Data Science и Продуктики

Друзья, сегодня должен был выйти первый пост рубрики #Ботаем, но что-то пошло не по плану...

1лайк = +1хп админу ♥️

❤23

457 viewsedited 19:34

Канал Доброго Вани | Data Science и Продуктики

396 views09:09

Канал Доброго Вани | Data Science и Продуктики

рубрика #Ботаем

Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.

Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?

У выборочной оценки есть 3 характеристики

1. Несмещенность

2. Состоятельность

3. Эффективность

Подробнее про них на картинках.

Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!

Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲

Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.

Именно поэтому все любят "нормальность" в данных, такие дела 😌

🔥6❤1👎1

496 viewsedited 09:09

Канал Доброго Вани | Data Science и Продуктики

Выстрадали (Mr MISISter)

🔥14❤1

420 viewsedited 18:30

Канал Доброго Вани | Data Science и Продуктики

🔥1

401 views14:59

Канал Доброго Вани | Data Science и Продуктики

#Хакатоны
GoodsForecastHack от Дикси

В дурке у ЦП официально пополнение. Глубокий вдох... поехали

🫠 Нужно было предсказать отсутствие товара на полке магазина (1 или 0)

⛔️ После окончания регистрации отменили 2-3 места на обоих кейсах (вместе с призами, надеюсь Дикси сделают у меня на районе ремонт с этих 4 сэкономленных комплектов мерча)

⛔️ На платформе слетела ссылка на наш репозиторий с решением, причем мы загрузили всё корректно. А узнали мы об этом только на питче, до которого с момента стоп-кода прошло 3 часа (менторы, вы лучшие)

⛔️ В конце забыли про нашу команду и не добавили ее в лидерборд

⛔️ Победила команда, с вот таким решением (см. фото). Боже, какой кринж, перебирали сиды через for. Причем победили с огромным отрывом ROC_AUC. Моё мнение - лик. Команда победителей не скинула мне свой репозиторий, а на компетентность жюри в поиске ликов я уже давно не рассчитываю, т.к. у них всего несколько часов на анализ аж 10 репозиториев.

✅ Отмечу только, что эксперты на вопросы отвечали с первого раза (ну почти)

Потраченного времени жаль

P.s. Извините что затоксил :((

🔥10👍1

431 viewsedited 14:59

Канал Доброго Вани | Data Science и Продуктики

Ну да, я

😁14😢1

363 views08:00

Канал Доброго Вани | Data Science и Продуктики

#Ботаем

Сегодня поговорим, чем отличаятся гистограмма 1 уровня от гистограммы 99 уровня

Но для начала вкину несколько фактов:

1. Гистограмма - это приближенная плотность распределения

2. Рекомендуемое кол-во бинов задается по формуле Стерджеса k = logN + 1 (N - объем выборки)

3. Так как гистограмма - это приближенная плотность, то и площадь ее должна равняться единице

На левой картинке дефолтная гистограмма (pd.Series.hist()) 1 уровня, на правой гистограмма 99 уровня, а именно:


plt.hist(data[0], bins=int(np.log2(len(data)) + 1), density=True)

(полный код в комментариях)

Обе гистограммы построены на одних и тех же данных

Кто-то использует дефолтную ненормализованную (площадь не равна единице) гистограмму, чтобы оценить моду (самое частое значение в выборке) или нормальность, но лучшее представление о плотности, а значит и о распределении, даст именно такая НОРМАЛИЗОВАННАЯ гистограмма со второй картинки

Пользуйтесь😌

👍7❤2

427 views09:04

About

Blog

Apps

Platform