Канал Доброго Вани | Data Science и Продуктики

Друзья, сегодня должен был выйти первый пост рубрики #Ботаем, но что-то пошло не по плану...

1лайк = +1хп админу ♥️

❤23

457 viewsedited 19:34

Канал Доброго Вани | Data Science и Продуктики

396 views09:09

Канал Доброго Вани | Data Science и Продуктики

рубрика #Ботаем

Все мы слыхали про параметры всяких распределений: матожидание, дисперсия, островершинность, скошенность и тп. У эмпирических распределений (это ваша выборка) есть те же самые параметры, которые мы пытаемся оценить "выборочно", т.е. при помощи выборки.

Так, например, мы часто ищем матожидание как среднее выборки. Но поспорим, вы не задумывались, насколько это вообще законно?

У выборочной оценки есть 3 характеристики

1. Несмещенность

2. Состоятельность

3. Эффективность

Подробнее про них на картинках.

Так вот у параметра выборки может быть огромное число выборочных оценок, и все их можно использовать как фичи. Кроме того, многие из них будут несмещенными и состоятельными, но НЕэффективными!

Так, например, матожидание в виде среднего по выборке будет всегда несмещенной и состоятельной оценкой, но эффективной для НОРМАЛЬНОГО распределения. Если, например, выборка распределена по Экспоненциальному закону, то не факт, что такая оценка будет эффективной, впрочем по этой теме люди статьи пишут🥲

Эффективности удается добиться не всегда. И иногда лучше иметь смещенную оценку, но с большей эффективностью и наоборот. Всë, как всегда, зависит от выборки.

Именно поэтому все любят "нормальность" в данных, такие дела 😌

🔥6❤1👎1

496 viewsedited 09:09

Канал Доброго Вани | Data Science и Продуктики

Выстрадали (Mr MISISter)

🔥14❤1

420 viewsedited 18:30

Канал Доброго Вани | Data Science и Продуктики

🔥1

401 views14:59

Канал Доброго Вани | Data Science и Продуктики

#Хакатоны
GoodsForecastHack от Дикси

В дурке у ЦП официально пополнение. Глубокий вдох... поехали

🫠 Нужно было предсказать отсутствие товара на полке магазина (1 или 0)

⛔️ После окончания регистрации отменили 2-3 места на обоих кейсах (вместе с призами, надеюсь Дикси сделают у меня на районе ремонт с этих 4 сэкономленных комплектов мерча)

⛔️ На платформе слетела ссылка на наш репозиторий с решением, причем мы загрузили всё корректно. А узнали мы об этом только на питче, до которого с момента стоп-кода прошло 3 часа (менторы, вы лучшие)

⛔️ В конце забыли про нашу команду и не добавили ее в лидерборд

⛔️ Победила команда, с вот таким решением (см. фото). Боже, какой кринж, перебирали сиды через for. Причем победили с огромным отрывом ROC_AUC. Моё мнение - лик. Команда победителей не скинула мне свой репозиторий, а на компетентность жюри в поиске ликов я уже давно не рассчитываю, т.к. у них всего несколько часов на анализ аж 10 репозиториев.

✅ Отмечу только, что эксперты на вопросы отвечали с первого раза (ну почти)

Потраченного времени жаль

P.s. Извините что затоксил :((

🔥10👍1

431 viewsedited 14:59

Канал Доброго Вани | Data Science и Продуктики

Ну да, я

😁14😢1

363 views08:00

Канал Доброго Вани | Data Science и Продуктики

#Ботаем

Сегодня поговорим, чем отличаятся гистограмма 1 уровня от гистограммы 99 уровня

Но для начала вкину несколько фактов:

1. Гистограмма - это приближенная плотность распределения

2. Рекомендуемое кол-во бинов задается по формуле Стерджеса k = logN + 1 (N - объем выборки)

3. Так как гистограмма - это приближенная плотность, то и площадь ее должна равняться единице

На левой картинке дефолтная гистограмма (pd.Series.hist()) 1 уровня, на правой гистограмма 99 уровня, а именно:


plt.hist(data[0], bins=int(np.log2(len(data)) + 1), density=True)

(полный код в комментариях)

Обе гистограммы построены на одних и тех же данных

Кто-то использует дефолтную ненормализованную (площадь не равна единице) гистограмму, чтобы оценить моду (самое частое значение в выборке) или нормальность, но лучшее представление о плотности, а значит и о распределении, даст именно такая НОРМАЛИЗОВАННАЯ гистограмма со второй картинки

Пользуйтесь😌

👍7❤2

427 views09:04

Канал Доброго Вани | Data Science и Продуктики

Погода, конечно, полная жесть. За что ни пытаюсь себя усадить - тщетно.

Если вы устали и хочется позалипать в кинчик, то это лучший день имхо.

Вообще, я уже недавно устраивал для себя парад фильмов:

Дюна 7/10
Поймай меня если сможешь 9/10
Список Шиндлера 10/10
Лучшее предложение 8/10
Лалаленд 7/10

А сегодня гляну Невидимого гостя, если не залипну в шахматы, как-то так.

P.s. скоро будет очень много всего интересного, но всему свое время😌

🔥8❤1👍1

385 views13:24

Канал Доброго Вани | Data Science и Продуктики

#ИсторияАдмина

Просили - делаю. Как я отдыхаю?

Ну давайте начнем с того, что DataScince мне в кайф)
Вобщем-то если так посмотреть, чем я занимаюсь на неделе: работа, вуз, проект, хакатоны иногда, зал, футбольчик посмотреть, на фондовый рынок сколько-то времени уходит - то получается, что пока занимаюсь одним, голова отдыхает от всего остального🥲🥲🥲

Но будем честны, в определенный момент от всего этого устаешь и что тогда? Всё просто, гулять, кушать вкусно в рестиках, куда-то съездить возможно. Например, этим летом гоняли в Сочи с друзьями. Вариантов масса.

Я вообще люблю хорошие кафешки, люблю и сам приготовить, если не лень. Открываю рецептик, закупаю продукты и весь вечер развлекаюсь.

Самое банальное, лечь посмотреть кинчик или сериал. Для любителей футбола еще и Лига чемпионов, Лига европы - балдеж.

Давайте, по такому случаю, что-ль в комментах обсудим любимые сериалы? 🌌

❤8

391 viewsedited 09:49

Канал Доброго Вани | Data Science и Продуктики