Канал Доброго Вани | Data Science и Продуктики – Telegram

Канал Доброго Вани | Data Science и Продуктики

1.38K subscribers

534 photos

26 videos

7 files

118 links

Самый добрый канал про DataScience, ML, техпред, стартапы и про много чего еще 🥰

Реклама, сотрудничество и любые другие вопросы -> @Pleshakovski

Download Telegram

About

Blog

Apps

Platform

Канал Доброго Вани | Data Science и Продуктики

1.38K subscribers

Канал Доброго Вани | Data Science и Продуктики

😪 История о том, как Иван Хэмингуэй написал минутный рассказ, способный расстрогать любого...

😱 Итак, вот такой баг я посеял в своей тетрадке в 22:30 и нашел его только спустя полчаса дебага

Кто понял, ставит эмодзи кота 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

26🗿12❤2👍2

1.07K viewsedited 20:22

Канал Доброго Вани | Data Science и Продуктики

Друзья, я записался на HARD ML от Karpov Courses 😁

Записался на все блоки:

1️⃣Ранжирование и матчинг
2️⃣Uplift-моделирование
3️⃣А/Б тестирование
4️⃣Сценарии деплоя
5️⃣Рексис
6️⃣Динамическое ценообразование

Почему Хард МЛ?

⏺️ Ну, во-первых, ровно те темы, в которых я хочу разобраться поглубже.
⏺️ Во-вторых, суперраспиаренный курс, и кто как не ваш админ даст вам честную обратную связь по каждому блоку?

Я решил начать с блока Ранжирования и, честно говоря, чувствую очень мощный буст. Уже прошел половину блока, пока что нравится.

Кстати хочу запустить серию постов, в которой расскажу про подходы в каждой области DS и ML. И, может быть, даже разобью каждую область на:

🟢 easy
🟠 medium
🔴 hard

Что скажете? Предлагаю вам написать в комментарии, разбор каких областей вы бы хотели увидеть 🧑‍💻

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27👍5🔥4👎2

1.16K viewsedited 10:09

Канал Доброго Вани | Data Science и Продуктики

🤨 Сегодня 2⁸=256й день в году, а это значит чтооо....

Опять на работу

😐 Сегодня отмечается День программиста

🐵 Канал доброго Вани поздравляет всех дата сатанистов, бэкендистов, фронтендистов, аналистов, девопсистов, безопасников - и всех причастных с ~~очередным поводом выпить~~ нашим праздником!

Не забываем поздравлять братков и коллежек!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤30114🔥1

1.17K viewsedited 07:58

Канал Доброго Вани | Data Science и Продуктики

Karpov Courses. Ранжирование. Часть 1

🌀 В курсе идет речь о различных подходах в решении задач матчинга, ранжирования, кластеризации. Где это может пригодиться? Ну, например, поиск похожего товара, удаление дублирующихся строк в датасете, задача поиска в браузере и другие.

🌀 Курс состоит из 10 занятий (10 лекций + 10 домашек). В рамках курса разбираются исторические и SOTA архитектуры, а в рамках домашек предлагается их имплементировать. + в конце идет проект.

Плюсы курса:

🟢 Интересные домашки
🟢 Сложный материал
🟢 Поддержка отвечает быстро (конечно, если вы не проходите слитый курс)

Минусы курса:

🔴 Курс разработан давно и тестирующая система использует старые версии библиотек
🔴 Некоторые задания сформулированы некорректно, что вынуждает писать в поддержку за разъяснениями

🌀 Резюме: если вы просто хотите разобраться в ранжировании и у вас достаточно для этого мотивации, то слива вам хватит с головой. Курс, к сожалению, не стоит своих денег, т.к., по сути, вы платите за тестирующую систему и поддержку, однако сам материал 10/10.

🌀 В целом, так как я до этого не особо умел в ранжирование, ставлю курсу 8/10. На неделе постараюсь его уже добить и перейти к Uplift-моделированию. А сейчас пойду писать пост про подходы в ранкинге, которые мне больше всего зашли на этом курсе.

Лайк? 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥167🤩3❤1

1.15K views12:00

Канал Доброго Вани | Data Science и Продуктики

💫 Друзья, рад видеть новых подписчиков, с кем вчера пересеклись на Success Story Evening.

💫 Душевно пообщались про тех предпринимательство и гранты. А сегодня в дополнение к моему вчерашнему рассказу я бы хотел поделиться парой книжечек.

💫 Не то чтобы их стоит прочитать от начала до конца, это скорее мои настольные справочники. Мое основное образование - это работа с данными. Хорошего менеджерского и маркетингового бэкграуда у меня нет, ну, по крайней мере, год назад точно не было (в сутках всего 24 часа, к сожалению). Поэтому лично мне эти материалы помогли.

⭐️ 7 Нот менеджмента. Если вы строите свое дело, особенно первое, то рекомендую. Здесь про менеджмент и управление в целом, но менеджмент в области ИТ несильно далеко убежал, хотя в инструментальном плане стоит догнаться видосами про ношен, миро, фигму и др... Может показаться, что это немножко оверхед, но, повторюсь, не нужно читать все главы подряд, выбирайте то, что для вас актуально.

⭐️ Основы Маркетинга от Котлера. Ну это база баз. Как минимум, после прочтения понимаешь, почему хорошим маркетологам столько платят

🔥 Сохраняем и пользуемся на здоровье

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4❤14🔥6🐳3👍1

1.36K views13:11

Канал Доброго Вани | Data Science и Продуктики

Всех с пятницей друзья!

Админ немного приболел, но свежий пост, надеюсь, выйдет вовремя 😇

Пока все заряжаются на выходные, пишите кто на какой хак в эти выходные идет и какой кейс 😆

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍4😁4🤩22❤1

1.24K viewsedited 09:55

Канал Доброго Вани | Data Science и Продуктики

#Хакатоны

Начался сезон хакатонов. Самые вкусные призовые, самые интересные кейсы

XLABS AI HACK

Задача:
Создать модель для генерации вокала по входным данным

Даты:
Регистрация до 1 ноября
Разработка 2-16 ноября
Питч 17 ноября

Призовые:
1 место - 1 млн руб
2 место - 600 тыс руб
3 место - 400 тыс руб

Оцениваю хак на 7.5/10 по шкале КДВ. Веселая задача из серии "Сэр да сэр, но это опера". Качество проверяется на слух (по качеству генерации)

Yandex Cup 2024

Задача:
Ежегодное соревнование для ИТшников всех мастей. В этом году среди задач:
- Предсказание движения беспилотного автомобиля
- Определение кавер-версий музыкальных треков

Даты:
Отборочный этап 14.10 - 04.11
Финал 2-5 декабря

Призовые:
1 место - 350 тыс руб
2 место - 300тыс руб
3 место - 200тыс руб

Оцениваю на 7.5/10 по шкале КДВ. Эта история даже не про призы, не про победу, а про участие. Ежегодный чекпоинт скилов на традиционном чемпионате с отличной организацией.

10👍113❤2👎11

1.18K viewsedited 10:14

Канал Доброго Вани | Data Science и Продуктики

Ранжирование. 🟢 easy

🔥 Как договаривались, пишу постик по ранжированию. В блоке easy обсудим метрики и базовый подход.

❓ Представим, что блэкбокс принимает запрос (например товар, к которому мы хотим найти наиболее похожие товары из Базы Данных) и выдает топ-K самых похожих товаров с уровнем похожести (число от 0 до 1).

❓ Классическими метриками ранжирования являются:

☺️Recall@K - покажет, какую долю всех похожих товаров в датасете мы покрыли в этих топ-K
☺️Precision@K - покажет, сколько % среди этих топ-К товаров действительно являются похожими
☺️MRR - обратный ранг (подойдет, если ищем единственный релевантный товар)
☺️Kendall's t - ранговый коэффициент (оценивает ранжирование исходя из числа перестановок до идеального ранжирования)
☺️AveragePrecision, MeanAveragePrecision, NDCG, PFound - более сложные и более популярные метрики

❓ Наверное, самым базовым подходом в ранжировании является Pointwise подход - то есть "точечный" подход, при котором мы сравниваем запрашиваемый товар поточечно с каждым товаром в базе.

Например, у нас
1. Есть предобученные эмбеддинги товаров в базе
2. Есть эмбеддинг запрашиваемого товара
3. Мы по очереди считаем cosine similarity этого товара со всеми товарами в базе
4. Сортируем товары в базе по убыванию cosine similarity
5. Берем Топ-K

❓ Проблема этого подхода заключается в том, что мы, во-первых, не обучаем никакую модель прогнозировать значение релевантности, во-вторых, никак не используем соседние товары в базе при оценке релевантности какого-либо товара из базы (иными словами, не учитываем контекст)

👍, если ждешь пост 🟠medium про то, как эти проблемы победить

#Ботаем

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤65

1.22K viewsedited 09:20

Канал Доброго Вани | Data Science и Продуктики

😎 Друзья, всем привет! К нам в NeOrator ищем фронтендера

💫

Чем предстоит заниматься

— Разработка самого сервиса (макеты и ручки готовы) (будет много работы с дашбордами)
— Разработка лендинга проекта (тоже по макетам)
— Сбор метрик сайта

— 10-15 часов в неделю
— Полностью удаленно
— Можно совмещать с работой

💫

Необходимые навыки

— Умение строить сложные графики и интерактивные дашборды
— Ответственность и инициативность
— Опыт разработки в команде

💫

Что предлагаем

— Сильный коллектив (2 МЛ, product, backend, team lead), ведущий проект к светлому будущему
— Полноценное членство в команде (упоминание во всех медиаресурсах, сайтах и пр)
— Долю в проекте после официального релиза (~февраль)
— Крутой проект в портфолио

💫

NeOrator - сервис для развития ораторских навыков с применением ИИ-технологий. Мы уже получили 1млн на развитие и планируем привлечь еще больше в ближайшем будущем. Сейчас находимся на финальном этапе разработки альфа-версии приложения и регистрируем ООО.

💫 Прислать резюме и задать вопросы можно мне в личные сообщения

💖 Буду очень признателен, если поделитесь этим постом со знакомыми фронтами, т.к. вопрос срочный достаточно :)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4❤3

1.13K viewsedited 13:11

Канал Доброго Вани | Data Science и Продуктики

Forwarded from НеОратор

⚡️ Мы с отличными новостями!

🔥 Альфа-версия НеОратора уже на финишной прямой, и мы рады анонсировать Бета-тестирование приложения, в котором может принять участие каждый из вас. В рамках него вы сможете бесплатно пользоваться сервисом в течение 2.5-3 месяцев.

❓ Что для этого нужно?

1. Заполнить формочку по ссылке. Очень большая просьба отвечать на вопросы максимально развернуто (от этого зависит результат рассмотрения заявки)

2. Ждать результатов рассмотрения заявки

❓ Что ждем от вас?

1. Желание прокачать ораторские навыки

2. Готовность пользоваться сервисом не менее 1 раза в неделю и давать обратную связь о работе приложения

🔥 НеОратор - сервис для развития ораторских навыков. ИИ-ассистент распознает недостатки в речи, подберет персональные упражнения и поможет отслеживать прогресс.

🔥 Подробнее про НеОратор на нашем сайте и в презентации.

Заявки принимаются до 15.11.2024

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤31

1.12K views10:19

Канал Доброго Вани | Data Science и Продуктики

🔫 09.09.2024 на древней китайской площади ничего не произошло

😣 Ну а если серьезно, то в этот день Notion отрубил пользователей из РФ. Ну а если еще серьезнее, то не отрубил, а лишний раз подключил к ВПН.

😎 Признаться, я перепробовал достаточно альтернатив: это и Affine, это и WEEEK, и Obsidian - и многие другие, которые меня вообще не впечатлили.

⌨️ Оставив моральную составляющую вопроса, могу сказать, что Notion остается лучшим продуктом на рынке, значительно опережая свои аналоги по функционалу и удобству.

А вы продолжаете пользоваться Notion?
👍 - да
🐳 - нет
👀 - никогда им не пользовался

Please open Telegram to view this post

VIEW IN TELEGRAM

30👍25🐳24

1.09K views12:08

Канал Доброго Вани | Data Science и Продуктики

😊 Всем доброго утра!

🔜 Пришло время провести небольшую перепись населения КДВ

❤️ Будет парочка опросников. Для вас это пара секунд, а мне поможет адаптировать контент под вас :)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

1.01K views08:02

Канал Доброго Вани | Data Science и Продуктики

Перепись населения КДВ. Кто ты?

Anonymous Poll

Аналитик

ИТ, но не ML/DS/AI/Аналитик

Технарь, но не ИТ

Гуманитарий

🔥4❤22

249 voters1.14K views08:03

Канал Доброго Вани | Data Science и Продуктики

Твой грейд

Anonymous Poll

114🔥3

266 voters1.17K views08:44

Канал Доброго Вани | Data Science и Продуктики

Я Генеральный директор ООО "НЕОРАТОР"

🔥 Такой вот небольшой чекап-пост, который я наверняка буду вспоминать много раз. Было ли это просто? По сравнению со всем остальным - да.
Но давайте конкретно, что нужно, чтобы открыть ООО сегодня?

☺️ Очевидно, придумать название
☺️ Выбрать систему налогообложения
☺️ Создать электронную подпись физлица
☺️ Выбрать устав ООО (типовой или самописный)
☺️ Найти юриста и бухгалтера
☺️ Найти юридический адрес и получить выписку из ЕГРН
☺️ Подать доки в налоговую и подписать их
☺️ Создать электронную подпись юрлица
☺️ Открыть счет юрлица
☺️ И еще много много чего ....

🔥 Для меня это суперопыт, которым я уже делюсь со многими и всегда буду рад поделиться с вами .

🔥 Продолжаем развиваться и делать business

https://www.rusprofile.ru/id/1247700717989?ysclid=m34a0abedq131250764

Please open Telegram to view this post

VIEW IN TELEGRAM

11❤40🔥11👍8🍾42👎1

1.31K viewsedited 09:55

Канал Доброго Вани | Data Science и Продуктики

👀 Пока все празднуют победу на хакатонах, я праздную победу над Airflow на винде

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍15❤5🔥5😁3

1.05K views18:35

Канал Доброго Вани | Data Science и Продуктики

Всех жду 😊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1👎1😁1

995 views08:51

Канал Доброго Вани | Data Science и Продуктики

Forwarded from ITAM

This media is not supported in your browser

VIEW IN TELEGRAM

0:46

963 views08:51

🔥13🤩7❤5👎1😁1

Канал Доброго Вани | Data Science и Продуктики

Forwarded from ITAM

Не оратор? Стань им!
Приходи на DemoDay, узнай, как сервис НеОратор помогает развивать навыки публичного выступления и получи возможность принять участие в закрытом тестировании приложения!

И конечно, у тебя будет отличная возможность пообщаться с создателями проектов и получить заряд мотивации для развития своей идеи ⚡️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🍾3👎1

1.06K views08:53

Канал Доброго Вани | Data Science и Продуктики

Ранжирование. 🟠 medium

🧑‍💻 Как же мы можем победить проблемы из предыдущего поста, который был посвящен Pointwise подходу? Напомню, что мы, во-первых, хотим именно прогнозировать значение релевантности (а не просто брать косинус) и, во-вторых, обращать внимание на контекст товаров.

Существуют также Pairwise (попарный) и Listwise (списочный) подходы.

🧑‍💻 Из названий можно догадаться, что в случае pairwise-подхода мы семплируем пары товаров и обучаем модель прогнозировать релевантность элементов в паре. Как их собрать, в целом, очевидно: разметить похожие записи, а потом насемплировать непохожие записи.
Также можно обучать модель максимизировать разницу между positive и negative семплами:
P(f(X, Xi) > f(X, Xj)) <= 1 - вероятность отранжировать Xi элемент выше элемента Xj.

Какие модели? RankNet, MART, Lambda SMART, KNRM...

🧑‍💻 Listwise подход предполагает одновременное ранжирование всех элементов базы. Звучит как что-то очень сложное и не очень эффективное. Конечно, этот вариант вряд ли можно применить в качестве кандидатной модели, однако, в качестве реранжирующей модели этот подход точно заслуживает внимания.

Плюс этого подхода в том, что мы по максимуму учитываем контекст в базе, то есть взаимоотношения между всеми позициями. Например, мы можем идти по "кандидатам" при помощи LSTM, Attention или их модификаций и для каждой позиции выдавать скор релевантности.

Какие модели? DLCM, SetRank...

😢 Ну как? Готовы к харду?

#Ботаем

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤32👍1

1.09K viewsedited 09:25