Канал Доброго Вани | Data Science и Продуктики
1.38K subscribers
534 photos
26 videos
7 files
118 links
Самый добрый канал про DataScience, ML, техпред, стартапы и про много чего еще 🥰

Реклама, сотрудничество и любые другие вопросы -> @Pleshakovski
Download Telegram
😪 История о том, как Иван Хэмингуэй написал минутный рассказ, способный расстрогать любого...

😱 Итак, вот такой баг я посеял в своей тетрадке в 22:30 и нашел его только спустя полчаса дебага

Кто понял, ставит эмодзи кота 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
26🗿122👍2
Друзья, я записался на HARD ML от Karpov Courses 😁

Записался на все блоки:

1️⃣Ранжирование и матчинг
2️⃣Uplift-моделирование
3️⃣А/Б тестирование
4️⃣Сценарии деплоя
5️⃣Рексис
6️⃣Динамическое ценообразование


Почему Хард МЛ?

⏺️ Ну, во-первых, ровно те темы, в которых я хочу разобраться поглубже.
⏺️ Во-вторых, суперраспиаренный курс, и кто как не ваш админ даст вам честную обратную связь по каждому блоку?

Я решил начать с блока Ранжирования и, честно говоря, чувствую очень мощный буст. Уже прошел половину блока, пока что нравится.

Кстати хочу запустить серию постов, в которой расскажу про подходы в каждой области DS и ML. И, может быть, даже разобью каждую область на:

🟢 easy
🟠 medium
🔴 hard

Что скажете? Предлагаю вам написать в комментарии, разбор каких областей вы бы хотели увидеть 🧑‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍5🔥4👎2
🤨 Сегодня 2⁸=256й день в году, а это значит чтооо....

Опять на работу

😐 Сегодня отмечается День программиста

🐵 Канал доброго Вани поздравляет всех дата сатанистов, бэкендистов, фронтендистов, аналистов, девопсистов, безопасников - и всех причастных с очередным поводом выпить нашим праздником!

Не забываем поздравлять братков и коллежек!
Please open Telegram to view this post
VIEW IN TELEGRAM
30114🔥1
Karpov Courses. Ранжирование. Часть 1

🌀 В курсе идет речь о различных подходах в решении задач матчинга, ранжирования, кластеризации. Где это может пригодиться? Ну, например, поиск похожего товара, удаление дублирующихся строк в датасете, задача поиска в браузере и другие.

🌀 Курс состоит из 10 занятий (10 лекций + 10 домашек). В рамках курса разбираются исторические и SOTA архитектуры, а в рамках домашек предлагается их имплементировать. + в конце идет проект.

Плюсы курса:

🟢 Интересные домашки
🟢 Сложный материал
🟢 Поддержка отвечает быстро (конечно, если вы не проходите слитый курс)

Минусы курса:

🔴 Курс разработан давно и тестирующая система использует старые версии библиотек
🔴 Некоторые задания сформулированы некорректно, что вынуждает писать в поддержку за разъяснениями

🌀 Резюме: если вы просто хотите разобраться в ранжировании и у вас достаточно для этого мотивации, то слива вам хватит с головой. Курс, к сожалению, не стоит своих денег, т.к., по сути, вы платите за тестирующую систему и поддержку, однако сам материал 10/10.

🌀 В целом, так как я до этого не особо умел в ранжирование, ставлю курсу 8/10. На неделе постараюсь его уже добить и перейти к Uplift-моделированию. А сейчас пойду писать пост про подходы в ранкинге, которые мне больше всего зашли на этом курсе.

Лайк? 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥167🤩31
💫 Друзья, рад видеть новых подписчиков, с кем вчера пересеклись на Success Story Evening.

💫 Душевно пообщались про тех предпринимательство и гранты. А сегодня в дополнение к моему вчерашнему рассказу я бы хотел поделиться парой книжечек.

💫 Не то чтобы их стоит прочитать от начала до конца, это скорее мои настольные справочники. Мое основное образование - это работа с данными. Хорошего менеджерского и маркетингового бэкграуда у меня нет, ну, по крайней мере, год назад точно не было (в сутках всего 24 часа, к сожалению). Поэтому лично мне эти материалы помогли.

⭐️ 7 Нот менеджмента. Если вы строите свое дело, особенно первое, то рекомендую. Здесь про менеджмент и управление в целом, но менеджмент в области ИТ несильно далеко убежал, хотя в инструментальном плане стоит догнаться видосами про ношен, миро, фигму и др... Может показаться, что это немножко оверхед, но, повторюсь, не нужно читать все главы подряд, выбирайте то, что для вас актуально.

⭐️ Основы Маркетинга от Котлера. Ну это база баз. Как минимум, после прочтения понимаешь, почему хорошим маркетологам столько платят

🔥 Сохраняем и пользуемся на здоровье
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
414🔥6🐳3👍1
Всех с пятницей друзья!

Админ немного приболел, но свежий пост, надеюсь, выйдет вовремя 😇

Пока все заряжаются на выходные, пишите кто на какой хак в эти выходные идет и какой кейс 😆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍4😁4🤩221
#Хакатоны

Начался сезон хакатонов. Самые вкусные призовые, самые интересные кейсы

XLABS AI HACK

Задача:
Создать модель для генерации вокала по входным данным

Даты:
Регистрация до 1 ноября
Разработка 2-16 ноября
Питч 17 ноября

Призовые:
1 место - 1 млн руб
2 место - 600 тыс руб
3 место - 400 тыс руб

Оцениваю хак на 7.5/10 по шкале КДВ. Веселая задача из серии "Сэр да сэр, но это опера". Качество проверяется на слух (по качеству генерации)

Yandex Cup 2024

Задача:
Ежегодное соревнование для ИТшников всех мастей. В этом году среди задач:
- Предсказание движения беспилотного автомобиля
- Определение кавер-версий музыкальных треков

Даты:
Отборочный этап 14.10 - 04.11
Финал 2-5 декабря

Призовые:
1 место - 350 тыс руб
2 место - 300тыс руб
3 место - 200тыс руб

Оцениваю на 7.5/10 по шкале КДВ. Эта история даже не про призы, не про победу, а про участие. Ежегодный чекпоинт скилов на традиционном чемпионате с отличной организацией.
10👍1132👎11
Ранжирование. 🟢 easy

🔥 Как договаривались, пишу постик по ранжированию. В блоке easy обсудим метрики и базовый подход.

Представим, что блэкбокс принимает запрос (например товар, к которому мы хотим найти наиболее похожие товары из Базы Данных) и выдает топ-K самых похожих товаров с уровнем похожести (число от 0 до 1).

Классическими метриками ранжирования являются:

☺️Recall@K - покажет, какую долю всех похожих товаров в датасете мы покрыли в этих топ-K
☺️Precision@K - покажет, сколько % среди этих топ-К товаров действительно являются похожими
☺️MRR - обратный ранг (подойдет, если ищем единственный релевантный товар)
☺️Kendall's t - ранговый коэффициент (оценивает ранжирование исходя из числа перестановок до идеального ранжирования)
☺️AveragePrecision, MeanAveragePrecision, NDCG, PFound - более сложные и более популярные метрики

Наверное, самым базовым подходом в ранжировании является Pointwise подход - то есть "точечный" подход, при котором мы сравниваем запрашиваемый товар поточечно с каждым товаром в базе.

Например, у нас
1. Есть предобученные эмбеддинги товаров в базе
2. Есть эмбеддинг запрашиваемого товара
3. Мы по очереди считаем cosine similarity этого товара со всеми товарами в базе
4. Сортируем товары в базе по убыванию cosine similarity
5. Берем Топ-K

Проблема этого подхода заключается в том, что мы, во-первых, не обучаем никакую модель прогнозировать значение релевантности, во-вторых, никак не используем соседние товары в базе при оценке релевантности какого-либо товара из базы (иными словами, не учитываем контекст)

👍, если ждешь пост 🟠medium про то, как эти проблемы победить

#Ботаем
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1765
😎 Друзья, всем привет! К нам в NeOrator ищем фронтендера

💫 Чем предстоит заниматься

— Разработка самого сервиса (макеты и ручки готовы) (будет много работы с дашбордами)
— Разработка лендинга проекта (тоже по макетам)
— Сбор метрик сайта

— 10-15 часов в неделю
— Полностью удаленно
— Можно совмещать с работой

💫 Необходимые навыки

— Умение строить сложные графики и интерактивные дашборды
— Ответственность и инициативность
— Опыт разработки в команде

💫 Что предлагаем

— Сильный коллектив (2 МЛ, product, backend, team lead), ведущий проект к светлому будущему
— Полноценное членство в команде (упоминание во всех медиаресурсах, сайтах и пр)
— Долю в проекте после официального релиза (~февраль)
— Крутой проект в портфолио


💫 NeOrator - сервис для развития ораторских навыков с применением ИИ-технологий. Мы уже получили 1млн на развитие и планируем привлечь еще больше в ближайшем будущем. Сейчас находимся на финальном этапе разработки альфа-версии приложения и регистрируем ООО.


💫 Прислать резюме и задать вопросы можно мне в личные сообщения


💖 Буду очень признателен, если поделитесь этим постом со знакомыми фронтами, т.к. вопрос срочный достаточно :)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍43
Forwarded from НеОратор
⚡️ Мы с отличными новостями!

🔥 Альфа-версия НеОратора уже на финишной прямой, и мы рады анонсировать Бета-тестирование приложения, в котором может принять участие каждый из вас. В рамках него вы сможете бесплатно пользоваться сервисом в течение 2.5-3 месяцев.

Что для этого нужно?

1. Заполнить формочку по ссылке. Очень большая просьба отвечать на вопросы максимально развернуто (от этого зависит результат рассмотрения заявки)

2. Ждать результатов рассмотрения заявки

Что ждем от вас?

1. Желание прокачать ораторские навыки

2. Готовность пользоваться сервисом не менее 1 раза в неделю и давать обратную связь о работе приложения

🔥 НеОратор - сервис для развития ораторских навыков. ИИ-ассистент распознает недостатки в речи, подберет персональные упражнения и поможет отслеживать прогресс.

🔥 Подробнее про НеОратор на нашем сайте и в презентации.

Заявки принимаются до 15.11.2024
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥931
🔫 09.09.2024 на древней китайской площади ничего не произошло

😣 Ну а если серьезно, то в этот день Notion отрубил пользователей из РФ. Ну а если еще серьезнее, то не отрубил, а лишний раз подключил к ВПН.

😎 Признаться, я перепробовал достаточно альтернатив: это и Affine, это и WEEEK, и Obsidian - и многие другие, которые меня вообще не впечатлили.

⌨️ Оставив моральную составляющую вопроса, могу сказать, что Notion остается лучшим продуктом на рынке, значительно опережая свои аналоги по функционалу и удобству.

А вы продолжаете пользоваться Notion?
👍 - да
🐳 - нет
👀 - никогда им не пользовался
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍25🐳24
😊 Всем доброго утра!

🔜 Пришло время провести небольшую перепись населения КДВ

❤️ Будет парочка опросников. Для вас это пара секунд, а мне поможет адаптировать контент под вас :)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Я Генеральный директор ООО "НЕОРАТОР"

🔥 Такой вот небольшой чекап-пост, который я наверняка буду вспоминать много раз. Было ли это просто? По сравнению со всем остальным - да.
Но давайте конкретно, что нужно, чтобы открыть ООО сегодня?

☺️ Очевидно, придумать название
☺️ Выбрать систему налогообложения
☺️ Создать электронную подпись физлица
☺️ Выбрать устав ООО (типовой или самописный)
☺️ Найти юриста и бухгалтера
☺️ Найти юридический адрес и получить выписку из ЕГРН
☺️ Подать доки в налоговую и подписать их
☺️ Создать электронную подпись юрлица
☺️ Открыть счет юрлица
☺️ И еще много много чего ....

🔥 Для меня это суперопыт, которым я уже делюсь со многими и всегда буду рад поделиться с вами .

🔥 Продолжаем развиваться и делать business

https://www.rusprofile.ru/id/1247700717989?ysclid=m34a0abedq131250764
Please open Telegram to view this post
VIEW IN TELEGRAM
1140🔥11👍8🍾42👎1
👀 Пока все празднуют победу на хакатонах, я праздную победу над Airflow на винде
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍155🔥5😁3
Всех жду 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1👎1😁1
Forwarded from ITAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥13🤩75👎1😁1
Forwarded from ITAM
Не оратор? Стань им!
Приходи на DemoDay, узнай, как сервис НеОратор помогает развивать навыки публичного выступления и получи возможность принять участие в закрытом тестировании приложения!

И конечно, у тебя будет отличная возможность пообщаться с создателями проектов и получить заряд мотивации для развития своей идеи ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5🍾3👎1
Ранжирование. 🟠 medium

🧑‍💻 Как же мы можем победить проблемы из предыдущего поста, который был посвящен Pointwise подходу? Напомню, что мы, во-первых, хотим именно прогнозировать значение релевантности (а не просто брать косинус) и, во-вторых, обращать внимание на контекст товаров.

Существуют также Pairwise (попарный) и Listwise (списочный) подходы.

🧑‍💻 Из названий можно догадаться, что в случае pairwise-подхода мы семплируем пары товаров и обучаем модель прогнозировать релевантность элементов в паре. Как их собрать, в целом, очевидно: разметить похожие записи, а потом насемплировать непохожие записи.
Также можно обучать модель максимизировать разницу между positive и negative семплами:
P(f(X, Xi) > f(X, Xj)) <= 1 - вероятность отранжировать Xi элемент выше элемента Xj.

Какие модели? RankNet, MART, Lambda SMART, KNRM...

🧑‍💻 Listwise подход предполагает одновременное ранжирование всех элементов базы. Звучит как что-то очень сложное и не очень эффективное. Конечно, этот вариант вряд ли можно применить в качестве кандидатной модели, однако, в качестве реранжирующей модели этот подход точно заслуживает внимания.

Плюс этого подхода в том, что мы по максимуму учитываем контекст в базе, то есть взаимоотношения между всеми позициями. Например, мы можем идти по "кандидатам" при помощи LSTM, Attention или их модификаций и для каждой позиции выдавать скор релевантности.

Какие модели? DLCM, SetRank...

😢 Ну как? Готовы к харду?

#Ботаем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥832👍1