Канал Доброго Вани | Data Science и Продуктики
1.38K subscribers
534 photos
26 videos
7 files
118 links
Самый добрый канал про DataScience, ML, техпред, стартапы и про много чего еще 🥰

Реклама, сотрудничество и любые другие вопросы -> @Pleshakovski
Download Telegram
💕 Друзья, всех приветствую после небольшой зимней спячки

✏️ Последние два месяца выдались безумно насыщенными. Я слетал в отпуск, отработал свой первый месяц в Яндексе, уже почти пробил 450 подписчиков в инсте (дада, на какое-то время переключился с тг-канала на инсту, кстати отличная воронка вышла)

✏️ Сейчас активно изучаю вопрос магистратуры, готовлю Неоратор к релизу, развиваю инст и ТТ, набираю форму в каче - вобщем все очень насыщенно

✏️ Совсем скоро продолжу вести КДВ, а пока всех приглашаю в инст

Ну и всех с небольшим опережением поздравляю с пережитой зимой 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15😁9🔥54
Forwarded from НеОратор
❤️ «НеОратор» – ОФИЦИАЛЬНЫЙ РЕЛИЗ!

Это свершилось: «НеОратор» вышел в релиз, и теперь прокачать свои ораторские навыки стало ещё проще!

💡 Что нового после бета-тестирования?

🟣 Упражнения для развития — практикуйтесь эффективно с подробными инструкциями;
🟣 Генерация тем для импровизации — не знаете, на какую тему импровизировать? Одно нажатие кнопки решит проблему — сотни актуальных тем;
🟣 Разбор воды в речи — узнайте процент воды в речи, избавляйтесь от лишнего и делайте выступления еще увлекательнее;
🟣 Загрузка видео с Rutube и ВКонтакте — анализируйте свои выступления, где бы они ни были;
🟣 Расширенные персональные рекомендации — ещё больше ценных инсайтов для роста!


🎁 ПОДАРОК К РЕЛИЗУ — бесплатный доступ к подписке PRO на 1 месяц!


Регистрируйтесь прямо сейчас: app.neorator.ru. Пора стать мастером слова! 🎤
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥157💘4💅1
🌟 Лох не мамонт или история про то, как меня заскамили

Сидел, работал, починял примуса и никого не трогал, как вдруг в звонок:

- Иван Николаевич, на ваше имя заказана доставка. Вам заказан подарок мэджик бокс, получится ли принять сегодня с 17 до 19?
….

🎊 Ну и слово за слово для подтверждения заказа как-то в рабочем потоке, чтобы от*ебались уже от меня, назвал им код из SMS - и в этот момент вашего мамонта-админа осиняет

🎊 Началась гонка на опережение.

Что я сделал:
- Сменил пароль на госуслугах
- Поставил самозапрет на кредиты
- Обзвонил все банки и забанил счета
- Съездил в МФЦ, проконсультировался и поставил запрет на сделки с недвижимостью без личного присутствия (да-да, кто-то от вашего имени может заключать сделки с продажей вашей недвиги без всякого подтверждения 😁)
- Непрестанно мониторил свои кредитные статусы

🎊 И, вроде бы, пока что пронесло. Мораль, друзья: как только вы слышите что-то вроде «назовите код из СМС» - СРАЗУ кладите трубу.

А вы, скамеры, все получите по заслугам. Тьфу на вас

P.s. стоит ли сказать, что в следующие 2 часа после того звонка у меня было 20< пропущенных с незнакомых номеров
Please open Telegram to view this post
VIEW IN TELEGRAM
😢41😁9👎4👍3🔥3🗿32
Какой город зашифровал?)
🤫😶‍🌫️
😁5🔥4
Всем доброго утра, дорогие подписчики!

Мне потребовалось время на небольшое переосмысление канала, но теперь все будет качественно, регулярно и интересно.

Сначала немного новостей:

Я отметил 22-летие, и мне подарили прекрасный пак эмодзи, который теперь будет регулярным в этом канале.
Встречаем 😎😎😎😎😎

Теперь к теме поста. А почему я вообще веду канал и почему не должен прекращать?

1️⃣Ну, самое очевидное, после 500 подписчиков мне начали регулярно приходить предложения о размещении рекламы. Это и денюшка, и кое-какой авторитет среди SMMщиков. Но рекламу я фильтрую, уж поверьте мне. Рекламу Цифрового прорыва вы на этом канале никогда не увидите (даже если бы он был жив)

2️⃣Мне есть о чем рассказать. Я знатно поработал над бэклогом тем, они будут интересны и начинающим и уже прошаренным специалистам

3️⃣Мне очень приятно видеть, что моя работа не напрасна. Во время паузы я услышал много теплых слов о том, что канал должен жить - и так будет, друзья

4️⃣И самая важная причина: мне просто нравится. Хорошо же получается, да?)


Если вы, как и я, соскучились, предлагаю вам накинуть какую-нибудь тему для поста или мучающий ваш вопрос мне (буду отвечать в комментах к этому посту)

Вобщем, keep going. За МЛ священный и бизнес благословенный
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1598👍1👎1
☀️ Сегодня о наболевшем

Как борешься с выгоранием в режиме работа+учеба?


Было бы интересно узнать, как ты это всё совмещаешь, соблюдается ли work-life balance? Если работы больше, то как удаётся не выгорать и держать себя в тонусе?


расскажи про work-life-balance, какие-то твои инсайты на эту тему


🌟 Это суровая правда, что последние 4 года я фигачу как чорт. От полного нуля в программировании до всего того, чем обладаю сейчас - вобщем, трудоголик со стажем. Работа, блоги, курсы (и прохождение, и составление, и ведение), проекты, уник, хаки - много-много всего, что вносило разнообразие в мою жизнь.

Но за последние полгода многое изменилось. Все это выродилось в рутину и перестало приносить удовольствие. В конце концов, в январе я тотально выгорел. Я взял паузу в блоге, сменил работу, сфокусировался только на Яндексе и НеОраторе, прочитал много книг и статей о том, как привести жизнь в порядок, решил найти новые хобби, новых людей, поставить новые цели, попробовать что-то новое...

Стал больше путешествовать, начал учить Испанский, стал больше заботиться о здоровье, начал регулярно заниматься спортом... - вобщем как в той притче с большими камнями, горохом и песком. И чувствую себя просто отлично.

🌟 Из чего делаю очень важный вывод: фокусируйтесь на самом важном для вас, на двух стульях не усидеть. Мне этот расфокус очень дорого обошелся, но я и не жалею об этом, тк мне это нравилось и принесло свои плоды (на раннем этапе этакий расфокус, наверное, даже лучше чем полный фокус на чем-то одном). Но сейчас я явно вижу, что если фокусируюсь на работе, то не могу фигачить по 3 рилса и 3 поста в неделю. Так же, как и если работаю и фигачу по 3 поста и 3 рилса, то страдает НеОратор и спорт. В то время, как, просто сосредоточившись на одном лишь блоге во время отпуска, я набрал 500 подписчиков во всех соцсетях за 2 недели (не имея никакого опыта в монтаже кст).

🌟 В один момент фокус становится важнее расфокуса и в этот момент важно прополоть все свои активности и строго всё приоритезировать. Это не совет, а мое личное наблюдение. Посмотрим, мб и переобуюсь потом, но, думаю, я на верном пути

Ставь 🐳, если смотришь Семихатова
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25🐳178👎3👍2💘1
Попался классный чек-лист по нейронкам

Хорош он не только для использования самих нейронок, но и для проверки гипотез при построении своих решений. Условно, хотите вы запустить свой сервис транскрибации с каким-то УТП - вот вам, пожалуйста, списочек конкурентов для проверки и сравнения. Или же вы хотите в своих роликах или постах обозреть нейронки - вот вам, пожалуйста, темы для минимум 50 креативов

Вобщем, оставлю тут, чтоб не терялся
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1810👍8
Сегодня 💻💻💻💻

А что ботаем? Ботаем фундаментальный RecSys

А начнем мы с постановки задачи и небольшого экускурса по проблемам насущным:
🔸есть товары (item)
🔸есть пользователи (user)
🔸для каждого пользователя знаем историю его целевых действий (заказы, клики и тп)
🔸для каждого пользователя знаем его персональные данные (в идеале)
🔸для каждого товара знаем его описание и характеристики

Ну чего хочется? Хочется предложить пользователю максимально подходящий товар. На самом деле, рексис и ранжирование хорошо дружат и держатся за ручки, поэтому, изучив ранжирование, вы, скорее всего, изучите и рексис:

1⃣Ранжирование раз https://t.me/pleshakovsky/681

2⃣Ранжирование два https://t.me/pleshakovsky/694


Коротюсенько осветим 5 ключевых подходов (хотя половина из них сводится к косинусному расстоянию между векторами товаров и пользователей):

1⃣ Ее величество Колаборативная Фильтрация (CF). Суть в том, что хотим прогнозировать интересы пользователя по похожим пользователям

Все просто:
🔸Составляем матрицу user-item (на пересечениях ставим 1, если пользователь купил, и 0, если пользователь ничего не делал с этим товаром)
🔸Хотим спрогнозировать следующий заказ K-го пользователя (то есть хотим узнать, где в K-й строке матрицы появится следующая единичка)
🔸Ну и самое очевидное - найти самые похожие строки и посмотреть, какой item там самый популярный из тех, которых нет у K-го пользователя
🔸Достаточно грубый пример, но суть вы уловили. Вот тут поподробнее про user-based CF https://habr.com/ru/companies/lanit/articles/420499/

2⃣ Нейроночки.

Ну понятно, трансформеры, RNN. Глубоко тут вдаваться не буду, многое описал в постах про ранжирование. Сюда отнесу всякие двубашенные архитектуры, DSSM, KNRM, SASRec (статья полезная достаточно https://habr.com/ru/companies/prequel/articles/573880/)

3⃣ Ну катбусты мои родимые.

И в классификацию могут, и в регрессию, и в ранжирование. Про LambdaMART, YetiRank коротюсенько упоминалось уже в Ранжировании, поэтому сильно тормозить на этом не будем. Вот небольшая страничка про Lambda https://how.dev/answers/what-is-lambda-rank

4⃣ Факторизационные машины. Получаем с помощью матричного преобразования вектора (эмбеддинги) пользователей и товаров, а далее творим с ними все, что душе угодно

Примеры: SVD, SVD+, ALS… Тут оставлю обзор на алгоритмы матричной факторизации
https://habr.com/ru/articles/486802/

5⃣ KNN и ANN. Получили мы много-много векторов для пользователей и товаров, а дальше хотим среди них как-то искать ближайшие. Об этом поговорим в отдельном посте

Резюме: рексис - это достаточно красиво, иногда интерпретируемо, бизнесово и модно. Миллиард подходов и методов и зачастую число видюх вообще не роляет

Напишите в комментариях, по какому подходу или модели хотите увидеть пост

#Ботаем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍1
💻💻💻💻

Обещанный пост про векторные индексы

Что за зверь такой ваш этот векторный индекс? Ну все просто: есть у вас, допустим, эмбеддинги товаров и вы хотите их где-нибудь хранить. А потом чтоб еще и пробежаться по ним можно было шустро и, например, найти наиболее похожие вектора (товары)

Для таких задач и существует так называемый векторный индекс и очень часто в этом контексте всплывает библиотечка FAISS. Какие же варианты структуры индекса предоставляет эта библиотека и какие еще там есть трюки? Обсудим самые популярные варианты

1⃣ PQ - Product Quantization (фото 1-2)
Позволяет сжать вектора. Метод заключается в том, что каждый вектор разбивается на подвектора, подвектора кластеризуются и формируется новый вектор, состоящий из номеров кластеров.

2⃣ IVF - Inverted File Index (фото 3)
Метод предлагает разбить векторное пространство на кластеры и к каждому кластеру вычислить его "центроиду". Далее сами кластеры будут храниться на диске, а маппинг центроид с кластерами в ОЗУ. Таким образом, когда вы будете искать ближайший вектор, вы сравните его с векторами центроид и для ближайшей центроиды возьмете ее кластер с векторами.

3⃣ NSW / HNSW - Hierarchical Navigable Small World graphs (фото 4)
Можно сказать, SOTA метод приближенного поиска ближайших соседей, основывающийся на жадном обходе графа (по сути, как правило 7 рукопожатий. Как до любого человека можно добраться через 7 рукопожатий, так и до похожего вектора можно добраться через N прыжков по графу, где каждый вектор - это узел)

Прелесть FAISS'a в том, что он позволяет изящно комбинировать все эти подходы для создания оптимальной векторной базы и дальнейших манипуляций с ней (подробнее что происходит с памятью https://habr.com/ru/companies/avito/articles/488658/ )

Рекомендуемые базовые конфигурации:
1млн - 10млн векторов : IVF65535_HNSW32 (Т.е. 65535 центроид и 32 слоя графов)
10млн-100млн векторов : IVF262144_HNSW32

Самостоятельно также советую изучить подходы K-D Tree, LSH и ANNOY


Где это можно применять?
Например, мой коллега Андрей, админ канала @awesome_dl , выпустил свежий пост, где создал бота для Q&A по курсу диффузионных моделей. И чтобы улучшить его планирует добавить механизм памяти, как раз через векторный индекс более чем применим. Очень полезный кейс, обязательно к прочтению. Еще рекомендую два поста про то как разобраться с диффузионными моделями и диффузионными моделями в видеогенерации



😎 Надеюсь, этот пост был полезен и теперь все вектора будут храниться и обрабатываться эффективно

#Ботаем
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥43
☀️ Неделю назад я сходил на DS Meetup от Купер Теха

Послушал 3 доклада:

1️⃣ «Как мы делали матчинг в Купере»


Ребята матчат похожие товары, оптимизируют ручное сопоставление. Многослойная архитектура норм, но выбор кандидатной модели и метрик мне остался не совсем понятен

2️⃣ «Uplift Space Oddity, или как запустить ML-космолёт и не упасть»


Ребята оценивают аплифты промо-кампаний. Используют Т-learner (то есть не прогнозируют аплифт напрямую, а обучают 2 катбуста прогнозировать условно продажи с промо и без промо, и разницу этих двух катбустов берут за аплифт). Если честно, подход больше похож на бейзлайн (с учетом того, что, по словам докладчика, MAPE в некоторых категориях товаров достигал 50%), и стоит попробовать, как минимум, S-learner и аплифт-деревья.

3️⃣ «Как делать рекомендации не с нуля»


Доклад, ради которого пришел на митап. Это очень близко к тому, чем сейчас занимаюсь, поэтому было интересно, как делают это в Купере.
Ребята делают рекомендации в ленте пользователя. Многослойная архитектура, норм кандидатные и реранжирующие модели, но есть траблы с разнообразием выдачи, холодным стартом (это когда у пользователя нет истории заказов) и обработкой истории заказов (всего 50 последних покупок).

Кому интересно послушать доклады, вот запись митапа

😎 За вопросы к 1ому и 3ему докладу даже получил приз за лучший вопрос
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥106👎1