Data Scientist | IT

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

#почитать

я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.

До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.

Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

264 views10:52

Data Scientist | IT

Kaggle для футболистов: Классификация событий на футбольном поле

#почитать

Из видеозаписей футбольного матча необходимо установить, что за событие происходит на футбольном поле, в результате ожидают csv файл со следующими полями: id видео - момент времени, когда это событие произошло - что за событие произошло - уверенность от 0 до 1 в том, что это событие произошло.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

226 views10:47

Data Scientist | IT

7 взаимозаменяемых решений, которые ускорят рабочие процессы Data Science на Python

#почитать

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1

248 views10:41

Data Scientist | IT

AutismSmartDetector: Система для определения черт аутистического спектра

#почитать

предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

267 views10:43

Data Scientist | IT

Почему галлюцинируют нейросети [и что с этим делают]

#почитать

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

282 views10:38

Data Scientist | IT

Как ИИ научился думать картинками

#почитать

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

280 views10:52

Data Scientist | IT

Тест на прочность: LLM против сложных задач

#почитать

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

322 views04:54

Data Scientist | IT

Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

#почитать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍1

361 views04:56

Data Scientist | IT

Лайфхаки BI SuperSet

#почитать

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

314 views10:58

Data Scientist | IT

Нейросетевой интеллект для NPC

#почитать

Начнём с малого: допустим, мы создаем NPC, которые умеют собирать предметы по заданным правилам. Наша цель: создать «крафтовый» интеллект, т.е. такой интеллект, который выбирает, что будет делать NPC из предметов в его инвентаре. Такую штуку можно попробовать реализовать с помощью конченных конечных автоматов, поведенческих деревьев (behaviour tree) или ещё как-нибудь. Но, когда рецептов много, ингредиенты пересекаются, а потребности NPC меняются, такое дерево очень быстро разрастется до трудноподдерживаемого состояния.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

269 views11:07

Data Scientist | IT

Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

#почитать

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

283 views10:58

Data Scientist | IT

Секретная сила Data Science в клиентской поддержке

#почитать

Когда говорят о Data Science, чаще всего вспоминают маркетинг и продуктовую аналитику. Но в компаниях, где данные действительно работают на бизнес, сфера их применения куда шире. Один из таких недооценённых источников ценности — команда клиентской поддержки. В этой статье — практический разбор того, как Data Science может не просто визуализировать SLA и TTR, а стать реальным драйвером изменений: от оптимизации нагрузки и улучшения самообслуживания до внедрения LLM для анализа обратной связи.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

293 views05:01

Data Scientist | IT

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

#почитать

Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

276 views05:03

Data Scientist | IT

Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

#почитать

Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.

В этой части разберем: основы машинного обучения, переобучение и кросс‑валидация, линейные модели, метрики классификации и регрессии.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

277 views11:40

Data Scientist | IT

❌ «В IT сейчас работы нет» — слышали такое?

А вот и нет 🙅‍♂️ Мы каждый день публикуем новые, живые вакансии с вилкой и прямыми контактами рекрутеров в телеграм.

Подборки для всех направлений — от джуна до лида.
Есть даже еженедельные интерншипы и стажировки для начинающих.

🔎 Выбирай свой канал:

QA → @qa_work
PM → @jobs_pm
BA/SA → @analytics_jobs
.NET → @job_dotnet
DS/ML → @dsml_jobs
PHP → @work_php
Java → @java_dev_job
Python → @jobrocket_python

🧩 Или подпишись сразу на все

👨‍💻6

279 views07:35

Data Scientist | IT

Проблема подглядывания и последовательное А/Б тестирование

#почитать

Сегодня узнаем, что такое проблема подглядывания и почему она появляется. Реализуем аналог метода Покока и критерий Вальда для последовательного тестирования. Посмотрим, можно ли одновременно подглядывать и контролировать вероятности ошибок при том же размере групп. Обсудим границы применимости последовательного тестирования.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

253 views06:05

Data Scientist | IT

В категории «Поесть» появился новый фильтр — «Вайб». Можно выбирать заведение не по типу кухни и оценкам, а по настроению, особенностям и цели визита.

Как мы это сделали?
Научили нейросеть понимать вайбы — объясняли, что такое «уютно», «романтично» или «пофоткаться». Собрали фотки кафе и ресторанов, написали промпты, прогнали через мультимодальные модели, словили ошибки и в итоге построили пайплайн, который превращает субъективные ощущения в рабочие датасеты.

В нашем блоге на Хабре рассказали, как:
— выбирали модели (и почему не только GPT);
— писали промпты, которые не ломают всё;
— и получившийся план работ c LLM, который можно забрать себе в работу!

\#2ГИС_ai

👍5

281 views12:01

Data Scientist | IT

🌼

😁5

280 views16:25

Data Scientist | IT

👑 Кто работает PM — тот в цирке не смеется

Наша сегодняшняя рекомендация — канал с PM юмором.

Мы работаем в проджект-менеджменте и уже не смеемся. Но если вас можно рассмешить — welcome в PM Humor

👍5

279 views07:33

Data Scientist | IT

Линейная регрессия в ML для самых маленьких

#почитать

Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

352 views11:40

Data Scientist | IT

Нечеловеческий фактор: кто ответит, если ваш AI накосячит? Смотрим кейсы правоприменения и строим прогнозы

#почитать

Сегодня предлагаю обсудить слона в комнате, а именно: что вам будет с точки зрения закона, если AI, который вы разрабатываете или закупаете для своей компании, ошибется, некорректно сработает или будет использован для нарушения чужих прав. Ныряйте под кат, там разберем какие правовые документы регулируют это у нас и за рубежом, в какую сторону скорее всего будет развиваться законодательство в сфере AI и что предусмотреть в доке, договорах и регламентах уже сейчас, чтобы потом не пришлось тушить пожары. Постараюсь сильно не грузить и сразу переводить с юридического на человеческий.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

330 views06:13

About

Blog

Apps

Platform