Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Тест на прочность: LLM против сложных задач

#почитать

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

#почитать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍1
Лайфхаки BI SuperSet

#почитать

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Нейросетевой интеллект для NPC

#почитать

Начнём с малого: допустим, мы создаем NPC, которые умеют собирать предметы по заданным правилам. Наша цель: создать «крафтовый» интеллект, т.е. такой интеллект, который выбирает, что будет делать NPC из предметов в его инвентаре. Такую штуку можно попробовать реализовать с помощью конченных конечных автоматов, поведенческих деревьев (behaviour tree) или ещё как-нибудь. Но, когда рецептов много, ингредиенты пересекаются, а потребности NPC меняются, такое дерево очень быстро разрастется до трудноподдерживаемого состояния.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

#почитать

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Секретная сила Data Science в клиентской поддержке

#почитать

Когда говорят о Data Science, чаще всего вспоминают маркетинг и продуктовую аналитику. Но в компаниях, где данные действительно работают на бизнес, сфера их применения куда шире. Один из таких недооценённых источников ценности — команда клиентской поддержки. В этой статье — практический разбор того, как Data Science может не просто визуализировать SLA и TTR, а стать реальным драйвером изменений: от оптимизации нагрузки и улучшения самообслуживания до внедрения LLM для анализа обратной связи.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Matrix Reloaded: зачем дата-сайентисту линейная алгебра

#почитать

Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

#почитать

Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.

В этой части разберем: основы машинного обучения, переобучение и кросс‑валидация, линейные модели, метрики классификации и регрессии.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
«В IT сейчас работы нет» — слышали такое?

А вот и нет 🙅‍♂️ Мы каждый день публикуем новые, живые вакансии с вилкой и прямыми контактами рекрутеров в телеграм.

Подборки для всех направлений — от джуна до лида.
Есть даже еженедельные интерншипы и стажировки для начинающих.

🔎 Выбирай свой канал:

QA → @qa_work
PM →
@jobs_pm
BA/SA →
@analytics_jobs
.NET →
@job_dotnet
DS/ML →
@dsml_jobs
PHP →
@work_php
Java →
@java_dev_job
Python →
@jobrocket_python

🧩 Или подпишись сразу на все
👨‍💻6
Проблема подглядывания и последовательное А/Б тестирование

#почитать

Сегодня узнаем, что такое проблема подглядывания и почему она появляется. Реализуем аналог метода Покока и критерий Вальда для последовательного тестирования. Посмотрим, можно ли одновременно подглядывать и контролировать вероятности ошибок при том же размере групп. Обсудим границы применимости последовательного тестирования.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
В категории «Поесть» появился новый фильтр — «Вайб». Можно выбирать заведение не по типу кухни и оценкам, а по настроению, особенностям и цели визита.

Как мы это сделали?
Научили нейросеть понимать вайбы — объясняли, что такое «уютно», «романтично» или «пофоткаться». Собрали фотки кафе и ресторанов, написали промпты, прогнали через мультимодальные модели, словили ошибки и в итоге построили пайплайн, который превращает субъективные ощущения в рабочие датасеты.


В нашем блоге на Хабре рассказали, как:
— выбирали модели (и почему не только GPT);
— писали промпты, которые не ломают всё;
— и получившийся план работ c LLM, который можно забрать себе в работу!

\#2ГИС_ai
👍5
🌼
😁5
👑 Кто работает PM — тот в цирке не смеется

Наша сегодняшняя рекомендация — канал с PM юмором.

Мы работаем в проджект-менеджменте и уже не смеемся. Но если вас можно рассмешить welcome в PM Humor
👍5
Линейная регрессия в ML для самых маленьких

#почитать

Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Нечеловеческий фактор: кто ответит, если ваш AI накосячит? Смотрим кейсы правоприменения и строим прогнозы

#почитать

Сегодня предлагаю обсудить слона в комнате, а именно: что вам будет с точки зрения закона, если AI, который вы разрабатываете или закупаете для своей компании, ошибется, некорректно сработает или будет использован для нарушения чужих прав. Ныряйте под кат, там разберем какие правовые документы регулируют это у нас и за рубежом, в какую сторону скорее всего будет развиваться законодательство в сфере AI и что предусмотреть в доке, договорах и регламентах уже сейчас, чтобы потом не пришлось тушить пожары. Постараюсь сильно не грузить и сразу переводить с юридического на человеческий.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
QTune — open-source решение для быстрого файн-тюнинга моделей

#почитать

Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

#почитать

Меня зовут Айрат, я руковожу командой Embedded ML в Сбере. Сегодня мы выкатили быстрые команды для умных колонок SberBoom. Они позволяют управлять самим устройством, а также телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее.

Сегодня я расскажу, как удалось уместить все быстрые команды всего в 6 МБ и благодаря чему наше решение распознает не только простые команды вида «Включи свет», но и сложные со множеством параметров, например, «Яркость сорок пять процентов в коридоре». Мы рассмотрим, что такое спам-команды и как мы добились их корректного распознавания без задержек.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2
Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

#почитать

я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Поисковые подсказки: подход «генератор-дискриминатор»

#почитать

О подходе, который мы разработали для создания поисковых подсказок и для поиска релевантных похожих запросов для разных бизнес-сценариев, и пойдет речь в этой статье.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Оптимизация LLM: LoRA и QLoRA

#почитать

В этой статье мы рассмотрим два подхода — LoRA и QLoRA — которые обещают значительно снизить затраты на обучение без потери качества модели. Мы разберем, как эти методы позволяют оптимизировать вычисления и память, а также как с их помощью можно эффективно адаптировать большие модели под разнообразные прикладные задачи.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
Малые числа, большие возможности: Роль плавающей запятой в ИИ

#почитать

Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2