EasyData
1.23K subscribers
173 photos
12 videos
23 files
101 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
Download Telegram
Привет, друзья!
Пока все обсуждали LLM и доедали салаты, в мире генеративного видео вышла новая модель LTX-2 от Lightricks, которая умеет генерировать видео по тексту, анимировать изображения и управляемо модифицирует сцены, сохраняя их структуру и движение. А главное - эта модель open-source, так что всё можно запустить локально 😏

Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.

🤩Технические детали
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.

🤩Что это значит для нас?
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.

🤩Полезные ссылки:
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык

Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте 👊

#cv@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11🔥6❤‍🔥5
Привет, друзья! 👋
Некоторые из вас знают, что рекомендательные системы - моя отдельная профессиональная любовь: занимаюсь ими и на работе, и в научной деятельности.
И как-то так вышло, что до сих пор мне ни разу не довелось провести отдельный вебинар, целиком посвящённый рекомендациям.

И вот наконец это свершится😁
В этот вторник подключусь к эфиру от Simulative, где разберу теорию и практику по рекомендательным системам.

Поговорим:
📱 какие бывают типы рексистем и почему не существует «одной универсальной»;
📱 в каких сценариях можно применять рекомендательные системы;
📱 где лучше работают простые методы, а где без ML уже не обойтись;
📱 и как всё это выглядит на конкретных прикладных примерах.

А в практической части попробуем вместе собрать простенькую рексистему и посмотреть на результат. По ходу дела заодно освежим в памяти тренды-профессии-2026 с ноября✌️

Стартуем 20 января, в 19:00 по мск
📱 Ссылка на регистрацию: тык 📱
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍6🎉6❤‍🔥41
Привет, друзья!
Недавно наткнулась на классный образовательный ютуб-канал freeCodeCamp - кладезь уроков, многие из которых - полные университетские курсы от ведущих ВУЗов мира.
Ниже подборка видео по темам из DS и ML:

📚 Python с нуля
16-часовой курс от Гарварда по Python - от основ до ООП
➡️ ссылка

📚 Git для новичков
Свежее видео на 2026 про все основные команды за полтора часа
➡️ ссылка

📚 Алгоритмы и структуры данных
Целых 48 часов теории с примерами😱
➡️ ссылка

📚 Базы данных и SQL
Ещё один курс от Гарварда в одном 11-часовом видео
➡️ ссылка

📚 LLM с нуля
За 6 часов объяснение MoE, SFT, RLHF и разбор того, как обучаются современные LLM
➡️ ссылка

📚 Fine-tuning LLM
Продолжение темы: что, зачем и как дообучать, и где это вообще имеет смысл
➡️ ссылка

📚 Разбор Qwen
Отдельное видео про архитектуру и детали (здесь найдёте про muon)
➡️ ссылка

📚 Гайд по агентам
Если интересна агентная логика, пайплайны и взаимодействие LLM с окружением
➡️ ссылка

И конечно, всех с Днём Студента! Для нашей профессии пословица "век живи - век учись" особенно актуальна👩‍🎓

#python@data_easy
#nlp@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2915❤‍🔥1👍1😍1
Привет, друзья!
Если вы устали от медленного pip, сложных poetry.lock и зоопарка инструментов вокруг Python-окружений, то стоит посмотреть на uv.

🔥 uv - это современный менеджер зависимостей и окружений для Python, который написан на Rust. Почему это не очередной инструмент, а реально новая эра?

😐Все в одном бинаре: установка пакетов, создание и управление виртуальными окружениями, разрешение зависимостей, lock-файлы, запуск Python-команд в изоляции… раньше это приходилось собирать из pip, venv/virtualenv, pip-tools и poetry - а теперь достаточно только uv! Всего один бинарь, и ничего лишнего.
😐Скорость: Rust-реализация + собственная система расчёта зависимостей = мгновенные установки и пересборки, особенно на больших ML-проектах и при CI/CD. Говорят, что может достигать 100x по скорости в сравнении с pip!
😐Глобальный кэш: пакеты, уже скачанные для одного проекта, повторно используются и в других окружениях - как итог, меньше запросов и экономия места на диске.
😐Отличие от poetry / pip: uv не использует за основу существующие инструменты, а сам полностью управляет всем процессом. Это не только быстрее, но и гораздо более предсказуемо - lock-файл читаемый, стабильный и действительно воспроизводимый.

Главное тут, что uv не “оборачивает pip”, а заменяет его функциональность!

🔥 А основные команды до боли напоминают уже знакомые инструменты...

# установка самого uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# проверка
uv --version
# создание окружения и установка зависимостей
uv venv
uv pip install numpy pandas scikit-learn


🔥 Полезные ссылки:
• официальная документация тут
• а для любителей покопаться в коде открыт официальный репозиторий

Вероятно, мы на пороге новой эры управления Python-зависимостями.
Всем продуктивного февраля!

#python@data_easy
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11🔥75❤‍🔥2😐1
Привет, друзья!
Занятный, но логичный факт: большинство AI-стартапов - это просто вызов LLM 🌚

Это выяснил инженер Теджа Кусиредди. Он решил проверить, сколько “прорывных ИИ-компаний” на самом деле имеют собственные модели. Для этого он проанализировал сетевой трафик, фронтовый код и API-вызовы примерно у 200 стартапов.
Результат оказался громким: около 73% не имеют своей ИИ-архитектуры. Под капотом просто вызовы к OpenAI, Claude и другим крупным провайдерам.

То есть формула получилась простая: LLM API + интерфейс + упаковка = AI-стартап.

Автор мониторил сетевой трафик приложений, смотрел SDK, разбирал JS-бандлы и отслеживал, куда реально уходят запросы. Поводом стало наблюдение за компанией, которая только что привлекла $4.3M - и при этом дёргала OpenAI API буквально каждые несколько секунд без какой-либо собственной инференс-логики.
Когда он масштабировал анализ, выяснилось, что это скорее правило, чем исключение… По статистике OpenAI выступает главным инфраструктурным слоем, Claude регулярно встречается как альтернативный бэкенд, а собственные модели - совсем редкость.

Сам факт использования API - не проблема; если продукт честно решает пользовательскую задачу, добавляет ценность поверх модели и не притворяется “новой AGI” - это нормальный продуктовый слой. Вопросы начинаются там, где стартап продаёт инвесторам историю про “уникальный AI-движок”, будучи по сути реселлером чужой модели.

Порог входа в AI-продукты сейчас настолько низкий, что многие “стартапы” из расследования можно собрать буквально за вечер. Я тоже решила проверить и накидала несколько десятков строк кода для тг-бота с запросами к бесплатному API - зацените! 😁

Оригинал расследования тут

Удачи вашим стартапам! 🥳🥳

#полезный_ии@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤‍🔥132👍2😱1
Поговорили с МФТИ о том, что нужно дата-сайентисту сегодня. Навыки, которые были полезны, становятся необходимыми😊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👍3
Forwarded from МФТИ Digital
📊Создавать модели — недостаточно: как дата-сайентисту повысить свою ценность на рынке

Говорят, что сегодня дата-сайентист не только разрабатывает модели машинного обучения, но и помогает компаниям принимать решения и развивать технологии. Так ли это?

Редакция Пуска решила разобраться в этом вопросе и обратилась к Марии Жаровой, ML-инженеру в команде рекомендаций Wildberries и эксперту Центра «Пуск» МФТИ. В карточках Мария рассказала о востребованных навыках дата-сайентиста. 

⬇️ А в комментариях предлагаем поделиться, что сейчас влияет на вашу профессиональную ценность
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍137❤‍🔥5🙏1
Привет, друзья!
Вышло очередное долгожданное исследование Habr-карьеры про ЗП IT-специалистов во 2-й половине 2025. Как всегда, можно посмотреть детализацию по языкам программирования, городам и направлениям - но отдельно про DS/ML снова не написали 😢

Однако благодаря логам нашего канала мы можем провести собственную аналитику 😏
Сравнение с точными прошлогодними цифрами для тех, кто назвал себя Data Scientist и ML-разработчик, можете оценить на первых двух скринах (указаны сумма ЗП и премий net). Общий вердикт таков:
• интенсивный рост остановился - в совокупности во всём IT в Москве медианная ЗП поднялась на 4%; если брать все города - не более чем на 2%
• в разрезе грейдов у джунов, стажеров и мидлов ЗП выросла; у сеньоров не особо; а у лидов упала (надеюсь, те кто выбыл из выборки, просто стали тех. директорами🙂)
• забавно, что у удалёнщиков не-джунов ЗП больше, чем у работающих в офисе! подтверждение на последнем скрине 😎
• на графике динамики ЗП производная >0, правда уже не такая большая по модулю относительно прошлого года 👋

По другому свежему исследованию HH.ru мы всё ещё сохраняем позиции в ТОПе самых высокооплачиваемых профессий: DS занял 2-е место с медианной ЗП 250k после... сварщика с ЗП 267k

Пишите ваши варианты, что случилось с лидами и почему удалёнщики больше ценятся:)

Всем хорошей недели и много 💸

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍117❤‍🔥2🕊1🫡1
Привет, друзья!
LLM хоть до сих пор и выглядят как «хайповая новинка», за последние пару лет вокруг них уже успело накопиться достаточно знаний, разборов и практических гайдов. Собрала несколько самых свежих/интересных материалов от статей до видеокурсов 😔

📝Hugging Face Smol Training Playbook
Компактный и прикладной гайд по обучению небольших и средних LLM: здесь всё про инфраструктуру, рецепты стабилизации и повышения качества в формате чек-листа.
Язык: english
Ссылка:
тык

📝 Alex Wa's Blog, Frontier model training methodologies
Более глубокий инженерный разбор того, как тренируют SOTA-модели. Можно освежить базу (трансформеры, лоссы, оптимизаторы), а затем погрузиться в современные архитектуры, этапы обучения и реальные инженерные приёмы - по сути, это мини-книга с множеством практических инсайтов.
Язык: english
Ссылка:
тык

📝 Курсы APXML
Тут найдёте огромную подборку мини-курсов: от базового Python до полного цикла работы с LLM. Есть как вводные материалы, так и про детали обучения, продакшен-аспекты и так называемый LLMOps. Всё в формате статей с указанием примерного времени прохождения - удобно планировать.
Язык: english
Ссылка:
тык

📝 GPT Week от Яндекса
Это относительно не новый плейлист лекций и демо по GPT-технологиям 2023 года. Но материалы остаются весьма актуальными - особенно для новичков или тех, кто хочет системно освежить фундамент.
Язык: русский
Ссылка:
тык

📝 LLM Scaling Week от Яндекса
А это свежий интенсив ноября 2025 с очень насыщенной программой: сначала теория, затем глубокое погружение в инфраструктурные вопросы, оптимизацию и инференс LLM. В описаниях к видео найдёте презентации и код - так что можно не просто слушать, а попробовать всё руками.
Язык: русский
Ссылка:
тык (видео доступны по ссылкам, список внизу страницы)

Стабильного обучения и быстрого инференса!

#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥207👍3🍓3🙏1
Привет, друзья!
Сегодня вместо туториалов несколько реальных кейсов из жизни ML-щика. Попробуйте предположить, в чём могут быть проблемы 🧐

😔 Кейс 1 (про ранжирование)
Команда построила улучшенную модель (относительно текущей), которая ранжирует статьи на портале по вероятности клика.

Модель обучается как обычный бинарный классификатор: предсказывает вероятность клика для каждой статьи.

Offline-показатели (в т.ч. на валидации) выглядят отлично:
• ROC-AUC выше, чем у предыдущей версии модели
• LogLoss падает, переобучения нет

Но в онлайн-эксперименте CTR почти не вырос:(

👉 В чем проблема этой модели и как её улучшить?


😔 Кейс 2 (про калибровку вероятностей)
Есть модель бинарной классификации (например, обнаружение мошеннических операций). Команда решила откалибровать вероятности.

❤️Напомним: то что предсказывает классификатор - это "степень уверенности модели", а процедура калибровки переводит предсказания в интерпретируемые вероятности в математическом смысле.

После калибровки, на отложенной выборке:
• ROC-AUC почти не изменился
• Recall заметно упал...

👉 Почему это могло произойти и как исправить?


😔 Кейс 3 (прогноз возврата товара)
Модель предсказывает, вернёт ли пользователь товар после покупки. Таргет простой: returned = 1, если пользователь оформил возврат, и 0 - иначе.

Команда разработала улучшенную версию модели, метрики на offline-валидации получились отличными. Чтобы получить как можно лучшие результаты и в A/B-тесте, команда переобучила модель для тестовой группы на самых свежих данных за последнюю неделю.

Однако после запуска A/B-теста онлайн-метрики новой модели стали заметно проигрывать в первую неделю эксперимента...

👉 Где команда просчиталась?


Пишите ваши варианты в комментариях или в блокноте - в пятницу выложу ответы 😏
А если хотите кейсы из NLP или CV - ставьте 🐳

#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳26👍63🔥1
Привет, друзья!
Время разбирать кейсы из прошлого поста 😔
Ниже скрыты разгадки…

🙂 Кейс 1 (про ранжирование)
Самая главная проблема: задача была про ранжирование, а модель обучалась как обычный классификатор.
Хоть такой подход и имеет место быть, стоит помнить, что ROC-AUC и LogLoss оценивают качество вероятностей - но не обязательно отражают качество порядка объектов. В ранжировании важно, какие статьи окажутся выше других, а не только насколько хорошо модель предсказывает вероятность клика в среднем.
Поэтому в первую очередь необходимо попробовать ранжирующие функции потерь (например, pairwise и listwise подходы), и на валидации оценить метрики ранжирования (NDCG, MAP, Precision@k).
Идеи взять более сложный алгоритм, учитывать популярность, временные факторы и т.п. также могут дополнительно улучшить модель:)


🙂 Кейс 2 (про калибровку вероятностей)
Почему так произошло? Идейно калибровка не меняет порядок объектов, а лишь монотонно преобразует вероятности, изменяя их распределение.
ROC-AUC как раз зависит только от порядка предсказаний и не зависит от порога - поэтому он почти не изменился. А вот Recall напрямую связан с порогом - и видимо, его старое значение перестало быть оптимальным.
Чтобы это исправить, достаточно просто переподобрать порог классификатора.


🙂 Кейс 3 (прогноз возврата товара)
Проблема кроется во фразе: “Команда обучила модель на данных за последнюю неделю…” Если таргет - возврат товара, то он, как правило, происходит через некоторое время после покупки. Поэтому если обучаться только на “самых свежих” данных, то для многих заказов возврат ещё просто не успел произойти - соответственно, такие покупки помечаются как returned = 0.
В качестве решения необходимо по историческим данным рассчитать типичную задержку между событием и таргетом и на её основе выбрать подходящий диапазон данных - чтобы обучаться только на заказах, для которых уже прошло достаточно времени, чтобы возврат мог произойти.


🐳 В следующий раз разбираем NLP и CV 🐳
Хороших выходных!


#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥128🎉2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья!
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.

👍 Технические детали:
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:
• текст - до 8192 входных токенов
• изображения - до 6 файлов PNG или JPEG в одном запросе
• видео - до 120 секунд в формате MP4 или MOV
• аудио - принимается без транскрибации (обычно лимит ~80 сек, но здесь явно не пишут)
• документы - PDF до 6 страниц

- Доступ сейчас через Gemini API / Vertex (Public Preview) - а значит нужно учитывать квоты, биллинг, приватность данных и потенциальные задержки API.
- Благодаря MRL (Matryoshka Representation Learning) размерность эмбеддингов можно уменьшать без повторного вычисления.
- Отлично подходит для семантического поиска и мультимодального RAG.

👍 Но не спешите выбрасывать multi-vector архитектуры в окно!
Объединённый эмбеддинг удобен для общей семантики, но в реальных системах один объект всё равно часто представляют несколькими векторами - это помогает лучше решать разноплановые задачи и экономит время/место для простых задач (кстати, хранилища вроде Milvus тоже рекомендуют гибридные схемы).

Так что, Gemini Embedding 2 - важный шаг вперёд: единое пространство эмбеддингов для разных типов данных упрощает кросс-модальный поиск и RAG + позволяет быстрее собрать MVP.
Но в проде всё равно часто используют гибридные схемы - с доп. векторами, фильтрацией по атрибутам, а также ищут решения, которые можно запускать локально.

👍 Полезные ссылки:
Официальный анонс
Документация, Vertex и спецификации
Ещё раз статейка от milvus


#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥113👍2