Machine Learning | Нейронные сети, ИИ, Big Data
7.54K subscribers
630 photos
48 videos
14 files
736 links
Всё о Machine Learning простым языком.

Сотрудничество: @max_excel
Download Telegram
Годовой дайджест по аналитике и ML за 2023

В этом мегадайджесте автор собрал для вас лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Machine Learning
🧠 Программа конференции Practical ML Conf, где эксперты делятся опытом о практическом применении ML

Несколько докладов экспертов Яндекса:
– «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
– «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
– «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
– «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».
– «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».

Мероприятие пройдет 14 сентября, его можно посетить офлайн или посмотреть доклады онлайн.

Machine Learning
📎 HyperFormer от DeepMind: как выучить выразительные представления для sparse-фичей

Разбор метода, который помогает выучивать информативные эмбеддинги в том числе и для редких значений с помощью гиперграфа. Узнаем, что такое тяжелый хвост признаков и как работает message passing в два этапа.

Machine Learning
🚘 Нейронные сети для планирования движения беспилотных автомобилей

В этой статье разработчик Яндекса знакомит нас с тем, как применяют нейросети для предсказания других участников дорожного движения и для планирования движение беспилотного транспорта. Внутри много формул для расчёта вероятных траекторий машин и пешеходов — с объяснением. Плюс можно почитать, в чём проблемы Behavioral Cloning и как их решать.

Machine Learning
🔎 Исследование ИТМО: тренды Open Source в ML/Data в России

Выяснилось, что по количеству проектов и их использованию лидируют Яндекс, Сбер и Т-банк. Исследование показало, что компании-разработчики открытых решений нацелены на международный рынок и все чаще рассматривают вклад в опенсорс как инструмент развития отрасли.

Лидер рейтинга, Яндекс, предоставляет 120 открытых решений. Среди них выделяются CatBoost — библиотека градиентного бустинга, YTsaurus — платформа для обработки больших данных, и YDB — распределенная SQL база данных.

Machine Learning
🤖 Нейроредактор в Яндекс Браузере: как «прокачали» LLM-модель семейства YandexGPT для работы с текстом

Яндекс Браузер усовершенствовал нейроредактор на базе YandexGPT — теперь это отдельный ИИ-инструмент для создания текстов с нуля и улучшения готовых (исправление ошибок, переписывание в определенном стиле и формате). Это один из самых масштабных нейросетевых проектов Браузера, объединивший усилия команд фронтенда, бэкенда, менеджмента и ML-специалистов.

Для оценки разницы в версиях использовалась диффалка на Go, работающая на основе алгоритма поиска наибольшей общей подпоследовательности (LCS). Сравнивая результат модели с корректным вариантом от редактора, диффалка считает количество не исправленных ошибок и позволяет проверять гипотезы о качестве.

Эксперименты с обучением моделей для нейроредактора (переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками) дали ускорение генерации в 2 раза без потери качества и в среднем +10% качества на открытых датасетах. Нейроредактор также получил надежную поддержку Маркдауна благодаря обучению на размеченных текстах, восстановлению пропущенных символов разметки и переобучению.

Machine Learning
This media is not supported in your browser
VIEW IN TELEGRAM
ТОП 5 мест с бесплатными данными для машинного обучения и нейросетей

В этом видео автор подробно разбирает 5 лучших мест, где можно найти готовые датасеты или просто данные для ваших проектов в Data Science.

00:00 Зачем искать готовые данные
00:30 Google for datasets
02:12 Kaggle datasets
03:24 Ищем в ODS. ai
04:02 Сайты с подборками датасетов
04:33 Ищем датасеты в статьях
06:15 Лицензии на датасеты

Смотреть это видео на youtube: youtu.be/dGjgTflGdps

Machine Learning
🤖 Как Яндекс создавал мультимодальную нейросеть для поиска по картинкам в Нейро

Команда Яндекса разработала VLM, значительно улучшив возможности поиска по изображениям. Теперь пользователи могут не только узнать, что изображено на картинке, но и задать вопросы о конкретных деталях.

На Хабре появилась подробная статья от ML-разработчика Яндекса, раскрывающая суть визуально-текстовых мультимодальных моделей. Автор детально описывает их трехкомпонентную архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также освещает сложный процесс обучения, включающий этапы pretraining и alignment: SFT + RL (опционально).

В статье есть наглядное сравнение старого и нового пайплайнов Нейро. Разработчиком пришлось существенно доработать инфраструктуру, чтобы сделать весь пайплайн вычислительно эффективным.

Machine Learning
🤔 Специалисты разобрали работу Self-Rewarding Language Models

NLP-инженеры Яндекса опубликовали в своем канале обзор языковой модели, которая сама создает инструкции, генерирует ответы и оценивает их качество. Они рассказали, чем ее обучение отличается от традиционных подходов и какие результаты в тестах она показала.

Machine Learning
YandexGPT 4: что умеет новая линейка нейросетей Яндекса?

Более мощная YandexGPT 4 Pro и облегченная YandexGPT 4 Lite уже доступны на сайте Yandex Cloud. Модель Pro в 70% случаев лучше своей прошлой версии справляется с запросами. А благодаря увеличенной обработке до 32 тысяч токенов модели лучше работают с длинными запросами и внешними источниками в RAG-сценариях, а еще анализируют большие объемы данных. Про обучение YandexGPT 4 и ее отличия от предыдущих версий разработчики рассказали в статье на Хабре.

Machine Learning
🥇 Yandex ML Prize: премию в области машинного обучения вручили 14 лауреатам

Совет ежегодной премии выбирал наиболее перспективные и значимые работы в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи и когнитивной робототехники. Яндекс проводит премию уже не первый год и поддерживает молодых ученых в создании передовых и прикладных ML-технологий.

Machine Learning
Диффузионные модели для рекомендации слейтов

Исследование Spotify показало, что генеративный подход (диффузионные модели) может выдавать лучшие результаты, чем RL-like подходы, для решения в сфере рекомендаций слейтов. ML-щики из Яндекса разобрали, что такое слейт и чем так хороши диффузионки.

Machine Learning
#вакансия #удалённо #parttime #преподаватель #ML #MLOps #DataEngineer

Время делиться знаниями!

OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 8 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия преподаватель на онлайн-курсы:
- ML Team Lead
- MLOps
- Data Engineer
- Миграция с Oracle на PostgreSQL

Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.

Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.

С нами вы сможете
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее: @HR_Nikita
Media is too big
VIEW IN TELEGRAM
Что такое Machine Learning и как оно работает?

В этом видео автор дает подробные ответы на следующие вопросы:

• что такое машинное обучение
• как работает машинное обучение
• как обучается модель
• что такое искусственный интеллект (artificial intelligence)
• что такое глубокое обучение (deep learning)
• области применения машинного обучения
• зачем машинное обучение нужно вам

Смотреть это видео на youtube: youtu.be/3ZZOd4_m1Xc

Machine Learning
Человек и LLM: как построить метрики для оценки моделей

В этой статье объясняется, почему традиционные способы оценки LLM-моделей через академические тесты уже не актуальны. У LLM-моделей нет внутренней картины мироустройства, и поэтому ей сложнее справиться с вопросами, которые нам кажутся очевидными. Например, вопрос, как почувствовать вкус чего-то, или стоит ли брать с собой на пляж кирпичи человеку кажется абсурдным, а для модели — ответ на него не очевиден.

Статья раскрывает ключевые проблемы классических бенчмарков, включая их неспособность оценить практическую пользу моделей и уязвимость к протечкам данных. Описывается, как Яндекс решает эти проблемы через собственные бенчмарки под бизнес-задачи, оценку пользователями через LMSYS Chatbot Arena и работу специальной команды AI-тренеров. В конце читателей ждёт актуальный пайплайн оценки моделей, показывающий, как компания комбинирует разные подходы для понимания реальной ценности LLM.

Machine Learning
🗣 Как устроено обучение современных моделей машинного перевода — на примере Яндекс Переводчика

В Яндекс Переводчике есть синхронный перевод для 102 языков, и всем им машину нужно как-то обучать. В статье на хабре команда сервиса подробно рассказала про свой опыт, а именно ключевой компонент для обучения моделей машинного перевода — поиск и обработку самих данных.

Machine Learning
В «Золотом Яблоке» можно создавать кастомные подарочные карты с дизайном от YandexART 🎨

«Золотое Яблоко» внедрило Yandex AI Rendering Technology — диффузионную нейросеть, которая создаёт изображения в ответ на текстовые запросы. Теперь она генерирует уникальные подарочные карты по запросам покупателей.
Пока генерация работает на сайте, а в декабре заработает и в приложении. С безопасностью, кстати, всё в порядке: сервис не делает дизайны на спорные темы.

Нейросеть можно использовать и в других сценариях:
генерировать материалы для сайта или брендбука;
придумывать маскотов;
создавать фирменные иконки и логотипы.

Тем, кто собирается решать с помощью нейросетей бизнес‑задачи, рекомендуем попробовать Playground в консоли Yandex Cloud.
Как всё успеть к Новому году с ChatGPT

Обычно мы готовимся к праздникам так: оттягиваем до последнего момента, а потом впопыхах 31 числа ищем ту самую колбасу, которую раскупили. В этой статье автор расскажет, как делегировать почти всё нейросети — и наконец-то успеть.

Machine Learning