🔎 Исследование ИТМО: тренды Open Source в ML/Data в России
Выяснилось, что по количеству проектов и их использованию лидируют Яндекс, Сбер и Т-банк. Исследование показало, что компании-разработчики открытых решений нацелены на международный рынок и все чаще рассматривают вклад в опенсорс как инструмент развития отрасли.
Лидер рейтинга, Яндекс, предоставляет 120 открытых решений. Среди них выделяются CatBoost — библиотека градиентного бустинга, YTsaurus — платформа для обработки больших данных, и YDB — распределенная SQL база данных.
Machine Learning
Выяснилось, что по количеству проектов и их использованию лидируют Яндекс, Сбер и Т-банк. Исследование показало, что компании-разработчики открытых решений нацелены на международный рынок и все чаще рассматривают вклад в опенсорс как инструмент развития отрасли.
Лидер рейтинга, Яндекс, предоставляет 120 открытых решений. Среди них выделяются CatBoost — библиотека градиентного бустинга, YTsaurus — платформа для обработки больших данных, и YDB — распределенная SQL база данных.
Machine Learning
🤖 Нейроредактор в Яндекс Браузере: как «прокачали» LLM-модель семейства YandexGPT для работы с текстом
Яндекс Браузер усовершенствовал нейроредактор на базе YandexGPT — теперь это отдельный ИИ-инструмент для создания текстов с нуля и улучшения готовых (исправление ошибок, переписывание в определенном стиле и формате). Это один из самых масштабных нейросетевых проектов Браузера, объединивший усилия команд фронтенда, бэкенда, менеджмента и ML-специалистов.
Для оценки разницы в версиях использовалась диффалка на Go, работающая на основе алгоритма поиска наибольшей общей подпоследовательности (LCS). Сравнивая результат модели с корректным вариантом от редактора, диффалка считает количество не исправленных ошибок и позволяет проверять гипотезы о качестве.
Эксперименты с обучением моделей для нейроредактора (переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками) дали ускорение генерации в 2 раза без потери качества и в среднем +10% качества на открытых датасетах. Нейроредактор также получил надежную поддержку Маркдауна благодаря обучению на размеченных текстах, восстановлению пропущенных символов разметки и переобучению.
Machine Learning
Яндекс Браузер усовершенствовал нейроредактор на базе YandexGPT — теперь это отдельный ИИ-инструмент для создания текстов с нуля и улучшения готовых (исправление ошибок, переписывание в определенном стиле и формате). Это один из самых масштабных нейросетевых проектов Браузера, объединивший усилия команд фронтенда, бэкенда, менеджмента и ML-специалистов.
Для оценки разницы в версиях использовалась диффалка на Go, работающая на основе алгоритма поиска наибольшей общей подпоследовательности (LCS). Сравнивая результат модели с корректным вариантом от редактора, диффалка считает количество не исправленных ошибок и позволяет проверять гипотезы о качестве.
Эксперименты с обучением моделей для нейроредактора (переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками) дали ускорение генерации в 2 раза без потери качества и в среднем +10% качества на открытых датасетах. Нейроредактор также получил надежную поддержку Маркдауна благодаря обучению на размеченных текстах, восстановлению пропущенных символов разметки и переобучению.
Machine Learning
This media is not supported in your browser
VIEW IN TELEGRAM
ТОП 5 мест с бесплатными данными для машинного обучения и нейросетей
В этом видео автор подробно разбирает 5 лучших мест, где можно найти готовые датасеты или просто данные для ваших проектов в Data Science.
00:00 Зачем искать готовые данные
00:30 Google for datasets
02:12 Kaggle datasets
03:24 Ищем в ODS. ai
04:02 Сайты с подборками датасетов
04:33 Ищем датасеты в статьях
06:15 Лицензии на датасеты
Смотреть это видео на youtube: youtu.be/dGjgTflGdps
Machine Learning
В этом видео автор подробно разбирает 5 лучших мест, где можно найти готовые датасеты или просто данные для ваших проектов в Data Science.
00:00 Зачем искать готовые данные
00:30 Google for datasets
02:12 Kaggle datasets
03:24 Ищем в ODS. ai
04:02 Сайты с подборками датасетов
04:33 Ищем датасеты в статьях
06:15 Лицензии на датасеты
Смотреть это видео на youtube: youtu.be/dGjgTflGdps
Machine Learning
ОПРОС📍 Ваша должность в компании?
Anonymous Poll
6%
Собственник
15%
Руководитель
60%
Специалист
7%
Фрилансер
12%
Другое
🤖 Как Яндекс создавал мультимодальную нейросеть для поиска по картинкам в Нейро
Команда Яндекса разработала VLM, значительно улучшив возможности поиска по изображениям. Теперь пользователи могут не только узнать, что изображено на картинке, но и задать вопросы о конкретных деталях.
На Хабре появилась подробная статья от ML-разработчика Яндекса, раскрывающая суть визуально-текстовых мультимодальных моделей. Автор детально описывает их трехкомпонентную архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также освещает сложный процесс обучения, включающий этапы pretraining и alignment: SFT + RL (опционально).
В статье есть наглядное сравнение старого и нового пайплайнов Нейро. Разработчиком пришлось существенно доработать инфраструктуру, чтобы сделать весь пайплайн вычислительно эффективным.
Machine Learning
Команда Яндекса разработала VLM, значительно улучшив возможности поиска по изображениям. Теперь пользователи могут не только узнать, что изображено на картинке, но и задать вопросы о конкретных деталях.
На Хабре появилась подробная статья от ML-разработчика Яндекса, раскрывающая суть визуально-текстовых мультимодальных моделей. Автор детально описывает их трехкомпонентную архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также освещает сложный процесс обучения, включающий этапы pretraining и alignment: SFT + RL (опционально).
В статье есть наглядное сравнение старого и нового пайплайнов Нейро. Разработчиком пришлось существенно доработать инфраструктуру, чтобы сделать весь пайплайн вычислительно эффективным.
Machine Learning
🤔 Специалисты разобрали работу Self-Rewarding Language Models
NLP-инженеры Яндекса опубликовали в своем канале обзор языковой модели, которая сама создает инструкции, генерирует ответы и оценивает их качество. Они рассказали, чем ее обучение отличается от традиционных подходов и какие результаты в тестах она показала.
Machine Learning
NLP-инженеры Яндекса опубликовали в своем канале обзор языковой модели, которая сама создает инструкции, генерирует ответы и оценивает их качество. Они рассказали, чем ее обучение отличается от традиционных подходов и какие результаты в тестах она показала.
Machine Learning
YandexGPT 4: что умеет новая линейка нейросетей Яндекса?
Более мощная YandexGPT 4 Pro и облегченная YandexGPT 4 Lite уже доступны на сайте Yandex Cloud. Модель Pro в 70% случаев лучше своей прошлой версии справляется с запросами. А благодаря увеличенной обработке до 32 тысяч токенов модели лучше работают с длинными запросами и внешними источниками в RAG-сценариях, а еще анализируют большие объемы данных. Про обучение YandexGPT 4 и ее отличия от предыдущих версий разработчики рассказали в статье на Хабре.
Machine Learning
Более мощная YandexGPT 4 Pro и облегченная YandexGPT 4 Lite уже доступны на сайте Yandex Cloud. Модель Pro в 70% случаев лучше своей прошлой версии справляется с запросами. А благодаря увеличенной обработке до 32 тысяч токенов модели лучше работают с длинными запросами и внешними источниками в RAG-сценариях, а еще анализируют большие объемы данных. Про обучение YandexGPT 4 и ее отличия от предыдущих версий разработчики рассказали в статье на Хабре.
Machine Learning
🥇 Yandex ML Prize: премию в области машинного обучения вручили 14 лауреатам
Совет ежегодной премии выбирал наиболее перспективные и значимые работы в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи и когнитивной робототехники. Яндекс проводит премию уже не первый год и поддерживает молодых ученых в создании передовых и прикладных ML-технологий.
Machine Learning
Совет ежегодной премии выбирал наиболее перспективные и значимые работы в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи и когнитивной робототехники. Яндекс проводит премию уже не первый год и поддерживает молодых ученых в создании передовых и прикладных ML-технологий.
Machine Learning
Диффузионные модели для рекомендации слейтов
Исследование Spotify показало, что генеративный подход (диффузионные модели) может выдавать лучшие результаты, чем RL-like подходы, для решения в сфере рекомендаций слейтов. ML-щики из Яндекса разобрали, что такое слейт и чем так хороши диффузионки.
Machine Learning
Исследование Spotify показало, что генеративный подход (диффузионные модели) может выдавать лучшие результаты, чем RL-like подходы, для решения в сфере рекомендаций слейтов. ML-щики из Яндекса разобрали, что такое слейт и чем так хороши диффузионки.
Machine Learning
#вакансия #удалённо #parttime #преподаватель #ML #MLOps #DataEngineer
Время делиться знаниями!
OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 8 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.
Вакансия преподаватель на онлайн-курсы:
- ML Team Lead
- MLOps
- Data Engineer
- Миграция с Oracle на PostgreSQL
Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.
Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.
С нами вы сможете ✅
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.
Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.
Обсудить подробнее: @HR_Nikita
Время делиться знаниями!
OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 8 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.
Вакансия преподаватель на онлайн-курсы:
- ML Team Lead
- MLOps
- Data Engineer
- Миграция с Oracle на PostgreSQL
Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.
Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.
С нами вы сможете ✅
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.
Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.
Обсудить подробнее: @HR_Nikita
Media is too big
VIEW IN TELEGRAM
Что такое Machine Learning и как оно работает?
В этом видео автор дает подробные ответы на следующие вопросы:
• что такое машинное обучение
• как работает машинное обучение
• как обучается модель
• что такое искусственный интеллект (artificial intelligence)
• что такое глубокое обучение (deep learning)
• области применения машинного обучения
• зачем машинное обучение нужно вам
Смотреть это видео на youtube: youtu.be/3ZZOd4_m1Xc
Machine Learning
В этом видео автор дает подробные ответы на следующие вопросы:
• что такое машинное обучение
• как работает машинное обучение
• как обучается модель
• что такое искусственный интеллект (artificial intelligence)
• что такое глубокое обучение (deep learning)
• области применения машинного обучения
• зачем машинное обучение нужно вам
Смотреть это видео на youtube: youtu.be/3ZZOd4_m1Xc
Machine Learning
Человек и LLM: как построить метрики для оценки моделей
В этой статье объясняется, почему традиционные способы оценки LLM-моделей через академические тесты уже не актуальны. У LLM-моделей нет внутренней картины мироустройства, и поэтому ей сложнее справиться с вопросами, которые нам кажутся очевидными. Например, вопрос, как почувствовать вкус чего-то, или стоит ли брать с собой на пляж кирпичи человеку кажется абсурдным, а для модели — ответ на него не очевиден.
Статья раскрывает ключевые проблемы классических бенчмарков, включая их неспособность оценить практическую пользу моделей и уязвимость к протечкам данных. Описывается, как Яндекс решает эти проблемы через собственные бенчмарки под бизнес-задачи, оценку пользователями через LMSYS Chatbot Arena и работу специальной команды AI-тренеров. В конце читателей ждёт актуальный пайплайн оценки моделей, показывающий, как компания комбинирует разные подходы для понимания реальной ценности LLM.
Machine Learning
В этой статье объясняется, почему традиционные способы оценки LLM-моделей через академические тесты уже не актуальны. У LLM-моделей нет внутренней картины мироустройства, и поэтому ей сложнее справиться с вопросами, которые нам кажутся очевидными. Например, вопрос, как почувствовать вкус чего-то, или стоит ли брать с собой на пляж кирпичи человеку кажется абсурдным, а для модели — ответ на него не очевиден.
Статья раскрывает ключевые проблемы классических бенчмарков, включая их неспособность оценить практическую пользу моделей и уязвимость к протечкам данных. Описывается, как Яндекс решает эти проблемы через собственные бенчмарки под бизнес-задачи, оценку пользователями через LMSYS Chatbot Arena и работу специальной команды AI-тренеров. В конце читателей ждёт актуальный пайплайн оценки моделей, показывающий, как компания комбинирует разные подходы для понимания реальной ценности LLM.
Machine Learning
🗣 Как устроено обучение современных моделей машинного перевода — на примере Яндекс Переводчика
В Яндекс Переводчике есть синхронный перевод для 102 языков, и всем им машину нужно как-то обучать. В статье на хабре команда сервиса подробно рассказала про свой опыт, а именно ключевой компонент для обучения моделей машинного перевода — поиск и обработку самих данных.
Machine Learning
В Яндекс Переводчике есть синхронный перевод для 102 языков, и всем им машину нужно как-то обучать. В статье на хабре команда сервиса подробно рассказала про свой опыт, а именно ключевой компонент для обучения моделей машинного перевода — поиск и обработку самих данных.
Machine Learning
В «Золотом Яблоке» можно создавать кастомные подарочные карты с дизайном от YandexART 🎨
«Золотое Яблоко» внедрило Yandex AI Rendering Technology — диффузионную нейросеть, которая создаёт изображения в ответ на текстовые запросы. Теперь она генерирует уникальные подарочные карты по запросам покупателей.
Пока генерация работает на сайте, а в декабре заработает и в приложении. С безопасностью, кстати, всё в порядке: сервис не делает дизайны на спорные темы.
Нейросеть можно использовать и в других сценариях:
генерировать материалы для сайта или брендбука;
придумывать маскотов;
создавать фирменные иконки и логотипы.
Тем, кто собирается решать с помощью нейросетей бизнес‑задачи, рекомендуем попробовать Playground в консоли Yandex Cloud.
«Золотое Яблоко» внедрило Yandex AI Rendering Technology — диффузионную нейросеть, которая создаёт изображения в ответ на текстовые запросы. Теперь она генерирует уникальные подарочные карты по запросам покупателей.
Пока генерация работает на сайте, а в декабре заработает и в приложении. С безопасностью, кстати, всё в порядке: сервис не делает дизайны на спорные темы.
Нейросеть можно использовать и в других сценариях:
генерировать материалы для сайта или брендбука;
придумывать маскотов;
создавать фирменные иконки и логотипы.
Тем, кто собирается решать с помощью нейросетей бизнес‑задачи, рекомендуем попробовать Playground в консоли Yandex Cloud.
Как всё успеть к Новому году с ChatGPT
Обычно мы готовимся к праздникам так: оттягиваем до последнего момента, а потом впопыхах 31 числа ищем ту самую колбасу, которую раскупили. В этой статье автор расскажет, как делегировать почти всё нейросети — и наконец-то успеть.
Machine Learning
Обычно мы готовимся к праздникам так: оттягиваем до последнего момента, а потом впопыхах 31 числа ищем ту самую колбасу, которую раскупили. В этой статье автор расскажет, как делегировать почти всё нейросети — и наконец-то успеть.
Machine Learning
🗺 Как с помощью deep learning построили Геокодер, масштабируемый для разных стран
В статье рассказывается о том, как команда API Яндекс Карт перешла от классических методов машинного обучения к deep learning в задаче геокодирования. Новая архитектура Геокодера использует комбинацию active learning, contrastive learning, аугментацию данных. Это позволяет системе быстро адаптироваться к новым странам и работать с запросами, содержащими ошибки и народные названия.
Machine Learning
В статье рассказывается о том, как команда API Яндекс Карт перешла от классических методов машинного обучения к deep learning в задаче геокодирования. Новая архитектура Геокодера использует комбинацию active learning, contrastive learning, аугментацию данных. Это позволяет системе быстро адаптироваться к новым странам и работать с запросами, содержащими ошибки и народные названия.
Machine Learning
Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе
В статье рассказывается про новое поколение больших языковых моделей — YandexGPT 5. Можно узнать про этапы обучения, сокращение затрат на него и увеличение скорости обучения до 20 раз за счёт пайплайна с весами от Qwen-2.5 и найти Pretrain-версию в открытом доступе.
Machine Learning
В статье рассказывается про новое поколение больших языковых моделей — YandexGPT 5. Можно узнать про этапы обучения, сокращение затрат на него и увеличение скорости обучения до 20 раз за счёт пайплайна с весами от Qwen-2.5 и найти Pretrain-версию в открытом доступе.
Machine Learning
Может ли нейро-сотрудник на базе ChatGPT звонить по обычной телефонной линии?
Весь 2023 год автор участвовал в создании платформы нейро-сотрудников на базе ChatGPT и вот наконец-то они подошли к очень интересной задаче:
Machine Learning
Весь 2023 год автор участвовал в создании платформы нейро-сотрудников на базе ChatGPT и вот наконец-то они подошли к очень интересной задаче:
"Что, если дать нейро-сотруднику возможность отвечать по обычной телефонной линии или самому делать исходящие вызовы исходя из свой системной роли?"
Machine Learning
Нейросеть A-Vibe от Авито доказала, что российские разработки в области ИИ могут конкурировать с мировыми лидерами. Заняв первое место в бенчмарке MERA среди легких моделей, она превзошла решения от OpenAI, Google и Anthropic по ключевым параметрам работы с русским языком:
— генерация кода: на 25% лучше Gemini 1.5
— ведение диалога: на 32% точнее Llama 3.1
— способность анализировать смысл текста: на 23% точнее Claude 3.5 Haiku
Достичь таких результатов удалось благодаря внедрению собственного токенизатора, заточенного под русский язык: он позволил модели обрабатывать текст в 2 раза быстрее, а также лучше понимать и генерировать материал.
В ближайших планах — внедрение в функционал 20 новых сценариев. А в будущем Авито может выложить код модели в открытый доступ:
«Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели», — отметила Анастасия Рысьмятова, руководитель разработки больших языковых моделей «Авито».
Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров.
Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.
Machine Learning
— генерация кода: на 25% лучше Gemini 1.5
— ведение диалога: на 32% точнее Llama 3.1
— способность анализировать смысл текста: на 23% точнее Claude 3.5 Haiku
Достичь таких результатов удалось благодаря внедрению собственного токенизатора, заточенного под русский язык: он позволил модели обрабатывать текст в 2 раза быстрее, а также лучше понимать и генерировать материал.
В ближайших планах — внедрение в функционал 20 новых сценариев. А в будущем Авито может выложить код модели в открытый доступ:
«Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели», — отметила Анастасия Рысьмятова, руководитель разработки больших языковых моделей «Авито».
Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров.
Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.
Machine Learning