Machine Learning | Нейронные сети, ИИ, Big Data

🔎 Исследование ИТМО: тренды Open Source в ML/Data в России

Выяснилось, что по количеству проектов и их использованию лидируют Яндекс, Сбер и Т-банк. Исследование показало, что компании-разработчики открытых решений нацелены на международный рынок и все чаще рассматривают вклад в опенсорс как инструмент развития отрасли.

Лидер рейтинга, Яндекс, предоставляет 120 открытых решений. Среди них выделяются CatBoost — библиотека градиентного бустинга, YTsaurus — платформа для обработки больших данных, и YDB — распределенная SQL база данных.

Machine Learning

1.67K views09:00

🤖 Нейроредактор в Яндекс Браузере: как «прокачали» LLM-модель семейства YandexGPT для работы с текстом

Яндекс Браузер усовершенствовал нейроредактор на базе YandexGPT — теперь это отдельный ИИ-инструмент для создания текстов с нуля и улучшения готовых (исправление ошибок, переписывание в определенном стиле и формате). Это один из самых масштабных нейросетевых проектов Браузера, объединивший усилия команд фронтенда, бэкенда, менеджмента и ML-специалистов.

Для оценки разницы в версиях использовалась диффалка на Go, работающая на основе алгоритма поиска наибольшей общей подпоследовательности (LCS). Сравнивая результат модели с корректным вариантом от редактора, диффалка считает количество не исправленных ошибок и позволяет проверять гипотезы о качестве.

Эксперименты с обучением моделей для нейроредактора (переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками) дали ускорение генерации в 2 раза без потери качества и в среднем +10% качества на открытых датасетах. Нейроредактор также получил надежную поддержку Маркдауна благодаря обучению на размеченных текстах, восстановлению пропущенных символов разметки и переобучению.

Machine Learning

1.49K views09:01

Machine Learning | Нейронные сети, ИИ, Big Data

6:41

This media is not supported in your browser

VIEW IN TELEGRAM

ТОП 5 мест с бесплатными данными для машинного обучения и нейросетей

В этом видео автор подробно разбирает 5 лучших мест, где можно найти готовые датасеты или просто данные для ваших проектов в Data Science.

00:00 Зачем искать готовые данные
00:30 Google for datasets
02:12 Kaggle datasets
03:24 Ищем в ODS. ai
04:02 Сайты с подборками датасетов
04:33 Ищем датасеты в статьях
06:15 Лицензии на датасеты

Смотреть это видео на youtube: youtu.be/dGjgTflGdps

Machine Learning

1.54K views17:30

Machine Learning | Нейронные сети, ИИ, Big Data

ОПРОС📍 Ваша должность в компании?

Anonymous Poll

170 voters1.54K views06:30

Machine Learning | Нейронные сети, ИИ, Big Data

🤖 Как Яндекс создавал мультимодальную нейросеть для поиска по картинкам в Нейро

Команда Яндекса разработала VLM, значительно улучшив возможности поиска по изображениям. Теперь пользователи могут не только узнать, что изображено на картинке, но и задать вопросы о конкретных деталях.

На Хабре появилась подробная статья от ML-разработчика Яндекса, раскрывающая суть визуально-текстовых мультимодальных моделей. Автор детально описывает их трехкомпонентную архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также освещает сложный процесс обучения, включающий этапы pretraining и alignment: SFT + RL (опционально).

В статье есть наглядное сравнение старого и нового пайплайнов Нейро. Разработчиком пришлось существенно доработать инфраструктуру, чтобы сделать весь пайплайн вычислительно эффективным.

Machine Learning

1.61K views17:00

Machine Learning | Нейронные сети, ИИ, Big Data

🤔 Специалисты разобрали работу Self-Rewarding Language Models

NLP-инженеры Яндекса опубликовали в своем канале обзор языковой модели, которая сама создает инструкции, генерирует ответы и оценивает их качество. Они рассказали, чем ее обучение отличается от традиционных подходов и какие результаты в тестах она показала.

Machine Learning

1.36K views10:00

Machine Learning | Нейронные сети, ИИ, Big Data

YandexGPT 4: что умеет новая линейка нейросетей Яндекса?

Более мощная YandexGPT 4 Pro и облегченная YandexGPT 4 Lite уже доступны на сайте Yandex Cloud. Модель Pro в 70% случаев лучше своей прошлой версии справляется с запросами. А благодаря увеличенной обработке до 32 тысяч токенов модели лучше работают с длинными запросами и внешними источниками в RAG-сценариях, а еще анализируют большие объемы данных. Про обучение YandexGPT 4 и ее отличия от предыдущих версий разработчики рассказали в статье на Хабре.

Machine Learning

1.54K views13:00

Machine Learning | Нейронные сети, ИИ, Big Data

🥇 Yandex ML Prize: премию в области машинного обучения вручили 14 лауреатам

Совет ежегодной премии выбирал наиболее перспективные и значимые работы в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи и когнитивной робототехники. Яндекс проводит премию уже не первый год и поддерживает молодых ученых в создании передовых и прикладных ML-технологий.

Machine Learning

1.59K views14:00

Machine Learning | Нейронные сети, ИИ, Big Data

Диффузионные модели для рекомендации слейтов

Исследование Spotify показало, что генеративный подход (диффузионные модели) может выдавать лучшие результаты, чем RL-like подходы, для решения в сфере рекомендаций слейтов. ML-щики из Яндекса разобрали, что такое слейт и чем так хороши диффузионки.

Machine Learning

1.58K views15:00

Machine Learning | Нейронные сети, ИИ, Big Data

#вакансия #удалённо #parttime #преподаватель #ML #MLOps #DataEngineer

Время делиться знаниями!

OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 8 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия преподаватель на онлайн-курсы:
- ML Team Lead
- MLOps
- Data Engineer
- Миграция с Oracle на PostgreSQL

Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.

Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.

С нами вы сможете ✅
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее: @HR_Nikita

1.44K views09:01

Machine Learning | Нейронные сети, ИИ, Big Data

15:53

Media is too big

VIEW IN TELEGRAM

Что такое Machine Learning и как оно работает?

В этом видео автор дает подробные ответы на следующие вопросы:

• что такое машинное обучение
• как работает машинное обучение
• как обучается модель
• что такое искусственный интеллект (artificial intelligence)
• что такое глубокое обучение (deep learning)
• области применения машинного обучения
• зачем машинное обучение нужно вам

Смотреть это видео на youtube: youtu.be/3ZZOd4_m1Xc

Machine Learning

1.55K views11:10

Machine Learning | Нейронные сети, ИИ, Big Data

Человек и LLM: как построить метрики для оценки моделей

В этой статье объясняется, почему традиционные способы оценки LLM-моделей через академические тесты уже не актуальны. У LLM-моделей нет внутренней картины мироустройства, и поэтому ей сложнее справиться с вопросами, которые нам кажутся очевидными. Например, вопрос, как почувствовать вкус чего-то, или стоит ли брать с собой на пляж кирпичи человеку кажется абсурдным, а для модели — ответ на него не очевиден.

Статья раскрывает ключевые проблемы классических бенчмарков, включая их неспособность оценить практическую пользу моделей и уязвимость к протечкам данных. Описывается, как Яндекс решает эти проблемы через собственные бенчмарки под бизнес-задачи, оценку пользователями через LMSYS Chatbot Arena и работу специальной команды AI-тренеров. В конце читателей ждёт актуальный пайплайн оценки моделей, показывающий, как компания комбинирует разные подходы для понимания реальной ценности LLM.

Machine Learning

1.43K views13:00

Machine Learning | Нейронные сети, ИИ, Big Data

🗣 Как устроено обучение современных моделей машинного перевода — на примере Яндекс Переводчика

В Яндекс Переводчике есть синхронный перевод для 102 языков, и всем им машину нужно как-то обучать. В статье на хабре команда сервиса подробно рассказала про свой опыт, а именно ключевой компонент для обучения моделей машинного перевода — поиск и обработку самих данных.

Machine Learning

1.32K views15:00

Machine Learning | Нейронные сети, ИИ, Big Data

В «Золотом Яблоке» можно создавать кастомные подарочные карты с дизайном от YandexART 🎨

«Золотое Яблоко» внедрило Yandex AI Rendering Technology — диффузионную нейросеть, которая создаёт изображения в ответ на текстовые запросы. Теперь она генерирует уникальные подарочные карты по запросам покупателей.
Пока генерация работает на сайте, а в декабре заработает и в приложении. С безопасностью, кстати, всё в порядке: сервис не делает дизайны на спорные темы.

Нейросеть можно использовать и в других сценариях:
генерировать материалы для сайта или брендбука;
придумывать маскотов;
создавать фирменные иконки и логотипы.

Тем, кто собирается решать с помощью нейросетей бизнес‑задачи, рекомендуем попробовать Playground в консоли Yandex Cloud.

1.4K views13:00

Machine Learning | Нейронные сети, ИИ, Big Data

Как всё успеть к Новому году с ChatGPT

Обычно мы готовимся к праздникам так: оттягиваем до последнего момента, а потом впопыхах 31 числа ищем ту самую колбасу, которую раскупили. В этой статье автор расскажет, как делегировать почти всё нейросети — и наконец-то успеть.

Machine Learning

1.74K views16:05

Machine Learning | Нейронные сети, ИИ, Big Data

🗺 Как с помощью deep learning построили Геокодер, масштабируемый для разных стран

В статье рассказывается о том, как команда API Яндекс Карт перешла от классических методов машинного обучения к deep learning в задаче геокодирования. Новая архитектура Геокодера использует комбинацию active learning, contrastive learning, аугментацию данных. Это позволяет системе быстро адаптироваться к новым странам и работать с запросами, содержащими ошибки и народные названия.

Machine Learning

1.68K views12:30

Machine Learning | Нейронные сети, ИИ, Big Data

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

В статье рассказывается про новое поколение больших языковых моделей — YandexGPT 5. Можно узнать про этапы обучения, сокращение затрат на него и увеличение скорости обучения до 20 раз за счёт пайплайна с весами от Qwen-2.5 и найти Pretrain-версию в открытом доступе.

Machine Learning

1.44K views14:00

Machine Learning | Нейронные сети, ИИ, Big Data

Может ли нейро-сотрудник на базе ChatGPT звонить по обычной телефонной линии?

Весь 2023 год автор участвовал в создании платформы нейро-сотрудников на базе ChatGPT и вот наконец-то они подошли к очень интересной задаче:

"Что, если дать нейро-сотруднику возможность отвечать по обычной телефонной линии или самому делать исходящие вызовы исходя из свой системной роли?"

Machine Learning

1.58K views12:15

Machine Learning | Нейронные сети, ИИ, Big Data

Нейросеть A-Vibe от Авито доказала, что российские разработки в области ИИ могут конкурировать с мировыми лидерами. Заняв первое место в бенчмарке MERA среди легких моделей, она превзошла решения от OpenAI, Google и Anthropic по ключевым параметрам работы с русским языком:

— генерация кода: на 25% лучше Gemini 1.5
— ведение диалога: на 32% точнее Llama 3.1
— способность анализировать смысл текста: на 23% точнее Claude 3.5 Haiku

Достичь таких результатов удалось благодаря внедрению собственного токенизатора, заточенного под русский язык: он позволил модели обрабатывать текст в 2 раза быстрее, а также лучше понимать и генерировать материал.

В ближайших планах — внедрение в функционал 20 новых сценариев. А в будущем Авито может выложить код модели в открытый доступ:

«Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели», — отметила Анастасия Рысьмятова, руководитель разработки больших языковых моделей «Авито».

Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров.

Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.

Machine Learning

1.45K views14:30

About

Blog

Apps

Platform