Neurohive - Нейронные сети, AI, ML, DL
4.62K subscribers
250 photos
46 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Ideogram выпустил text-to-image модель Ideogram 2.0. Субъективно она значительно превосходит всех конкурентов в точности отображения текста (сравнение в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать модель в свои приложения.

Ideogram 2.0 обучена с нуля и построена на архитектуре трансформера, которая оптимизирует понимание, генерацию и редактирование текста. Модель имеет усовершенствованный механизм внимания, который улучшает её способность обрабатывать и генерировать большие объемы текста, сохраняя при этом высокую связность и точность контекста.

Модель доступна в веб-приложении и на iOS.

#AIapps
Как Алиса освоила казахский язык

ML-разработчики Яндекса поделились пошаговым описанием обучения Алисы новому языку. А также рассказали про сложности, с которыми столкнулись в процессе. У команды вышел довольно тернистый лингвистический путь.

#Stateoftheart
OmniCast – это новая нейросетевая технология Яндекса в составе Метеума для повышения точности прогноза температуры.

Сделать прогнозирование максимально точным позволило подключение к факторам сбора данных от любительских метеостанций. Благодаря этому сервис стал получать сведения в 36 раз чаще, то есть каждые пять минут.

В районах с плотным покрытием такими станциями Яндекс Погода сможет прогнозировать температуру с точностью до квартала.

#Stateoftheart
Ученые из UC Berkeley и Google DeepMind продемонстрировали метод, позволяющий LLM улучшать свои результаты за счёт оптимизации вычислений на этапе инференса. Вместо увеличения размера модели, они достигли повышения производительности в 4 раза с использованием моделей вознаграждения верификатора и адаптивного обновления распределения ответов. Метод Lookahead Search, лучевой поиск на k-шагов вперед, позволил компактным моделям превосходить более крупные, даже при 14-кратной разнице в размере параметров.

Возможность LLM улучшать свои ответы, используя больше вычислений на этапе тестирования - важный шаг к созданию самоулучшающихся агентов, способных работать с открытым естественным языком.

#Stateoftheart
Practical ML Conf – конференция Яндекса, где компания ежегодно анонсирует свои крупные запуски, в этом году мероприятие состоится 14 сентября и доступно к посещению офлайн и онлайн.

Среди наиболее интересных докладов спикеров: «AI-инструмент для разработчика: как мы обучали LLM работе с кодом» Виктора Плошихина, руководителя ML-лаборатории в Yandex Platform Engineering, «Человек и LLM. Как оценивать качество моделей и строить их метрики качества» Ирины Барской, руководителя службы аналитики и исследований, и «Синтез выразительной речи для аудиокниг» Степана Комкова, старшего разработчика службы синтеза речи.

Узнать подробнее и зарегистрироваться.

#DataEvents
This media is not supported in your browser
VIEW IN TELEGRAM
Mini-Omni — первая открытая языковая модель, которая умеет "говорить, думая", позволяя вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей.

Метод Any Model Can Talk позволяет внедрить speech-to-speech способности в другие языковые модели. Проект доступен на GitHub и Hugging Face.

#Stateoftheart
Специалисты из китайского интернет-холдинга Tencent изучили, как работают законы масштабирования в больших моделях последовательных рекомендаций, и выпустили об этом статью — ее краткий разбор сделали ML-щики из Яндекса.

Так, для SR исследователи масштабировали декодер трансформера и вносили изменения в стратегии обучения. Как оказалось, закон об увеличении качества рекомендаций вместе с увеличением числа обучаемых параметров работает в этом случае даже при ограниченном количестве данных.

#Stateoftheart
Salesforce выложил в open source семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые изначально созданы для генерации текста, xLAM выполняют также задачи вызова функций (function-calling), что позволяет обновлять CRM-системы, управлять заявками на поддержку клиентов и выполнять другие задачи автономно.

xLAM-7B(fc) опережает GPT-4-turbo, LLama 3 70B Instruct в задачах вызова функций с итоговой точностью 86%. xLAM-1B обогнал Claude 3 Haiku и другие крупные модели.

Модели xLAM-1B, xLAM-7B и xLAM-8x22B доступны на Hugging Face для исследовательских целей.

#Stateoftheart
OpenAI представила семейство моделей o1 - следующее поколение моделей GPT. Модели o1-preview и o1-mini разработаны для решения сложных логических задач. OpenAI рекомендует избегать CoT (цепочки решений) в промтах, модель и так будет следовать этому методу, показывая цепочку принятия решений. Подписчики Plus и Team уже могут получить доступ к моделям o1 в ChatGPT с ограничениями.

o1-preview решила 83% задач на отборочном этапе Международной математической олимпиады (IMO). У GPT-4 результат был 13 (!) процентов. В кодинге модель показала результат 89% на Codeforce.

В твиттере уже публикуют, как o1 «щелкает» каверзные задачки на логику, например, какое число больше - 9.9 или 9.11.

Выравнивание тоже улучшили: o1 набрала 84% было в тестах на взлом, против 22% у GPT-4. Создание нежелательного контента усложнится.

o1-mini — это более упрощенная версия o1-preview, разработанная для быстрого и дешевого выполнения логических задач, она на 80% дешевле o1-preview.

#Stateoftheart
Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень!

Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!

Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.

Чтобы принять участие, надо:

- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.

Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
DeeplearningAI выпустил бесплатный видеокурс "Multimodal RAG: Chat with Video". На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Продолжительность лекций - 1 час.

Основной упор делается на разработку продвинутого вопросно-ответного модуля (Q&A), способного обрабатывать, понимать и взаимодействовать с видеоинформацией.

Ключевые темы:
- Мультимодальные трансформеры;
- Генерация эмбеддингов и работа с векторными базами данных;
- Retrieval-Augmented Generation (RAG) пайплайн;
- Большие визуально-языковые модели (LVLM);
- API-взаимодействие с облачными сервисами.

Подробнее о курсе