Ideogram выпустил text-to-image модель Ideogram 2.0. Субъективно она значительно превосходит всех конкурентов в точности отображения текста (сравнение в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать модель в свои приложения.
Ideogram 2.0 обучена с нуля и построена на архитектуре трансформера, которая оптимизирует понимание, генерацию и редактирование текста. Модель имеет усовершенствованный механизм внимания, который улучшает её способность обрабатывать и генерировать большие объемы текста, сохраняя при этом высокую связность и точность контекста.
Модель доступна в веб-приложении и на iOS.
#AIapps
Ideogram 2.0 обучена с нуля и построена на архитектуре трансформера, которая оптимизирует понимание, генерацию и редактирование текста. Модель имеет усовершенствованный механизм внимания, который улучшает её способность обрабатывать и генерировать большие объемы текста, сохраняя при этом высокую связность и точность контекста.
Модель доступна в веб-приложении и на iOS.
#AIapps
Как Алиса освоила казахский язык
ML-разработчики Яндекса поделились пошаговым описанием обучения Алисы новому языку. А также рассказали про сложности, с которыми столкнулись в процессе. У команды вышел довольно тернистый лингвистический путь.
#Stateoftheart
ML-разработчики Яндекса поделились пошаговым описанием обучения Алисы новому языку. А также рассказали про сложности, с которыми столкнулись в процессе. У команды вышел довольно тернистый лингвистический путь.
#Stateoftheart
OmniCast – это новая нейросетевая технология Яндекса в составе Метеума для повышения точности прогноза температуры.
Сделать прогнозирование максимально точным позволило подключение к факторам сбора данных от любительских метеостанций. Благодаря этому сервис стал получать сведения в 36 раз чаще, то есть каждые пять минут.
В районах с плотным покрытием такими станциями Яндекс Погода сможет прогнозировать температуру с точностью до квартала.
#Stateoftheart
Сделать прогнозирование максимально точным позволило подключение к факторам сбора данных от любительских метеостанций. Благодаря этому сервис стал получать сведения в 36 раз чаще, то есть каждые пять минут.
В районах с плотным покрытием такими станциями Яндекс Погода сможет прогнозировать температуру с точностью до квартала.
#Stateoftheart
Ученые из UC Berkeley и Google DeepMind продемонстрировали метод, позволяющий LLM улучшать свои результаты за счёт оптимизации вычислений на этапе инференса. Вместо увеличения размера модели, они достигли повышения производительности в 4 раза с использованием моделей вознаграждения верификатора и адаптивного обновления распределения ответов. Метод Lookahead Search, лучевой поиск на k-шагов вперед, позволил компактным моделям превосходить более крупные, даже при 14-кратной разнице в размере параметров.
Возможность LLM улучшать свои ответы, используя больше вычислений на этапе тестирования - важный шаг к созданию самоулучшающихся агентов, способных работать с открытым естественным языком.
#Stateoftheart
Возможность LLM улучшать свои ответы, используя больше вычислений на этапе тестирования - важный шаг к созданию самоулучшающихся агентов, способных работать с открытым естественным языком.
#Stateoftheart
Practical ML Conf – конференция Яндекса, где компания ежегодно анонсирует свои крупные запуски, в этом году мероприятие состоится 14 сентября и доступно к посещению офлайн и онлайн.
Среди наиболее интересных докладов спикеров: «AI-инструмент для разработчика: как мы обучали LLM работе с кодом» Виктора Плошихина, руководителя ML-лаборатории в Yandex Platform Engineering, «Человек и LLM. Как оценивать качество моделей и строить их метрики качества» Ирины Барской, руководителя службы аналитики и исследований, и «Синтез выразительной речи для аудиокниг» Степана Комкова, старшего разработчика службы синтеза речи.
Узнать подробнее и зарегистрироваться.
#DataEvents
Среди наиболее интересных докладов спикеров: «AI-инструмент для разработчика: как мы обучали LLM работе с кодом» Виктора Плошихина, руководителя ML-лаборатории в Yandex Platform Engineering, «Человек и LLM. Как оценивать качество моделей и строить их метрики качества» Ирины Барской, руководителя службы аналитики и исследований, и «Синтез выразительной речи для аудиокниг» Степана Комкова, старшего разработчика службы синтеза речи.
Узнать подробнее и зарегистрироваться.
#DataEvents
This media is not supported in your browser
VIEW IN TELEGRAM
Mini-Omni — первая открытая языковая модель, которая умеет "говорить, думая", позволяя вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей.
Метод Any Model Can Talk позволяет внедрить speech-to-speech способности в другие языковые модели. Проект доступен на GitHub и Hugging Face.
#Stateoftheart
Метод Any Model Can Talk позволяет внедрить speech-to-speech способности в другие языковые модели. Проект доступен на GitHub и Hugging Face.
#Stateoftheart
Специалисты из китайского интернет-холдинга Tencent изучили, как работают законы масштабирования в больших моделях последовательных рекомендаций, и выпустили об этом статью — ее краткий разбор сделали ML-щики из Яндекса.
Так, для SR исследователи масштабировали декодер трансформера и вносили изменения в стратегии обучения. Как оказалось, закон об увеличении качества рекомендаций вместе с увеличением числа обучаемых параметров работает в этом случае даже при ограниченном количестве данных.
#Stateoftheart
Так, для SR исследователи масштабировали декодер трансформера и вносили изменения в стратегии обучения. Как оказалось, закон об увеличении качества рекомендаций вместе с увеличением числа обучаемых параметров работает в этом случае даже при ограниченном количестве данных.
#Stateoftheart
Salesforce выложил в open source семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые изначально созданы для генерации текста, xLAM выполняют также задачи вызова функций (function-calling), что позволяет обновлять CRM-системы, управлять заявками на поддержку клиентов и выполнять другие задачи автономно.
xLAM-7B(fc) опережает GPT-4-turbo, LLama 3 70B Instruct в задачах вызова функций с итоговой точностью 86%. xLAM-1B обогнал Claude 3 Haiku и другие крупные модели.
Модели xLAM-1B, xLAM-7B и xLAM-8x22B доступны на Hugging Face для исследовательских целей.
#Stateoftheart
xLAM-7B(fc) опережает GPT-4-turbo, LLama 3 70B Instruct в задачах вызова функций с итоговой точностью 86%. xLAM-1B обогнал Claude 3 Haiku и другие крупные модели.
Модели xLAM-1B, xLAM-7B и xLAM-8x22B доступны на Hugging Face для исследовательских целей.
#Stateoftheart
OpenAI представила семейство моделей o1 - следующее поколение моделей GPT. Модели o1-preview и o1-mini разработаны для решения сложных логических задач. OpenAI рекомендует избегать CoT (цепочки решений) в промтах, модель и так будет следовать этому методу, показывая цепочку принятия решений. Подписчики Plus и Team уже могут получить доступ к моделям o1 в ChatGPT с ограничениями.
o1-preview решила 83% задач на отборочном этапе Международной математической олимпиады (IMO). У GPT-4 результат был 13 (!) процентов. В кодинге модель показала результат 89% на Codeforce.
В твиттере уже публикуют, как o1 «щелкает» каверзные задачки на логику, например, какое число больше - 9.9 или 9.11.
Выравнивание тоже улучшили: o1 набрала 84% было в тестах на взлом, против 22% у GPT-4. Создание нежелательного контента усложнится.
o1-mini — это более упрощенная версия o1-preview, разработанная для быстрого и дешевого выполнения логических задач, она на 80% дешевле o1-preview.
#Stateoftheart
o1-preview решила 83% задач на отборочном этапе Международной математической олимпиады (IMO). У GPT-4 результат был 13 (!) процентов. В кодинге модель показала результат 89% на Codeforce.
В твиттере уже публикуют, как o1 «щелкает» каверзные задачки на логику, например, какое число больше - 9.9 или 9.11.
Выравнивание тоже улучшили: o1 набрала 84% было в тестах на взлом, против 22% у GPT-4. Создание нежелательного контента усложнится.
o1-mini — это более упрощенная версия o1-preview, разработанная для быстрого и дешевого выполнения логических задач, она на 80% дешевле o1-preview.
#Stateoftheart
Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень!
Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!
Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.
Чтобы принять участие, надо:
- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.
Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!
Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.
Чтобы принять участие, надо:
- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.
Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
DeeplearningAI выпустил бесплатный видеокурс "Multimodal RAG: Chat with Video". На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Продолжительность лекций - 1 час.
Основной упор делается на разработку продвинутого вопросно-ответного модуля (Q&A), способного обрабатывать, понимать и взаимодействовать с видеоинформацией.
Ключевые темы:
- Мультимодальные трансформеры;
- Генерация эмбеддингов и работа с векторными базами данных;
- Retrieval-Augmented Generation (RAG) пайплайн;
- Большие визуально-языковые модели (LVLM);
- API-взаимодействие с облачными сервисами.
Подробнее о курсе
Основной упор делается на разработку продвинутого вопросно-ответного модуля (Q&A), способного обрабатывать, понимать и взаимодействовать с видеоинформацией.
Ключевые темы:
- Мультимодальные трансформеры;
- Генерация эмбеддингов и работа с векторными базами данных;
- Retrieval-Augmented Generation (RAG) пайплайн;
- Большие визуально-языковые модели (LVLM);
- API-взаимодействие с облачными сервисами.
Подробнее о курсе