Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:
Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
@ai_machinelearning_big_data
#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.
В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.
Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.
MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.
Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.
Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.
⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.
@ai_machinelearning_big_data
#AI #ML #LLM #Embeddings #IBM #Granite
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.
Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com
Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.
Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai
Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.
Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com
Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.
Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com
На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.
ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.
Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует
token type IDs, что упрощает ее использование. ModernBERT доступна в двух вариантах:
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
@ai_machinelearning_big_data
#AI #ML #ModernBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Большой набор медицинских изображений с текстовыми описаниями, на которой можно обучать и модели для работы с медицинскими данными.
Модель, которая помогает врачам писать заключения, принимать решения и показывает лучшие результаты, чем обычные модели.
Датасет на 1184 вопроса по офтальмологии, которые легли в основу RAG-системы CLARA.
Набор из 2168 клинических записей 4 типов, который содержит 8665 декомпозиций фактов.
Фреймворк, который помогает лучше справляться с клиническими задачами за счет использования специальных инструментов.
Метод проверять качество медицинских заметок, созданных ИИ, оценивая их не целиком, а по шагам создания.
Методика использования LLM как "экспертов" для создания более точных начальных параметров в прогностических моделях с ограниченным количеством данных.
Улучшение сегментации последовательных медицинских изображений, используя предыдущие результаты для согласованности, без необходимости дополнительного обучения.
Система, которая использует историю рентгеновских снимков и отчетов для генерации более качественных радиологических отчетов с LLM.
Система, объединяющая Mixture-of-Experts и языковые модели, для персонализированных рекомендаций здорового питания на основе текстовых и визуальных данных пользователя
Система на базе GPT-4, которая автоматически генерирует сложные экзаменационные вопросы по медицинским темам.
Платформа, которая использует CV для непрерывного наблюдения за пациентами в больницах, отслеживая их перемещения и действия в реальном времени.
Исследование, которое показало, что чрезмерная детализация объяснений работы ИИ-систем поддержки врачебных решений может снижать доверие и точность диагностики среди врачей, и что более простые интерфейсы оказываются более эффективными.
Сравнение нескольких подходов обучения для создания системы генерации медицинских текстов. Спойлер
Сравнение, которое показало, что модели, обученные на медицинских данных, работают лучше, чем общие модели, и нет одного лучшего метода агрегации для всех задач.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей.
CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой.
Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR).
Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D.
CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o.
В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter.
@ai_machinelearning_big_data
#AI #ML #LLM #CADRecode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.
Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например,
GenLengthLogitsProcessor позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor - стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate из Transformers.huggingface.co
AIOpsLab предоставляет стандартизированную среду для тестирования и сопоставления агентов в условиях, имитирующих реальные. Система имеет интерфейс "агент-облако", посредством которого агенты взаимодействуют с сервисами. AIOpsLab использует генераторы нагрузки и отказов для имитации как типичных, так и нештатных ситуаций.
AIOpsLab включает в себя средства для обнаружения инцидентов, определения их местоположения, диагностики причин и устранения последствий, при этом обеспечивается поддержка распространенных фреймворков для агентов. AIOpsLab доступен на GitHub.
microsoft.com
Britannica полностью переориентирует свою деятельность на разработку и внедрение ИИ. Предполагается, что в ближайшем будущем компания может стать публичной с оценочной стоимостью в 1 млрд. долларов. До 2012 года Britannica занималась выпуском старейшего англоязычного энциклопедического издания, являясь источником знаний до появления Google и Wikipedia.
На сегодняшний день основным направлением деятельности Britannica является разработка и реализация ПО для онлайн-обучения, ориентированного на образовательные учреждения и библиотеки. В дополнение, компания предлагает чат-бот Britannica AI, предоставляющий доступ к обширной базе энциклопедических знаний, накопленных за два столетия.
gizmodo.com
Компания LEAP 71 продемонстрировала потенциал современных инженерных систем ИИ на примере разработки ракетного двигателя аэроспайкового типа. Данный двигатель, функционирующий на топливной смеси из кислорода и керосина, спроектирован с использованием большой вычислительной инженерной модели и способен обеспечивать тягу до 5000 ньютонов.
Аэроспайковая конструкция отличается от традиционных ракетных двигателей способностью к автоматической адаптации к изменениям атмосферного давления. На проектирование с помощью ИИ у LEAP 71 ушло чуть больше трех недель. Изделие было изготовлено на 3D-принтере из цельного медного блока методом селективного лазерного плавления. Первое испытание, проведенное 18 декабря 2024 года, показало успешную работоспособность при температуре газа в 3500 °C.
newatlas.com
AI-ученые от Tetsuwan Scientific представляют собой стеклянные робо-кубы, которые могут самостоятельно оценивать результаты и вносить изменения в эксперименты. Собственное ПО и датчики позволяют роботам понимать такие параметры, как калибровка и характеристики жидкостей.
Tetsuwan Scientific уже сотрудничает с La Jolla Labs для измерения эффективности дозировок РНК-терапевтических препаратов. Целью Tetsuwan Scientific является создание независимых AI-ученых, способных автоматизировать весь научный процесс.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд.
Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера.
Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности.
hume.ai
Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества.
Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения.
globenewswire.com
Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей.
Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN.
msn.com
Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях.
Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами.
voxelsensors.com
Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА.
PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek.
embedded.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM