Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.
Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.
В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.
Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.
Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.
Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.
Доступ к Ernie 5.1 открыт через онлайн-площадки компании.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆51🔥42❤24🎉19👏12🤓8👍6💯2🌭1
Стартап Poolside открыл публичный доступ к своим кодинг-моделям линейки Laguna.
До этого компания работала только с клиентами из государственного и публичного сектора. Релиз подготовила команда ~60 человек.
Poolside - стартап в области генеративного ИИ для разработки ПО, основанный в апреле 2023 года.
Компанию возглавляют бывший технический директор GitHub, курировавший запуск Copilot, и ex-основатель source{d} - одной из первых компаний, применивших ИИ для анализа кода.
SWE-bench Pro - 46,9%
SWE-bench Verified - 72,5%
Terminal-Bench 2.0 - 40,7%
Laguna M.1 доступна через API и OpenRouter. На ограниченное время - бесплатно.
SWE-bench Pro - 44,5%
Verified - 68,2%
Terminal-Bench 2.0 - 30,1%.
Заявлены: поддержка NVIDIA TensorRT-LLM и NVFP4-версия для Blackwell.
Laguna XS.2 распространяется по лицензии Apache 2.0 через API, OpenRouter, Ollama и на HuggingFace.
Вместе с моделями Poolside предлагает агентную обвязку на базе Agent Client Protocol, на которой тестировались модели и проводился RL.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔57👏21❤20🎉10👌6👍5🤝1
Команда Microsoft Research опубликовала препринт, в который демонстрирует, что современные LLM при долгом редактировании документов вносят редкие, но серьёзные искажения.
Для проведения эксперимента был создан бенчмарк DELEGATE-52 из 310 рабочих сценариев в 52 областях, от программирования и кристаллографии до нотной записи и генеалогии.
Методика тестирования основана на принципе обратимости: модель получает задание изменить документ, а затем - обратную инструкцию, которая должна вернуть его к исходному виду. Чем сильнее итоговый файл отличается от оригинала, тем больше накопленных ошибок.
В эксперименте прогнали 19 моделей, включая GPT-5.4, Claude 4.6 и Gemini 3.1 Pro на документах в 3–5 тысяч токенов и контекстом до 12 тысяч токенов.
По результатам эксперимента, после 20 последовательных правок эти 3 модели в среднем повреждают около 25% содержимого документа, а среднее значение по всей выборке составило около 50% потерь.
Лучший результат показала Gemini 3.1 Pro: она признана готовой к делегированию (≥98% сохранения исходного содержания) только в 11 из 52 областей.
Единственная область, где большинство моделей справляется почти без потерь, — программирование на Python: 17 из 19 моделей сохраняют код практически без искажений.
Хуже всего модели работают с тестом и редкими форматами: рецептами, художественной прозой, нотами и финансовыми отчетами.
Дополнительные тесты показали, что подключение агентских инструментов поиска, выполнения кода, прямой правки файлов - в базовой реализации не улучшает результат, а в среднем добавляет около 6% потерь.
Авторы заметили, что объём документа, длина взаимодействия и наличие посторонних файлов в контексте также ухудшают качество, причём эти эффекты, накапливаются и со временем усиливают друг друга.
По наблюдениям, потери распределены неравномерно: чаще всего модель работает почти безупречно, но раз в несколько шагов допускает резкий сбой и теряет 10–30% содержимого за одну итерацию. Такое поведение объясняет около 80% всех зафиксированных потерь.
Слабые модели чаще удаляют фрагменты целиком, топовые - искажают то, что остаётся в документе.
@ai_machinelearning_big_data
#AI #ML #LLM #DELEGATE52 #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔47👍34😇27❤12👏12👀11🤣3🔥1
Энтузиаст собрал «Википедию», где всё на 100% выдумано ИИ
Проект называется Halupedia.
На сайте нет заранее написанных статей. Каждая страница появляется только в тот момент, когда ты её открываешь. Правило одно: эта вселенная существует только пока на неё кто-то смотрит.
Выглядит всё почти как Wikipedia: шрифты, верстка, академический тон, ссылки, случайная статья через stumble. Только есть маленький нюанс - ничего из этого не существовало до клика.
Примеры статей там уже сами по себе прекрасны:
- Великая перепись голубей 1887 года
- Министерство слегка неправильных карт
- Халдическая арифметика - раздел математики, где запрещено вычитание
- Армунд, картограф рек - человек, который нанес на карту 14 000 лиг рек, не вставая со стула
- Общество по предотвращению ненужных вторников
На странице ещё показывается, сколько людей читают статью прямо сейчас. Обычно там фраза в духе: «вы один сейчас изучаете этот фолиант».
Но лучший поинт - описание от автора:
«Энциклопедия вселенной, которая не существует, пока вы её не посетите».
Бэкенд тоже в тему: open-source репозиторий vibeserver с описанием «маленький веб-сервер, который придумывает вещи ровно вовремя».
Мы построили крупнейшую базу знаний в истории человечества, а потом кто-то сделал её кривое галлюцинирующее отражение и выложил в открытый интернет.
Вот это уже нормальное использование ИИ.
halupedia.com
@ai_machinelearning_big_data
Проект называется Halupedia.
На сайте нет заранее написанных статей. Каждая страница появляется только в тот момент, когда ты её открываешь. Правило одно: эта вселенная существует только пока на неё кто-то смотрит.
Выглядит всё почти как Wikipedia: шрифты, верстка, академический тон, ссылки, случайная статья через stumble. Только есть маленький нюанс - ничего из этого не существовало до клика.
Примеры статей там уже сами по себе прекрасны:
- Великая перепись голубей 1887 года
- Министерство слегка неправильных карт
- Халдическая арифметика - раздел математики, где запрещено вычитание
- Армунд, картограф рек - человек, который нанес на карту 14 000 лиг рек, не вставая со стула
- Общество по предотвращению ненужных вторников
На странице ещё показывается, сколько людей читают статью прямо сейчас. Обычно там фраза в духе: «вы один сейчас изучаете этот фолиант».
Но лучший поинт - описание от автора:
«Энциклопедия вселенной, которая не существует, пока вы её не посетите».
Бэкенд тоже в тему: open-source репозиторий vibeserver с описанием «маленький веб-сервер, который придумывает вещи ровно вовремя».
Мы построили крупнейшую базу знаний в истории человечества, а потом кто-то сделал её кривое галлюцинирующее отражение и выложил в открытый интернет.
Вот это уже нормальное использование ИИ.
halupedia.com
@ai_machinelearning_big_data
2🔥91🤣72❤21👍20🤓10🎉6🙉4😁2💔1🤨1
Комитет по надзору Палаты представителей США направил официальное письмо Сэму Альтману с требованием раскрыть детали его личных инвестиций и финансовые связи с топ-менеджментом.
Власти подозревают, что ресурсы OpenAI могли использоваться для искусственного завышения капитализации компаний, в которых CEO имеет личную долю.
Главным поводом для расследования стала ситуация вокруг разработчика термоядерных реакторов Helion.
В 2021 году Альтман вложил в него $375 млн из собственных средств, а позже предложил OpenAI инвестировать в проект еще $500 млн. Эта сделка могла увеличить оценку Helion в шесть раз - до $35 млрд.
Согласно документам комитета, сотрудники OpenAI были настолько встревожены инициативой, что избегали ее обсуждения в корпоративном Slack из-за страха перед возможным судебным преследованием.
Расследование также выявило непубличные связи внутри руководства компании: выяснилось, что президент OpenAI Грег Брокман владеет долями в двух стартапах Альтмана и имеет процент в его семейном фонде.
Конгресс обязал OpenAI до 22 мая провести брифинг с участием главного юрисконсульта и предоставить всю внутреннюю переписку с 2015 года, касающуюся конфликтов интересов.
Отдельно законодатели запросили доступ к отчета аудиторского комитета, созданного советом директоров OpenAI после скандального увольнения и возвращения Альтмана в 2023 году.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍145🤔26😐24❤12🤨8🔥4👏3😁3🙈3💔2
LLM — это не новая профессия — это апгрейд к твоей текущей.
Backend, ML, DevOps — добавляешь LLM → растёшь в задачах, деньгах и грейде
Записывайся на новый поток курса LLM-инженер от AI Talent Hub и GIGASCHOOL🚀
Сейчас уже недостаточно просто знать RAG, рынок ищет тех, кто умеет собирать сложные AI-системы и доводить их до продакшена. Поэтому мы пересобрали программу, сохранили фундаментальную базу и усилили практическую часть, чтобы ты смог:
Что будет в твоём GitHub:
✔️ Опыт дообученния LLM/энкодер под домен
✔️ RAG над корпоративной базой
✔️ Мультиагентная система
✔️ Production-сервис в Docker
✔️ Observability и отчет по безопасности
Формат: онлайн-семинары
Старт: 4 июня
Длительность: 6 месяцев
До четверга — самая низкая цена, дальше повышение
🔜 Посмотреть программу и попасть в поток
Backend, ML, DevOps — добавляешь LLM → растёшь в задачах, деньгах и грейде
Записывайся на новый поток курса LLM-инженер от AI Talent Hub и GIGASCHOOL🚀
Сейчас уже недостаточно просто знать RAG, рынок ищет тех, кто умеет собирать сложные AI-системы и доводить их до продакшена. Поэтому мы пересобрали программу, сохранили фундаментальную базу и усилили практическую часть, чтобы ты смог:
📁 Освоить стек LLM-инженера: трансформеры, RAG (retrieval, reranking, eval), агенты, LLMOps, vLLM/SGLang, observability
📁 Вырости в грейде: перейти от простых интеграций к проектированию AI-систем с учётом latency, cost и scaling
📁 Пройти весь цикл создания LLM-продукта: от дообучения (QLoRA, PEFT) до production-сервиса с нагрузкой и мониторингом
📁 Получить фундамент по LLM: освоить, как устроены модели, механика инференса и оптимизации - не только вызов API
📁 Освоить редкие навыки: AI Red Teaming и обеспечением безопасности агентных систем
📁 Работать с реальными инженерными задачами: observability, оценка качества
📁 Учиться у практикующих экспертов из индустрии, которые собирают и развивают AI-системы в продакшене
Что будет в твоём GitHub:
Формат: онлайн-семинары
Старт: 4 июня
Длительность: 6 месяцев
До четверга — самая низкая цена, дальше повышение
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩17🔥9😁7👍6❤2👌2🙊2👏1