Machinelearning

✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard

Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.

Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.

В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.

Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.

Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.

Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.

Доступ к Ernie 5.1 открыт через онлайн-площадки компании.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🏆51🔥42❤24🎉19👏12🤓8👍6💯2🌭1

15.6K views11:55

Machinelearning

🌟

Poolside открыл публичный доступ к кодинг-моделям

Стартап Poolside открыл публичный доступ к своим кодинг-моделям линейки Laguna.

До этого компания работала только с клиентами из государственного и публичного сектора. Релиз подготовила команда ~60 человек.

Poolside - стартап в области генеративного ИИ для разработки ПО, основанный в апреле 2023 года.

Компанию возглавляют бывший технический директор GitHub, курировавший запуск Copilot, и ex-основатель source{d} - одной из первых компаний, применивших ИИ для анализа кода.

🟡

Флагман - проприетарная MoE-модель Laguna M.1 (225B-A23B).

SWE-bench Pro - 46,9%
SWE-bench Verified - 72,5%
Terminal-Bench 2.0 - 40,7%

Laguna M.1 доступна через API и OpenRouter. На ограниченное время - бесплатно.

🟡

Открытая модель - Laguna XS.2 (33B-A3B)

SWE-bench Pro - 44,5%
Verified - 68,2%
Terminal-Bench 2.0 - 30,1%.

Заявлены: поддержка NVIDIA TensorRT-LLM и NVFP4-версия для Blackwell.

Laguna XS.2 распространяется по лицензии Apache 2.0 через API, OpenRouter, Ollama и на HuggingFace.

Говорят, что локально запускается на Mac с 36 ГБ памяти

Вместе с моделями Poolside предлагает агентную обвязку на базе Agent Client Protocol, на которой тестировались модели и проводился RL.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔57👏21❤20🎉10👌6👍5🤝1

14.1K views15:03

Machinelearning

📌

Модели при длительной работе с документами в среднем теряют около четверти их содержимого

Команда Microsoft Research опубликовала препринт, в который демонстрирует, что современные LLM при долгом редактировании документов вносят редкие, но серьёзные искажения.

Для проведения эксперимента был создан бенчмарк DELEGATE-52 из 310 рабочих сценариев в 52 областях, от программирования и кристаллографии до нотной записи и генеалогии.

Методика тестирования основана на принципе обратимости: модель получает задание изменить документ, а затем - обратную инструкцию, которая должна вернуть его к исходному виду. Чем сильнее итоговый файл отличается от оригинала, тем больше накопленных ошибок.

В эксперименте прогнали 19 моделей, включая GPT-5.4, Claude 4.6 и Gemini 3.1 Pro на документах в 3–5 тысяч токенов и контекстом до 12 тысяч токенов.

По результатам эксперимента, после 20 последовательных правок эти 3 модели в среднем повреждают около 25% содержимого документа, а среднее значение по всей выборке составило около 50% потерь.

Лучший результат показала Gemini 3.1 Pro: она признана готовой к делегированию (≥98% сохранения исходного содержания) только в 11 из 52 областей.

Единственная область, где большинство моделей справляется почти без потерь, — программирование на Python: 17 из 19 моделей сохраняют код практически без искажений.

Хуже всего модели работают с тестом и редкими форматами: рецептами, художественной прозой, нотами и финансовыми отчетами.

Дополнительные тесты показали, что подключение агентских инструментов поиска, выполнения кода, прямой правки файлов - в базовой реализации не улучшает результат, а в среднем добавляет около 6% потерь.

Авторы заметили, что объём документа, длина взаимодействия и наличие посторонних файлов в контексте также ухудшают качество, причём эти эффекты, накапливаются и со временем усиливают друг друга.

По наблюдениям, потери распределены неравномерно: чаще всего модель работает почти безупречно, но раз в несколько шагов допускает резкий сбой и теряет 10–30% содержимого за одну итерацию. Такое поведение объясняет около 80% всех зафиксированных потерь.

Слабые модели чаще удаляют фрагменты целиком, топовые - искажают то, что остаётся в документе.

📌Лицензирование: MIT License

🟡

Arxiv

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #DELEGATE52 #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔47👍34😇27❤12👏12👀11🤣3🔥1

15.7K views16:01

Machinelearning

Энтузиаст собрал «Википедию», где всё на 100% выдумано ИИ

Проект называется Halupedia.

На сайте нет заранее написанных статей. Каждая страница появляется только в тот момент, когда ты её открываешь. Правило одно: эта вселенная существует только пока на неё кто-то смотрит.

Выглядит всё почти как Wikipedia: шрифты, верстка, академический тон, ссылки, случайная статья через stumble. Только есть маленький нюанс - ничего из этого не существовало до клика.

Примеры статей там уже сами по себе прекрасны:

- Великая перепись голубей 1887 года
- Министерство слегка неправильных карт
- Халдическая арифметика - раздел математики, где запрещено вычитание
- Армунд, картограф рек - человек, который нанес на карту 14 000 лиг рек, не вставая со стула
- Общество по предотвращению ненужных вторников

На странице ещё показывается, сколько людей читают статью прямо сейчас. Обычно там фраза в духе: «вы один сейчас изучаете этот фолиант».

Но лучший поинт - описание от автора:

«Энциклопедия вселенной, которая не существует, пока вы её не посетите».

Бэкенд тоже в тему: open-source репозиторий vibeserver с описанием «маленький веб-сервер, который придумывает вещи ровно вовремя».

Мы построили крупнейшую базу знаний в истории человечества, а потом кто-то сделал её кривое галлюцинирующее отражение и выложил в открытый интернет.

Вот это уже нормальное использование ИИ.

halupedia.com

@ai_machinelearning_big_data

2🔥91🤣72❤21👍20🤓10🎉6🙉4😁2💔1🤨1

16.1K viewsedited 17:43

Machinelearning

✔️

Конгресс США начал расследование против Сэма Альтмана

Комитет по надзору Палаты представителей США направил официальное письмо Сэму Альтману с требованием раскрыть детали его личных инвестиций и финансовые связи с топ-менеджментом.

Власти подозревают, что ресурсы OpenAI могли использоваться для искусственного завышения капитализации компаний, в которых CEO имеет личную долю.

Главным поводом для расследования стала ситуация вокруг разработчика термоядерных реакторов Helion.

В 2021 году Альтман вложил в него $375 млн из собственных средств, а позже предложил OpenAI инвестировать в проект еще $500 млн. Эта сделка могла увеличить оценку Helion в шесть раз - до $35 млрд.

Согласно документам комитета, сотрудники OpenAI были настолько встревожены инициативой, что избегали ее обсуждения в корпоративном Slack из-за страха перед возможным судебным преследованием.

Расследование также выявило непубличные связи внутри руководства компании: выяснилось, что президент OpenAI Грег Брокман владеет долями в двух стартапах Альтмана и имеет процент в его семейном фонде.

Конгресс обязал OpenAI до 22 мая провести брифинг с участием главного юрисконсульта и предоставить всю внутреннюю переписку с 2015 года, касающуюся конфликтов интересов.

Отдельно законодатели запросили доступ к отчета аудиторского комитета, созданного советом директоров OpenAI после скандального увольнения и возвращения Альтмана в 2023 году.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍145🤔26😐24❤12🤨8🔥4👏3😁3🙈3💔2

9.72K views06:31

Machinelearning

LLM — это не новая профессия — это апгрейд к твоей текущей.
Backend, ML, DevOps — добавляешь LLM → растёшь в задачах, деньгах и грейде

Записывайся на новый поток курса LLM-инженер от AI Talent Hub и GIGASCHOOL🚀

Сейчас уже недостаточно просто знать RAG, рынок ищет тех, кто умеет собирать сложные AI-системы и доводить их до продакшена. Поэтому мы пересобрали программу, сохранили фундаментальную базу и усилили практическую часть, чтобы ты смог:

📁 Освоить стек LLM-инженера: трансформеры, RAG (retrieval, reranking, eval), агенты, LLMOps, vLLM/SGLang, observability
📁 Вырости в грейде: перейти от простых интеграций к проектированию AI-систем с учётом latency, cost и scaling
📁 Пройти весь цикл создания LLM-продукта: от дообучения (QLoRA, PEFT) до production-сервиса с нагрузкой и мониторингом
📁 Получить фундамент по LLM: освоить, как устроены модели, механика инференса и оптимизации - не только вызов API
📁 Освоить редкие навыки: AI Red Teaming и обеспечением безопасности агентных систем
📁 Работать с реальными инженерными задачами: observability, оценка качества
📁 Учиться у практикующих экспертов из индустрии, которые собирают и развивают AI-системы в продакшене

Что будет в твоём GitHub:
✔️ Опыт дообученния LLM/энкодер под домен
✔️RAG над корпоративной базой
✔️Мультиагентная система
✔️Production-сервис в Docker
✔️Observability и отчет по безопасности

Формат: онлайн-семинары
Старт: 4 июня
Длительность: 6 месяцев

До четверга — самая низкая цена, дальше повышение

🔜

Посмотреть программу и попасть в поток

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩17🔥9😁7👍6❤2👌2🙊2👏1

5.13K views08:04

About

Blog

Apps

Platform