Github

✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard

Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.

Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.

В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.

Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.

Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.

Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.

Доступ к Ernie 5.1 открыт через онлайн-площадки компании.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

592 views16:25

Github

🤖 Machine Learning Roadmap: от базы до гуру вайбкодинга

Карта обучения машинному обучению (Machine Learning, Deep Learning, LLM, Generative AI, MLOps) - от первого import numpy до уровня инженера, который понимает, как ИИ работает внутри, и может писать прод‑системы, а не только дёргать API.

https://github.com/justxor/MachineLearningRoadmap/tree/main

❤1👍1🔥1

598 views12:46

Github

Курсы прошел, а реально работающего сервиса так и не случилось?

Код есть. Репозиторий тоже.
А ссылки, которую можно кому-то скинуть - нет.

Deploy-f закрывает это за 10 минут:
- бот
- API
- Telegram mini app
- всё с HTTPS и без зарубежных платежей

В этом году мы снизили цены, чтобы джуны и соло-разработчики могли запускаться быстро, надежно и без лишних затрат.

Проект без ссылки - это просто файл на ноутбуке
👉 Исправить это можно здесь

Deploy-F

Самый удобный и простой хостинг для приложений

462 views08:00

Github

Forwarded from Machinelearning

📌

Сколько стоит построить ИИ-ЦОД мощностью 1 ГВт?

Epoch AI опубликовала модельную оценку полной стоимости владения типовым дата-центром для искусственного интеллекта мощностью один гигаватт.

По расчётам, такой объект потребует около $38 млрд первоначальных капитальных вложений и $900 млн операционных расходов в год.

Если капитальные затраты распределить на срок службы оборудования, совокупная стоимость владения составляет примерно $8,5 млрд в год.

Около 60% этой суммы (порядка $5 млрд) приходится на серверы. Расходы на их фоне невелики: даже электроэнергия, крупнейшая операционная статья, по оценке обойдется в $600 млн в год.

Авторы оговариваются, что это упрощённая финмодель, а не оценка конкретного объекта.

Расчёт описывает гипотетический ЦОД крупного американского оператора облачной инфраструктуры на оборудовании NVIDIA GB200 NVL72.

Реальные издержки могут заметно отличаться в зависимости от выбора серверов, проектирования, расположения, схемы финансирования и стратегии энергоснабжения.

Главная неопределённость расчётов связана со сроком службы IT-оборудования.

Базовый сценарий исходит из 5 лет для серверов и сетевой инфраструктуры и 14 лет для здания. При сроке в 3 года годовая стоимость владения возрастает примерно до $12–13 млрд, при 7 - снижается до $7 млрд.

Оценка опирается на статистику государственного энергорегулятора США, показатели энергоэффективности Lawrence Berkeley Lab, стоимость серверов по выкладкам SemiAnalysis, строительные индексы Turner & Townsend и ряд других источников.

Модель предполагает полное питание от энергосети и не учитывает собственную генерацию, налоговые льготы оценены приблизительно.

Обновлённый расчёт даёт стоимость владения $8,5 млн на мегаватт в год против прежних $10,8 млн.

Снижение авторы объясняют переходом на новое оборудование и пересмотром части исходных данных.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

557 views11:02

Github

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Как ваш код может стать частью мировых ИТ-продуктов?

Работа над открытым кодом — крупнейшая совместная коллаборация в мире. Тимлид Яндекс Доставки Даниил Липаткин написал интересную статью, в которой на примере Flutter рассказал, как можно самому начать делать вклад в разработку открытого ПО.

И спойлер: для этого даже не обязательно писать код!

В статье вы узнаете:
• Как легко подступиться к чужому объёмному коду.
• Зачем техногигантам открыто публиковать свои лучшие наработки.
• Как избежать типичных ошибок новичков.
• Почему отправляя на проверку код нельзя забывать про вежливость.

Текст здорово мотивирует на то, чтобы начать вносить свой вклад в общее дело 🤝

▶️ Читайте статью в блоге Городских сервисов Яндекса

298 views09:50

Github

Forwarded from Анализ данных (Data analysis)

✔️

Step 3.7 Flash: новая ставка на агентную эффективность

StepFun выпустили Step 3.7 Flash - открытую MoE-модель под Apache 2.0, заточенную не просто под чат, а под агентные сценарии: кодинг, поиск, работу с инструментами, документами, интерфейсами и изображениями.

По заявленным бенчмаркам модель выглядит серьёзно:

- #1 на ClawEval-1.1 - 67.1
- #1 на SimpleVQA Search - 79.2
- #2 на SWE-PRO - 56.3
- 95.3 на V* Python

Что внутри:

- 198B параметров всего
- около 11B активных параметров
- до 400 токенов в секунду
- контекст 256K
- 3 уровня reasoning
- открытые веса под Apache 2.0

Главный акцент - не «самая большая модель», а модель, которая быстро и стабильно работает внутри агента.

Она должна понимать UI, графики, документы и изображения, после чего писать код, вызывать инструменты и продолжать задачу без постоянного развала tool calls.

Отдельно заявлена совместимость с Claude Code, KiloCode, Hermes Agent, OpenClaw и протоколами вроде MCP. Локальный запуск тоже в фокусе: Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395.

GitHub: http://github.com/stepfun-ai/Step-3.7-Flash
HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash
GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF
ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash
API: http://platform.stepfun.ai
Blog: http://static.stepfun.com/blog/step-3.7-flash/

Please open Telegram to view this post

VIEW IN TELEGRAM

316 views11:03

About

Blog

Apps

Platform