Forwarded from Machinelearning
Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.
Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.
В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.
Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.
Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.
Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.
Доступ к Ernie 5.1 открыт через онлайн-площадки компании.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🤖 Machine Learning Roadmap: от базы до гуру вайбкодинга
Карта обучения машинному обучению (Machine Learning, Deep Learning, LLM, Generative AI, MLOps) - от первого import numpy до уровня инженера, который понимает, как ИИ работает внутри, и может писать прод‑системы, а не только дёргать API.
https://github.com/justxor/MachineLearningRoadmap/tree/main
Карта обучения машинному обучению (Machine Learning, Deep Learning, LLM, Generative AI, MLOps) - от первого import numpy до уровня инженера, который понимает, как ИИ работает внутри, и может писать прод‑системы, а не только дёргать API.
https://github.com/justxor/MachineLearningRoadmap/tree/main
❤1👍1🔥1
Курсы прошел, а реально работающего сервиса так и не случилось?
Код есть. Репозиторий тоже.
А ссылки, которую можно кому-то скинуть - нет.
Deploy-f закрывает это за 10 минут:
- бот
- API
- Telegram mini app
- всё с HTTPS и без зарубежных платежей
В этом году мы снизили цены, чтобы джуны и соло-разработчики могли запускаться быстро, надежно и без лишних затрат.
Проект без ссылки - это просто файл на ноутбуке
👉 Исправить это можно здесь
Код есть. Репозиторий тоже.
А ссылки, которую можно кому-то скинуть - нет.
Deploy-f закрывает это за 10 минут:
- бот
- API
- Telegram mini app
- всё с HTTPS и без зарубежных платежей
В этом году мы снизили цены, чтобы джуны и соло-разработчики могли запускаться быстро, надежно и без лишних затрат.
Проект без ссылки - это просто файл на ноутбуке
👉 Исправить это можно здесь
Deploy-F
Самый удобный и простой хостинг для приложений
Forwarded from Machinelearning
Epoch AI опубликовала модельную оценку полной стоимости владения типовым дата-центром для искусственного интеллекта мощностью один гигаватт.
По расчётам, такой объект потребует около $38 млрд первоначальных капитальных вложений и $900 млн операционных расходов в год.
Если капитальные затраты распределить на срок службы оборудования, совокупная стоимость владения составляет примерно $8,5 млрд в год.
Около 60% этой суммы (порядка $5 млрд) приходится на серверы. Расходы на их фоне невелики: даже электроэнергия, крупнейшая операционная статья, по оценке обойдется в $600 млн в год.
Авторы оговариваются, что это упрощённая финмодель, а не оценка конкретного объекта.
Расчёт описывает гипотетический ЦОД крупного американского оператора облачной инфраструктуры на оборудовании NVIDIA GB200 NVL72.
Реальные издержки могут заметно отличаться в зависимости от выбора серверов, проектирования, расположения, схемы финансирования и стратегии энергоснабжения.
Главная неопределённость расчётов связана со сроком службы IT-оборудования.
Базовый сценарий исходит из 5 лет для серверов и сетевой инфраструктуры и 14 лет для здания. При сроке в 3 года годовая стоимость владения возрастает примерно до $12–13 млрд, при 7 - снижается до $7 млрд.
Оценка опирается на статистику государственного энергорегулятора США, показатели энергоэффективности Lawrence Berkeley Lab, стоимость серверов по выкладкам SemiAnalysis, строительные индексы Turner & Townsend и ряд других источников.
Модель предполагает полное питание от энергосети и не учитывает собственную генерацию, налоговые льготы оценены приблизительно.
Обновлённый расчёт даёт стоимость владения $8,5 млн на мегаватт в год против прежних $10,8 млн.
Снижение авторы объясняют переходом на новое оборудование и пересмотром части исходных данных.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Как ваш код может стать частью мировых ИТ-продуктов?
Работа над открытым кодом — крупнейшая совместная коллаборация в мире. Тимлид Яндекс Доставки Даниил Липаткин написал интересную статью, в которой на примере Flutter рассказал, как можно самому начать делать вклад в разработку открытого ПО.
И спойлер: для этого даже не обязательно писать код!
В статье вы узнаете:
• Как легко подступиться к чужому объёмному коду.
• Зачем техногигантам открыто публиковать свои лучшие наработки.
• Как избежать типичных ошибок новичков.
• Почему отправляя на проверку код нельзя забывать про вежливость.
Текст здорово мотивирует на то, чтобы начать вносить свой вклад в общее дело 🤝
▶️ Читайте статью в блоге Городских сервисов Яндекса
Работа над открытым кодом — крупнейшая совместная коллаборация в мире. Тимлид Яндекс Доставки Даниил Липаткин написал интересную статью, в которой на примере Flutter рассказал, как можно самому начать делать вклад в разработку открытого ПО.
И спойлер: для этого даже не обязательно писать код!
В статье вы узнаете:
• Как легко подступиться к чужому объёмному коду.
• Зачем техногигантам открыто публиковать свои лучшие наработки.
• Как избежать типичных ошибок новичков.
• Почему отправляя на проверку код нельзя забывать про вежливость.
Текст здорово мотивирует на то, чтобы начать вносить свой вклад в общее дело 🤝
▶️ Читайте статью в блоге Городских сервисов Яндекса
Forwarded from Анализ данных (Data analysis)
StepFun выпустили Step 3.7 Flash - открытую MoE-модель под Apache 2.0, заточенную не просто под чат, а под агентные сценарии: кодинг, поиск, работу с инструментами, документами, интерфейсами и изображениями.
По заявленным бенчмаркам модель выглядит серьёзно:
- #1 на ClawEval-1.1 - 67.1
- #1 на SimpleVQA Search - 79.2
- #2 на SWE-PRO - 56.3
- 95.3 на V* Python
Что внутри:
- 198B параметров всего
- около 11B активных параметров
- до 400 токенов в секунду
- контекст 256K
- 3 уровня reasoning
- открытые веса под Apache 2.0
Главный акцент - не «самая большая модель», а модель, которая быстро и стабильно работает внутри агента.
Она должна понимать UI, графики, документы и изображения, после чего писать код, вызывать инструменты и продолжать задачу без постоянного развала tool calls.
Отдельно заявлена совместимость с Claude Code, KiloCode, Hermes Agent, OpenClaw и протоколами вроде MCP. Локальный запуск тоже в фокусе: Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395.
GitHub: http://github.com/stepfun-ai/Step-3.7-Flash
HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash
GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF
ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash
API: http://platform.stepfun.ai
Blog: http://static.stepfun.com/blog/step-3.7-flash/
Please open Telegram to view this post
VIEW IN TELEGRAM