Технозаметки Малышева – Telegram

Технозаметки Малышева

8.49K subscribers

3.81K photos

1.43K videos

40 files

3.99K links

Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb

Download Telegram

About

Blog

Apps

Platform

Технозаметки Малышева

8.49K subscribers

Технозаметки Малышева

Пентагон внедряет ИИ в военное планирование через проект Thunderforge

Министерство обороны США заключило контракт с Scale AI для интеграции искусственного интеллекта в стратегические операции.
Партнерами проекта выступают Anduril со своей платформой Lattice и Microsoft, обеспечивающая работу языковых моделей.
Система будет помогать военному руководству в планировании миссий, распределении ресурсов и проведении симуляций.
Первоначальное развертывание запланировано в Индо-Тихоокеанском и Европейском командованиях с последующим расширением на все 11 боевых подразделений.
Разработчики подчеркивают, что ИИ будет функционировать под постоянным человеческим контролем, а конечные решения останутся за офицерами.

ИИ будет командовать войнами, а потом и государствами.
Вопрос ближайшего будущего уже.

#Pentagon #ScaleAI #Anduril
-------
@tsingular

🤯9👍4👾2🫡1

5.54K viewsedited 15:39

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

И как после этого можно обвинять нейросети в галлюцинации?! :)

#юмор
------
@tsingular

😁17🔥9👍2

1.16K views07:10

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Manus: китайский ИИ агент-оператор для десятков приложений

Китайские товарищи выпустили систему, способную управлять десятками ИИ приложений одновременно через ИИ агента под названием Manus. (https://manus.im/)

Разработка обгоняет Perplexity Deep Research,OpenAI Operator и Claude Computer, превосходя их всех в бенчмарках.

Согласно отзывам, Manus способен параллельно обрабатывать до 50 различных задач — от финансовых транзакций до исследований и покупок.

Система вызывает противоречивые чувства: восторг профессионалов сочетается с тревогой о будущем человеческого труда.

Пока все соревнуются в копировании ИИ исследователей, китайские разработчики просто делают инструменты для реальной работы. DeepSeek был только разминкой!

UPD: обещают скоро выпустить в Opensource

#Manus #агенты
———
@tsingular

👍8🔥2🤔1

5.97K viewsedited 07:24

Технозаметки Малышева

Microsoft дарит бесплатный доступ к o3-mini-high всем пользователям Copilot

Microsoft существенно расширяет возможности функции Think Deeper, интегрируя модель OpenAI o3-mini-high.

Теперь каждый пользователь Copilot получает неограниченный доступ к технологии, ранее доступной только подписчикам ChatGPT Pro.

Модель o3-mini характеризуется улучшенной эффективностью при сохранении интеллектуального потенциала флагманской o1.

Think Deeper обеспечивает пошаговое решение комплексных задач, требуя больше времени на обработку запросов.

Раньше функционал был эксклюзивом подписки Copilot Pro, затем появился в бесплатной версии с ограничениями, которые теперь полностью сняты.

Если вдруг снимут ограничения на доступ к Copilot из РФ - все эти чудеса заморских технологий составят серьёзную конкуренцию локальным разработкам.

#Microsoft #Copilot #OpenAI
-------
@tsingular

👍9

973 viewsedited 07:47

Технозаметки Малышева

🚀LADDER: LLM учится решать задачи как человек - от простого к сложному

Исследователи из Tufa Labs разработали подход LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), позволяющий моделям учиться на декомпозиции сложных задач.

Суть в том, что модель сама генерирует более простые варианты сложной задачи, образуя естественный градиент сложности.

Она решает эти упрощенные варианты и постепенно учится решать всё более сложные задачи — без участия человека! 🤯

🧪 Технические детали, которые делают этот метод особенным:
1. Рекурсивное разложение проблемы: Модель генерирует дерево вариантов, где каждый новый уровень проще предыдущего. Важно, что сама модель определяет, как упростить задачу.

2. Верификация решений: на математической задаче из примера для проверки используется численное интегрирование, которое дает достоверную проверку.

3. Reinforcement Learning (GRPO): Применяется Group Relative Policy Optimization без отдельной критической модели, что экономит память и повышает эффективность.

4. TTRL (Test-Time Reinforcement Learning): Когда модель сталкивается с новой сложной задачей на этапе тестирования, она генерирует для неё варианты прямо во время вывода!

🔥 Результаты просто огонь:
- Модель Llama 3.2 3B улучшила точность с 1% до 82% на университетских интегралах

- 7B модель достигла 73% на экзамене MIT Integration Bee, превзойдя GPT-4o (42%)

- После TTRL та же 7B модель достигла 90% на MIT Integration Bee, перегнав даже OpenAI o1 (80%)

Да, вы правильно поняли — 7-миллиардная модель ОБОШЛА топовые модели с триллионами параметров! И это без дополнительной архитектурной оптимизации и человеческого фидбека.

💼 Бизнес-применение:
1. Экономия на вычислительных ресурсах: зачем платить за огромные модели, если можно научить маленькие?
2. Создание узкоспециализированных решений с меньшими бюджетами: можно взять маленькую модель и научить её конкретной задаче.
3. Edge-устройства: теперь реально делать локальные приложения с продвинутым мышлением на слабом железе.

Кажется, наконец-то появится альтернатива подходу "залить всё железом". LADDER открывает дверь к более эффективным моделям без безумного масштабирования.

Т.е. 5090 пока не покупаем :)

#LADDER #RL #mathematics

👍13❤‍🔥1

1.17K views08:04

Технозаметки Малышева

🔥 AutoAgent: Создание ИИ-агентов без единой строчки кода

Исследователи из Гонконгского университета представили AutoAgent — систему, позволяющую создавать и запускать ИИ-агентов через обычный разговорный язык. Никакой разработки!

Что умеет:
- Полное самоуправление: система сама генерирует агентов и рабочие процессы на основе обычного текстового запроса

- Четыре ключевых компонента: Утилиты агентной системы + LLM-движок действий + Самоуправляемая файловая система + Модуль самонастройки через "самоигру"

- Впечатляющие показатели: 2-е место в бенчмарке GAIA с общей точностью 55.15% и 71.7% точности в задачах первого уровня

- Превосходит существующие фреймворки: превзошёл Langfun Agent (60.38%) и FRIDAY (45.28%)

- Работа с документами: в MultiHop-RAG достиг 73.51% точности против 62.83% у LangChain RAG при меньшей частоте ошибок (14.2%)

Теперь руководители, аналитики и менеджеры могут создавать собственных ИИ-помощников без привлечения дорогостоящих разработчиков.

Текущие решения вроде LangChain и AutoGen хороши, но требуют технических знаний для настройки API, инженерии промптов и отладки — AutoAgent убирает эти барьеры, делая технологию доступной практически для любого бизнеса.

Реальное применение:
- Автоматизация финансового анализа
- Управление документами
- Структурированное решение сложных задач
- Интеграция данных из разных источников

Интересно, сколько времени пройдет, прежде чем такие системы станут стандартом для бизнеса? И главное — не станет ли это последним гвоздем в крышку гроба айтишных зарплат? 😏

Paper

GitHub

#агенты #nocode #Китай #opensource
———
@tsingular

🔥10🤔4

1.28K views08:38

Технозаметки Малышева

🚀 DeepSeek R2: Как китайцы задают новый темп в гонке AI-технологий

DeepSeek ускоренными темпами готовит выпуск R2, которая, судя по всему, должна появиться в ближайшие недели.

И похоже, что это будет не просто обновление, а настоящий прорыв в производительности, эффективности и доступности AI.

На той неделе компания провела "Open Source Week", выложив в открытый доступ целых 5 инструментов, которые, судя по всему, и будут лежать в основе их нового продукта.

1. FlashMLA — декодер для GPU Hopper с поддержкой BF16 и кэшем KV, разбитым на блоки по 64 элемента. Такая оптимизация значительно ускоряет работу с последовательностями переменной длины.

2. DeepEP — библиотека для коммуникации в моделях с MoE-архитектурой. Решает главную проблему MoE-моделей — узкое место при обмене данными между компонентами.

3. DeepGEMM — библиотека матричного умножения с FP8-точностью. Всего ~300 строк кода, но показывает лучшую производительность чем многие вручную оптимизированные ядра.

4. DualPipe — двунаправленный конвейерный параллелизм, устраняющий простои GPU при обучении моделей. Особенно эффективен в связке с EPLB — балансировщиком нагрузки для MoE.

5. 3FS (Fire-Flyer File System) — параллельная файловая система, показывающая скорость чтения до 6.6 ТБ/с на кластере из 180 узлов. Идеально для работы с огромными датасетами.

Если сложить всё вместе, то DeepSeek строит полноценную экосистему для эффективного обучения и инференса крупных моделей.

Интересна экономика их решения:
- Пиковая нагрузка на кластер — 278 узлов (по 8 GPU)
- Ежедневные затраты на инфраструктуру — $87 тыс (при цене $2/час за GPU H800)
- Теоретический дневной доход — $562 тыс (при текущем ценнике на DeepSeek-R1)
- Маржа прибыли — 545% 🤯

Даже с учётом скидок и бесплатных сервисов, такая экономика выглядит фантастически по сравнению с конкурентами.

Когда ждать?
По слухам, R2 появится в ближайшие недели. Будем следить!
Есть версия, что опять привяжутся к китайским праздникам и мы увидим обновление в середине апреля.

Если они еще успеют прикрутить метод от QwQ к самообучению, - будет вообще бомба, но, думаю, это уже к летнему релизу, скорее - объём данных на порядок больше, чем у QwQ все-таки.

#DeepSeek #OpenSource #R2 #Китай
———
@tsingular

🔥11👍3🤯2

1.27K viewsedited 09:11

Технозаметки Малышева

Media is too big

VIEW IN TELEGRAM

NotaGen: новая модель ИИ создаёт классическую музыку как настоящий композитор

Появился интересный проект для генерации музыки – NotaGen. Разработчики применили к созданию нот те же подходы, что используются в обучении больших языковых моделей. Модель проходит три этапа обучения и может создавать партитуры в классическом стиле.

На сайте проекта доступно демо, где можно задать период, композитора и инструменты, а получить готовую музыкальную композицию. NotaGen-X, последняя версия модели, показывает лучшие результаты, хотя для локального запуска требуется 24ГБ видеопамяти.

Исходный код и веса моделей размещены на GitHub и Hugging Face, авторы также выложили Colab-ноутбук для тех, кто хочет попробовать модель без мощного оборудования.

Может ли робот создать картину? ✓
Может ли робот сочинить симфонию? ✓

#Notagen #музыка
------
@tsingular

👍9👏3🆒1

1.25K views20:41

Технозаметки Малышева

🚀 Курс "Practical Deep Learning for Coders" от Fast.ai

Наткнулся на интересный бесплатный курс от fast.ai, который дает практические навыки глубокого обучения без гигантских требований к математике или железу.

Без регистрации, оплаты и т.д. статьи, видеоуроки, примеры кода.

Чему учат:
- Создание и тренировка моделей для компьютерного зрения, обработки естественного языка, табличных данных

- Сборка и деплой работающих моделей с первого занятия (на второе занятие у вас уже будет своя рабочая модель!)

- Работа с библиотеками: PyTorch, fastai, Hugging Face Transformers, Gradio

- Техники глубокого обучения: случайные леса, стохастический градиентный спуск, аугментация данных, transfer learning

Акцент на навыках:
- Построение полного цикла обучения с нуля
- Методы улучшения точности и скорости моделей
- Внедрение моделей в веб-приложения
- Работа с категориальными и непрерывными данными

Преимущества курса:
1. Строится на практических примерах кода, а не только теории
2. Показывает рабочие модели с первого занятия
3. Не требует дорогого железа (всё можно запустить в Kaggle/Paperspace)
4. Не нужна продвинутая математика — хватит школьного уровня

9 уроков по 90 минут. Всё можно пробовать в Jupyter Notebooks. Дополнительно есть форумы сообщества и рабочий код.

В общем, если давно хотели разобраться с нейронками но пугала математика — имеет смысл рассмотреть. Пишешь код, видишь результат, а теорию подтягиваешь по мере необходимости.

#deeplearning #ML #PyTorch #обучение
———
@tsingular

✍14⚡2🔥1👨‍💻1

1.8K views05:17

Технозаметки Малышева

NVIDIA готовит к выходу RTX 4090 с 96gb VRAM

Опровергли.

#NVIDIA #RTX4090 #VRAM
------
@tsingular

🤯4🔥2🆒1

1.13K viewsedited 08:12

Технозаметки Малышева

Forwarded from Анализ данных (Data analysis)

🎓 1) Andrej Karpathy
Глубокие, но доступные лекции по глубокому обучению, языковым моделям и введению в нейронные сети.
Ссылка: https://www.youtube.com/c/AndrejKarpathy

📊 2) 3Blue1Brown
Потрясающие визуализации, которые делают абстрактные математические концепции понятными и интуитивными.
Ссылка: https://www.youtube.com/c/3blue1brown

🎙️ 3) Lex Fridman
Глубокие беседы с лидерами индустрии ИИ, позволяющие получить широкий взгляд на современные тенденции.
Ссылка: https://www.youtube.com/c/LexFridman

🤖 4) Machine Learning Street Talk
Технические погружения и обсуждения с ведущими исследователями в области ИИ и машинного обучения.
Ссылка: https://www.youtube.com/c/MachineLearningStreetTalk

📚 5) StatQuest with Joshua Starmer PhD
Доступные и понятные объяснения основ машинного обучения и статистики для начинающих.
Ссылка: https://www.youtube.com/c/statquest

🍉 6) Serrano Academy (Luis Serrano)
Ясный и доступный контент о машинном обучении, глубоких нейронных сетях и последних достижениях в ИИ.
Ссылка: https://www.youtube.com/c/LuisSerrano

💻 7) Jeremy Howard
Практические курсы по глубокому обучению и обучающие видео по созданию AI-приложений, основанные на опыте Fast.ai.
Ссылка: https://www.youtube.com/c/Fastai

🛠️ 8) Hamel Husain
Практические уроки по работе с языковыми моделями (LLMs), RAG, тонкой настройке моделей и оценке ИИ.
Ссылка: https://www.youtube.com/c/HamelHusain

🚀 9) Jason Liu
Экспертные лекции по RAG и советы по фрилансу в области ИИ для специалистов по машинному обучению.
Ссылка: https://www.youtube.com/c/JasonLiu

⚙️ 10) Dave Ebbelaar
Практические руководства по созданию ИИ-систем и применению технологий в реальных проектах.
Ссылка: https://www.youtube.com/c/DaveEbbelaar

Эти каналы предлагают разнообразный и качественный контент для всех, кто хочет углубиться в изучение искусственного интеллекта. Независимо от вашего уровня подготовки, здесь каждый найдёт что-то полезное для себя!

@data_analysis_ml

✍12👨‍💻3⚡2🔥2

1.28K views08:14

Технозаметки Малышева

Интересно Manus.im уже разобрали на запчасти.

Это Клод Соннет с 29ю тулами. не мультиагент, но с браузером.

Даже исходники свои отдал, какой дружелюбный ассистент.

#Manus #promptinjection
———
@tsingular

😁16👍3🫡1

1.87K viewsedited 06:48

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

🤖 Перезагрузка софтверной индустрии: AI не просто ест приложения, он их заменяет

Похоже, мы на пороге ~~большого шухера~~ большой перемены в том, как вообще работает софт.
Если коротко: AI не просто "съедает" приложения, а полностью меняет правила игры.

Ключевые цифры и факты:
• Gartner прогнозирует падение использования мобильных приложений на 25% к 2027 году из-за AI-ассистентов 📉
• При этом рынок AI-приложений в 2024 достиг $3.3 млрд и вырос на 51% за год 📈
• Уже сейчас пользователи потратили более $1 млрд на AI-приложения

Суть перемен, которые на подходе:
Представьте: вместо открытия 10 разных приложений для бронирования билетов, проверки погоды и оплаты счетов - вы просто говорите с AI-ассистентом, который всё делает в одном месте. Без скачивания, без переключения между приложениями.

Что это значит технически:
1. От монолитных приложений к микросервисам - функциональность будет "вызываться" AI по требованию
2. Приложения становятся модульными и динамическими вместо статичных программ
3. Разработчики будут создавать "навыки" или "агенты" вместо отдельных приложений

Неизбежные последствия для бизнеса:
• App Store'ы теряют 30%-ную комиссию - экономика платформ рушится 💸
• Контроль над дистрибуцией ослабевает - AI работает в облаке и меньше зависит от платформы
• Вертикальные AI-решения (для юристов, финансистов и т.д.) станут ценнее, чем общие LLM

При этом сейчас происходит обратный процесс - AI-приложения бурно растут внутри существующих магазинов приложений (тот же ChatGPT набрал 100 млн пользователей за 30 дней), но параллельно подрывают саму модель этих магазинов.

Похоже на то, как вода отходит от берега перед цунами.

Выводы:
• Если ваш бизнес завязан на традиционные приложения - пора задуматься о стратегии перехода
• Компании с низким уровнем удержания пользователей в приложениях рискуют больше всех
• Новая золотая жила: создание вертикальных AI-решений для конкретных индустрий

В общем, мы наблюдаем не просто эволюцию, а настоящий переворот.

От парадигмы приложений и магазинов приложений переходим к ассистентам с ассортиментом навыков с монетизацией.

Вопрос только в том, кто оседлает эту волну, а кого она смоет? 🏄‍♂️🌊

#futurology #agents #transformation
———
@tsingular

✍11⚡3👍2👀2🔥1

6.88K viewsedited 07:27

Технозаметки Малышева

Media is too big

VIEW IN TELEGRAM

EngineAI бегает всё бодрее и бодрее.
Полноценный атлет.

#engineai #robots
———
@tsingular

👍15🤯9🔥7✍2👻1🆒1👾1

3.29K views11:57

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

🛠 Агент, создающий сам себя: эксперимент с Claude 3.5 Sonnet

Интересный эксперимент компании Riza, показывающий, как ИИ-агент может самостоятельно писать инструменты для решения бизнес-задач без предварительной настройки API.

Ключевая идея:

"Что если дать агенту возможность создавать собственные инструменты, написав код и безопасно выполнив его на Riza с помощью нового API Tools, и избежать создания ИИ-специфических инструментов вообще?"

Реализация:
Агент работает с тремя базовыми инструментами:
- request_user_input — для запроса ввода от пользователя
- show_options — для отображения вариантов выбора
- create_tool — ключевая функция! позволяет создавать новые инструменты
(В уроке приведены все промпты - можно взять себе в оборот!)

Агент использовал модель Claude 3.5 Sonnet и писал весь код на TypeScript. (пример декабря 2024)

Что особенно круто в реализации:
1. Самостоятельное создание интерфейсов: агент сам пишет код для взаимодействия со Stripe API
2. Схемы JSON валидации: автоматически создаёт JSON Schema для новых инструментов
3. Типизация: код генерируется с правильными TypeScript-типами
4. Прогрессивное обучение: начав с нуля, агент создал 4 рабочих инструмента:
- list_stripe_customers_by_email
- update_stripe_customer_email
- add_card_to_stripe_customer
- charge_stripe_customer

Пример кода, сгенерированного агентом:

async function execute(input: { email: string }): Promise {
  const apiUrl = 'https://api.stripe.com/v1/customers';
  const params = new URLSearchParams({
    email: input.email,
    limit: '100'
  });

  try {
    const response = await fetch(`${apiUrl}?${params.toString()}`, {
      method: 'GET',
      headers: {
        'Content-Type': 'application/x-www-form-urlencoded'
      }
    });
    // ...
  }
}

Бизнес-применение
1. Быстрая интеграция: компаниям не нужно создавать специфичные для LLM обёртки API
2. Снижение времени разработки: вместо написания обвязки для каждого API, агент сам справляется
3. Гибкость: можно сохранять "слепок" агента с нужными инструментами для повторного использования
4. Универсальность: подход работает с любыми API, не только Stripe

🤔 Потенциальные проблемы: безопасность выполнения кода, контроль качества генерируемых инструментов и возможные ошибки в логике. Но как прототип решения — очень впечатляюще.

Отличная демонстрация, как в будущем могут работать агенты, способные программировать себя под конкретные задачи, а не заранее запрограммированными на все возможные сценарии.

#агенты #selflearning #tools #обучение
———
@tsingular

👍11⚡2✍2🤔1

1.08K viewsedited 05:59

Технозаметки Малышева

Kimi — новый ИИ-чат от китайского стартапа Moonshot AI

Китайский стартап Moonshot AI выпустил своего нового ИИ-помощника Kimi. Он умеет рассуждать, анализировать информацию и вести размышления и искать в интернете.

Есть веб версия, мобильная, настольная и версия в виде плагина к браузеру, но требуется регистрация через WeChat.

Хотя, если вам не нужны цепочки размышлений, а просто ИИ с поиском, то можно не регистрироваться, - работает в вебе прям так, - бесплатно (норм для студентов :) ).

#Китай #Moonshot #Kimi
———
@tsingular

⚡3👍1

1.09K views06:21

Технозаметки Малышева

Роботы_на_работе.gif

🚀 AWS создаёт Agentic AI Group

AWS объявила о создании новой группы, целиком посвящённой агентным AI-технологиям.

4 марта 2025 CEO AWS Мэтт Гарман разослал внутреннее письмо, где анонсировал создание выделенной группы Agentic AI, которую возглавит вице-президент Свами Сивасубраманиан. В письме Гарман пишет, что "AI-агенты — ядро следующей волны инноваций", и прогнозирует, что агентный AI может стать многомиллиардным бизнесом для AWS.

Технические изменения:
- Bedrock и SageMaker теперь объединены под одной крышей в рамках подразделения AWS Compute
- Команда чатбота Q также переведена в новую группу
- Подразделение по AI-инструментам было реорганизовано с фокусом на агентные технологии

Что уже запущено:
- Alexa+ — обновлённая версия голосового помощника с агентными функциями, которая может проактивно выполнять действия без команд пользователя (бесплатно для Prime-подписчиков, $19.99/месяц для остальных)
- InlineAgents — новая фича для Bedrock, позволяющая динамически создавать агентов "на лету" через API вместо предварительной настройки
- Amazon Nova — новое семейство моделей AWS (ранее Titan) с вариантами от лёгких Nova Micro (32K контекст) до мощных Nova Pro (300K контекст)

Бизнес-стратегия:
AWS выбрала модельно-агностичный подход — клиенты могут использовать как собственные модели Amazon Nova, так и сторонние (Claude, Stability AI и др.). Это отличает их от Microsoft (ставка на OpenAI) и Google (свои модели PaLM/Gemini).

Интересно, что AWS не пошла по пути готовых встроенных решений типа Microsoft Copilot, а сосредоточилась на предоставлении гибкой платформы для создания кастомных агентов.

Влияние на рынок:

Аналитики считают, что AWS имеет шансы стать лидером в создании enterprise-grade агентных систем за счёт:

1. Интеграции с облачной инфраструктурой (Lambda, Step Functions)
2. Строгой безопасности через IAM-роли и детальный контроль доступа
3. Масштабируемой архитектуры с управляемой оркестрацией
4. Экономических оптимизаций (кэширование токенов, которое снижает стоимость до 90%)

Почему это важно:
AWS явно переходит от "поддержки" агентов к агрессивной стратегии доминирования в этой области. Microsoft и Google с их интеграцией агентов в офисные приложения борются за пользовательский сегмент, а AWS готовится захватить enterprise-рынок кастомных агентных решений.

#AWS #agentis #enterprise
———
@tsingular

✍4👍1

1.01K views08:33

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Нейрорендер без костылей.

Мои любимые DeemosTech бахнули вот такую демку.
Это те, которые Rodin, image-to-3D и вот это вот все.

Обратите внимание, что это не просто генерация каждого кадра с помощью Stable Diffusion или Flux. Это консистентный нейрорендер? тут ничего не бурлит. По сути - video2video генератор.
В принципе сейчас можно собирать что-подобное в несколько шагов. Черновой рендер, стилизация первого кадра и пропускание этого через Runway Style Reference.
Вопрос в том, будет ли у Rodin\Deemos своя видеомодель или они будут перепродавать АПИ.

Пока есть только приглашение в бету и обещания сделать что-то в этом году.

@cgevent

🔥8

996 views10:59

Технозаметки Малышева

Forwarded from Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят

https://jackhopkins.github.io/factorio-learning-environment/

Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf

https://github.com/JackHopkins/factorio-learning-environment

2 режима

Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод

Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/

Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает

Выводы авторов:

1. Навыки в кодинге имеют значение
Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах.

2. Инвестиции в технологии стимулируют рост
Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций.

3. Планирование является ключевым фактором в режиме открытой игры
В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности.

4. Способности к пространственному мышление пока недостаточны
Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий.

5. Сейчас ллмкам сложно исправлять ошибки
Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке.

6. Стили программирования существенно различаются
Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).

Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился.
Ждем пока специально пообучают ллмки, RL LLM накинут.

PS собираемся и собираем все крутое по нейронкам здесь: https://t.me/researchim

👍4🔥2🤔1

952 views16:15

Технозаметки Малышева

Forwarded from Искусственный интеллект. Высокие технологии

⚡️ OpenAI представили новые инструменты для разработки агентов:

● Web Search — любой агент, созданный через OpenAI, теперь может искать и использовать информацию из интернета.
● File Search — реализован функционал поиска по локальным файлам.
● Multi-agent framework — Swarm переименован в Agents SDK, позволяющий передавать диалоги между агентами с сохранением контекста.
● Computer Use — возможность создать агента, который автономно управляет вашим пк

Стрим: https://www.youtube.com/live/hciNKcLwSes

@vistehno

New tools for building agents with the API

We’re evolving the API platform to make it faster and easier for developers to build agents. Kevin Weil, Nikunj Handa, Steve Coffey, and Ilan Bigio introduce and demo these new tools.

✍5🔥3🆒1

986 views18:06