Заметки LLM-энтузиаста
491 subscribers
132 photos
17 videos
1 file
163 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
Это может быть интересно: похоже популярный ИИ-бенчмарк LMArena отдаёт преимущество именно крупным компаниям

Новое исследование от учёных Cohere Labs, MIT, Stanford и других институтов выявило, что LMArena — ведущий краудсорсинговый бенчмарк для оценки ИИ-моделей — создаёт несправедливые преимущества для технологических гигантов, что может искажать его широко известные рейтинги. 🧐

📊 Ключевые выводы исследования:

• Такие компании как Meta, Google и OpenAI тайно тестируют множество вариантов своих моделей на платформе, публикуя только лучшие результаты

• Модели от крупных лабораторий получают больше внимания: на Google и OpenAI приходится более 60% всех взаимодействий на платформе

• Доступ к данным Arena значительно повышает производительность моделей именно в задачах этой платформы, что указывает на переобучение, а не на реальное улучшение возможностей

• 205 моделей были тихо удалены с платформы, причём модели с открытым исходным кодом удаляются чаще других

💡 Почему это важно:

LMArena оспаривает выводы исследования, утверждая, что их рейтинг отражает реальные предпочтения пользователей. Однако подобные заявления могут серьезно подорвать доверие к платформе, которая формирует общественное восприятие ИИ-моделей.

В сочетании с недавним скандалом вокруг бенчмарка Llama 4 Maverick, это исследование подчеркивает важный факт: оценка ИИ-систем не всегда так объективна, как кажется на первый взгляд.

А вы доверяете популярным ИИ-бенчмаркам? Делитесь мнением в комментариях! 👇

#ИскусственныйИнтеллект #ИИ_исследования #LMArena #технологии
3👍1
Новые компактные модели Phi-4 от Microsoft с улучшенными возможностями рассуждения

30 апреля Microsoft запустила три новые модели семейства Phi, ориентированные на сложные рассуждения. Эти компактные модели превосходят более крупных конкурентов в задачах, требующих логического мышления, и при этом достаточно малы для работы на смартфонах и ноутбуках! 🚀

🔍 Что нового?

• Phi-4-reasoning (14 млрд параметров) — флагманская модель, которая превосходит OpenAI o1-mini и не уступает DeepSeek с 671 млрд параметров по ключевым показателям
• Phi-4-reasoning-plus — улучшенная версия с дополнительной тренировкой через обучение с подкреплением
• Phi-4-mini-reasoning (3,8 млрд параметров) — сверхкомпактная модель, способная работать на мобильных устройствах и не уступающая 7-миллиардным моделям в математических задачах

💡 Почему это важно?

Эти модели специально разработаны для эффективной работы в условиях ограниченных ресурсов — на периферийных устройствах и компьютерах Copilot+ PC. Несмотря на компактный размер, они демонстрируют впечатляющие результаты в сложных задачах рассуждения.

Как показывают тесты, Phi-4-reasoning превосходит DeepSeek-R1-Distill-Llama-70B (в 5 раз больше по размеру!) и демонстрирует конкурентоспособные результаты по сравнению со значительно более крупными моделями, такими как Deepseek-R1.

🔓 Открытый исходный код

Все три модели выпущены с открытым исходным кодом и лицензиями, позволяющими неограниченное коммерческое использование и модификацию разработчиками.

🖥 Применение в Windows

Модели Phi уже интегрированы в Copilot+ PC с оптимизированным для NPU вариантом Phi Silica. Они используются в таких функциях как Click to Do и доступны разработчикам через API.

🧠 Хотите попробовать?

• Протестируйте новые модели на Azure AI Foundry
• Изучите Phi Cookbook
• Узнайте больше о Phi-4-mini-reasoning
• Узнайте больше о Phi-4-reasoning
• Узнайте больше о Phi-4-reasoning-plus

Это новый шаг в развитии малых языковых моделей, которые становятся всё умнее, оставаясь при этом компактными и эффективными. Будущее ИИ уже здесь — прямо на наших устройствах! 📱💻

Источник: Microsoft Azure Blog

#Microsoft #Phi4 #МалыеЯзыковыеМодели #ИИнаУстройстве #ОткрытыйИсходныйКод
3👍1
MCP и Function Calling: соперники или дополняющие друг друга технологии ?

В мире искусственного интеллекта постоянно появляются новые технологии и стандарты, которые могут сбивать с толку даже опытных разработчиков. Одна из таких пар технологий — MCP (Model Сontext Protocol) и Function Calling. Давайте разберемся, в чем их отличия и могут ли они дополнять друг друга.

Главный спойлер: они не конкурируют, а дополняют друг друга! 🤝

Про MCP уже много раз писал здесь и тут, поэтому начнем с технологии Function Calling, которая "календарно" появилась значительно раньше, но сейчас по силе "хайпа" значительно уступает MCP.

Что такое Function Calling?

Function Calling — это способность языковых моделей (LLM) определять, когда необходимо использовать внешние инструменты для решения задачи. По сути, это механизм, который позволяет ИИ:

1️⃣ Распознавать ситуации, требующие применения внешних функций
2️⃣ Структурировать параметры для выполнения этих функций
3️⃣ Работать в контексте одного приложения
4️⃣ Определять, ЧТО и КОГДА нужно использовать

При этом сам процесс запуска инструмента остается на стороне разработчика.
Простыми словами: Function Calling — это когда ИИ говорит "Мне нужно сейчас выполнить поиск в интернете".

Что такое MCP?

MCP (Model Context Protocol) — это стандартизированный протокол, который определяет:

1️⃣ Как инструменты предоставляются и обнаруживаются
2️⃣ Последовательный протокол для хостинга инструментов
3️⃣ Возможность обмена инструментами в рамках всей экосистемы
4️⃣ Разделение реализации инструмента от его использования

MCP отвечает на вопрос КАК инструменты предоставляются и обнаруживаются стандартизированным способом. Это похоже на то, как если бы MCP говорил: "Вот как любой инструмент может быть последовательно доступен для любой системы ИИ".

Ключевые различия ⚡️

Function Calling: определяет КАКОЙ инструмент использовать и КОГДА его применять
MCP: устанавливает КАК инструменты предоставляются и обнаруживаются в стандартизированном виде

Почему это важно? 🤔

MCP имеет потенциал стать "REST для ИИ-инструментов" — повсеместным стандартом, который предотвращает фрагментацию экосистемы. Он позволяет разработчикам сосредоточиться на создании качественных инструментов, а не на изобретении новых способов их хостинга

Как они работают вместе?

Эти технологии не конкурируют, а дополняют друг друга:

• Function Calling определяет необходимость использования инструмента
• MCP обеспечивает стандартизированный способ доступа к этому инструменту

Важные мысли 💡

• По мере усложнения систем ИИ, стандартизированные протоколы вроде MCP становятся необходимыми для обеспечения совместимости.
• Компании, которые внедряют обе технологии, смогут быстрее создавать более надежные системы ИИ.
• В конечном счете, будущее не в выборе между MCP и Function Calling, а в их эффективном совместном использовании для создания более мощных и гибких ИИ-систем.

Что еще почитать по теме "Function Calling и/или MCP?"

https://medium.com/@genai.works/%EF%B8%8F-function-calling-vs-mcp-what-smart-ai-teams-need-to-know-7c319267b6db
https://www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp
https://neon.tech/blog/mcp-vs-llm-function-calling

А вы уже используете MCP в своих проектах или пока ограничиваетесь базовым Function Calling?
Поделитесь своим опытом в комментариях! 👇

#ИскусственныйИнтеллект #LLM #MCP #FunctionCalling #РазработкаИИ
2👍2🔥2
Уязвимости AI-агентов: Часть I и II

Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).

Часть I: Введение в уязвимости AI-агентов


🔍 Основные риски безопасности AI-агентов:

• Неавторизованное выполнение вредоносного кода
• Кража конфиденциальных данных компании или пользователей
• Манипуляция ответами, генерируемыми ИИ
• Непрямые инъекции промптов, ведущие к постоянным эксплойтам

🤖 Разница между LLM и сервисами на базе LLM:

• LLM — это нейросетевая модель, которая принимает текст и генерирует наиболее вероятное следующее слово
• AI-агенты (например, ChatGPT) — это сложные системы, построенные на основе LLM, с дополнительными функциями, такими как выполнение кода, сохранение памяти и доступ в интернет

🧪 Интересный подход к тестированию:

• Для выявления уязвимостей исследователи разработали специальный AI-агент Pandora
• Pandora расширяет функциональность ChatGPT, включая доступ в интернет и неограниченное выполнение кода в песочнице на базе Docker
• С помощью Pandora были обнаружены уязвимости, такие как непрямая инъекция промптов и техники обхода песочницы
• Этот агент используется в серии статей для демонстрации многих обсуждаемых уязвимостей

Оригинальная статья здесь

Часть II: Уязвимости выполнения кода

⚠️ Ключевые выводы:

• Исследование выявило уязвимости, затрагивающие любые AI-агенты на базе LLM с возможностями выполнения кода, загрузки документов и доступа в интернет
• Эти уязвимости могут позволить злоумышленникам запускать неавторизованный код, внедрять вредоносный контент в файлы, получать контроль и похищать конфиденциальную информацию
• Организации, использующие ИИ для математических вычислений, анализа данных и других сложных процессов, должны быть бдительны в отношении связанных рисков безопасности

🔒 Необходимость выполнения кода в LLM:

• Современные AI-агенты могут выполнять код для точных вычислений, анализа сложных данных и помощи в структурированных расчетах
• Это обеспечивает точные результаты в таких областях, как математика
• Преобразуя запросы пользователей в исполняемые скрипты, LLM компенсируют свои ограничения в арифметических рассуждениях

🧪 Реализации песочниц:

• AI-агенты используют технологии песочниц для изоляции выполнения кода
• Существуют две основные стратегии: контейнеризованные песочницы (например, ChatGPT Data Analyst) и песочницы на основе WASM (WebAssembly) [например, ChatGPT Canvas]

🚨 Выявленные уязвимости:

• Непроверенные передачи данных: злоумышленники могут создавать файлы для обхода проверок безопасности
• Компрометация пользовательских файлов с помощью фоновых служб: атакующие могут создавать фоновые процессы для мониторинга и модификации пользовательских документов
• Динамическая обфускация и выполнение промптов: код для фоновой службы может быть изменен различными способами для усложнения обнаружения

📋 Рекомендации по безопасности:

1️⃣ Ограничение системных возможностей:
• Отключение фоновых процессов или ограничение их конкретными операциями
• Применение более строгих разрешений на доступ к файловой системе

2️⃣ Ограничение ресурсов:
• Установка лимитов на использование ресурсов песочницы (память, CPU, время выполнения)

3️⃣ Контроль доступа в интернет:
• Управление внешним доступом из песочницы для уменьшения поверхности атаки

4️⃣ Мониторинг вредоносной активности:
• Отслеживание действий аккаунтов, сбоев и необычного поведения
• Использование инструментов анализа поведения для выявления подозрительных операций

5️⃣ Валидация входных данных:
• Проверка и очистка данных в обоих направлениях (от пользователя к песочнице и от песочницы к пользователю)

6️⃣ Обеспечение соответствия схеме:
• Проверка соответствия всех выходных данных ожидаемым форматам

7️⃣ Явная обработка ошибок:
• Перехват, очистка и регистрация ошибок на каждом этапе

Оригинальная статья здесь

#AI #Cybersecurity #LLM #AIagents #security
2👍1🔥1
Tempo MCP App Store: новая платформа с 40+ MCP интеграциями 🚀

Похоже среди вебовских Vibe Coding платформ появился новый лидер.

Tempo только что представили MCP App Store, который существенно упрощает процесс создания качественных приложений методом Vibe-кодинга.
На данный момент в Tempo MCP App Store входит около 40 интеграций с различными сервисами, и скорее всего уже в ближайшее время их количество перевалит за сотню.

Что такое Tempo MCP App Store? 🤔

Tempo MCP App Store — это без преувеличения "сокровищница" MCP-серверов внутри веб-кодера Tempo (чуть ранее писал о нем в большом обзоре, вот ссылка на пост), судя по всему построенная на базе Supabase (без подключения к Supabase она недоступна), обеспечивающая интеграцию веб- и мобильных приложений с десятками популярных сервисов. Основное преимущество — использование искусственного интеллекта для управления сложностью интеграций.

Ключевые интеграции в Tempo App Store 🔌

В App Store представлены интеграции с более чем 40 сервисами, включая:

• Stripe — для платежных решений 💳
• OpenAI — для интеграции с ChatGPT и другими AI-моделями 🤖
• Gemini — для работы с AI от Google 🧠
• FireCrawl — для веб-скрапинга 🕸
• Exa, SerpAPI, Perplexity — для создания поисковых ассистентов 🔍
• И другие сервисы для различных задач

Создание поискового ассистента с Exa / SerpAPI / Perplexity 🔎

С помощью интеграции с Exa / SerpAPI / Perplexity можно создать поискового ассистента:
1. Подключите Exa / SerpAPI / Perplexity через Tempo App Store (нужно будет выбрать соответствующий MCP и указать API-ключ для каждого сервиса)
2. Используйте AI-промпт для создания поискового интерфейса (причем "бэкенд"-часть промпта может быть очень простой в стиле: используй Exa.ai / SerpAPI / Perplexity MCP серверы, которые я настроил, при ответе на вопрос пользователя)
3. Настройте параметры поиска и отображения результатов
4. Получите приложение, способное искать информацию в интернете

Интеграция платежей со Stripe 💰

Добавление платежной системы в приложение с Tempo App Store:
• Подключение Stripe через интерфейс платформы (нужно выбрать Stripe из списка MCP-серверов и указать API-ключ)
• Использование AI для создания платежных форм (добавь кнопку "платеж", при нажатии на кнопку списывай xxx денег, используй Stripe MCP сервер)
• Получение решения с обработкой платежей и управлением подписками

Пример с FireCrawl: веб-скрапер 🕷

Процесс создания веб-скрапера с помощью FireCrawl (демо здесь):

• Создание нового проекта в Tempo
• Подключение Supabase к проекту
• Установка FireCrawl из App Store
• Ввод API-ключа от FireCrawl
• Использование AI-промпта для создания скрапера
• Получение готового приложения с интерфейсом

Преимущества единой экосистемы

Tempo MCP App Store предлагает следующие преимущества:

• Единый интерфейс для всех интеграций
• Согласованная работа различных сервисов
• Использование AI для автоматизации разработки
• Быстрое развертывание на различных платформах
• Возможность комбинировать сервисы в одном приложении

Практические сценарии использования 💡

С помощью Tempo MCP App Store можно создавать:

• Поисковых ассистентов с Exa / SerpAPI / Perplexity / Tavily
• Коммерческие продукты на базе интеграции со Stripe
• Веб-скраперы с FireCrawl
• Чат-боты с OpenAI
• Аналитические дашборды
• Системы управления контентом
и т.д.

Процесс развертывания 🚀

После создания приложения с нужными интеграциями:

1. Нажмите кнопку «Share» в Tempo
2. Выберите «Deploy» и платформу (например, Vercel)
3. Дождитесь автоматической сборки и развертывания
4. Привяжите проект к своей учетной записи
5. При необходимости настройте собственный домен

Перспективы развития 🔮

• Tempo со своей новинкой "MCP App Store" действительно сильно упростили задачу быстрого написания качественных приложений методом Vibe-кодинга.
• Количество MCP-серверов в их "сокровищнице" будет быстро расти.
• А другие платформы веб-кодинга скорее всего возьмут данный подход на вооружение.
• Что потенциально еще сильнее ускорит процесс разработки, снизит затраты и сделает разработку более доступной.
2👍1🔥1
Gemini 2.5 Pro: Google выпустила новую версию раньше срока 🚀

Google неожиданно выпустила предварительную версию Gemini 2.5 Pro (I/O version), не дожидаясь официального релиза. Что ж, похоже, кто-то в Mountain View решил, что ждать больше нет смысла. ⏱️

Что нового? 🔍

Новая версия демонстрирует заметные улучшения в программировании и мультимодальном мышлении. 💻 Gemini 2.5 Pro Preview занял первое место в рейтинге программирования LMArena и, как утверждает Google, превзошел Claude 3.7 Sonnet в рейтинге WebDev Arena. 🏆

Интересно, что это первый случай, когда одна модель лидирует одновременно в текстовых, визуальных и веб-разработческих категориях. Впечатляет, хотя посмотрим, как долго продержится это лидерство. 🤔

Где попробовать? 🧪

С 6 мая Gemini 2.5 Pro Preview доступен в Google AI Studio. Разработчики могут начать использовать обновленную версию через Gemini API в Google AI Studio и Vertex AI. 👨‍💻

Если хотите оценить все эти "революционные" возможности самостоятельно, модель доступна для бесплатного тестирования по адресу: https://aistudio.google.com/ 🔗

Посмотрим, действительно ли новый Gemini настолько хорош, как о нём говорят, или это очередной маркетинговый ход в бесконечной гонке ИИ-гигантов. 🏁

С игрой "змейка" модель справилась быстро и без ошибок (см. комментарии).

#ИскусственныйИнтеллект #Gemini #GoogleAI #НейросетиНовости #ТехнологииБудущего
2👍2
Утечка системного промпта Claude: 25 тысяч токенов секретных инструкций 🕵️‍♂️

Похоже, что в сеть утекла системная инструкция для ИИ-помощника Claude — целых 25 тысяч токенов корпоративных секретов. Правда, подлинность документа пока под вопросом, так что не спешите верить всему, что видите 🤔

Что внутри этого "секретного" документа? 📝

Если верить информации из репозитория, системный промпт Claude разделен на несколько основных разделов:

• Инструкции по цитированию — подробные правила о том, как правильно оформлять ссылки на источники (видимо, чтобы Claude выглядел умнее, чем есть на самом деле :) 🧠💭

• Информация об артефактах — когда использовать код, HTML, SVG и прочие технические штуки, которые делают ответы более "впечатляющими"

• Инструкции по поиску — от простых запросов до "глубоких исследований" (хотя мы все знаем, что ИИ просто "гуглит" за нас) 🔍😏

• Стили и предпочтения — как подстраиваться под пользователя (читай: как создавать иллюзию, что ИИ действительно вас понимает) 🎭

• Функции и инструменты — список всех доступных инструментов с параметрами API 🛠

• Профиль Claude — версии модели, этические ограничения и прочие корпоративные формальности 📋

• Временные и юридические примечания — напоминание о том, что знания ограничены октябрем 2024 года ⚖️

Интересно, что компания Anthropic, создавшая Claude, пока никак не прокомментировала ситуацию. Возможно, они слишком заняты написанием нового системного промпта на 50 тысяч токенов? 🤪📚

#ИИ #Claude #Утечки #Anthropic #security
3👍1
Друзья, поздравляю всех с 80-летием Великой Победы!
14🎉5🔥3💯2
Недавно наткнулся на интересную заметку на редите по поводу безопасной работы с хостинговыми MCP-серверами. Почему, лучше использовать их, а не локальные серверы писал чуть ранее. Однако, и при использовании хостинговых MCP-сервисов тоже нужно соблюдать некоторые правила, на чем и делается акцент в данной заметке. Ниже привожу ее слегка вольный перевод на русский язык.

URL-адреса хостинговых MCP-серверов следует рассматривать как секреты 🔐

Краткая версия: нынешний ажиотаж вокруг хостинговых MCP-серверов сопровождается некоторыми сомнительными практиками в области безопасности. ⚠️ Черновик следующей редакции протокола MCP стремится решить эту проблему с поддержкой авторизации. А пока... будьте осторожны с этими URL-адресами хостинговых MCP-серверов! 🚨

Недавно я решил взглянуть на Composio 🧐, который привлек некоторое внимание в последние дни. Это платформа, которая размещает и запускает MCP-серверы, предоставляя конечную точку на основе Server Sent Events, к которой могут обращаться MCP-совместимые клиенты для получения данных.

Как это работает:
• Composio позволяет выбрать интеграцию (например, с Notion 📝)
• Вы аутентифицируетесь с помощью OAuth2
• Composio запускает хостинговый MCP-сервер в бессерверном контейнере
• Сервер использует ваш OAuth-токен для взаимодействия с API
• Вы получаете URL вашего сервера: https://mcp.composio.dev/notion/blah-blah-blah-uuid123

Проблема безопасности 🛡

Главная проблема:
• Этот URL фактически является API-ключом с доступом ко всем вашим данным 😱
• Большинство людей бездумно копируют эти URL в разные клиенты
• Никто не знает, как эти клиенты хранят то, что должно быть секретом 🤦‍♂️
• API-ключи и секреты должны храниться только в переменных окружения или безопасных хранилищах

Мое примечание: я сам, недавно проводя занятия по созданию MCP-серверов, спокойно шарил эти url, потом пришлось все удалять и пересоздавать заново.

Что делать:
• Разработчики MCP осведомлены об этой проблеме 👍
• В спецификации есть раздел "Third party authorization flow"
• Разработчикам сервисов вроде Composio следует реализовать эти меры безопасности
• А пока — будьте осторожны с URL-адресами хостинговых MCP-серверов! 🔒

Не разбрасывайтесь URL-адресами как конфетти на параде технологических новинок. 🎭

#MCP #Безопасность #Composio #ИскусственныйИнтеллект #security
👍31🔥1
Rosebud AI Gamemaker: Создавайте игры силой мысли (ну, почти) 🎮

Всем привет!
Сегодня расскажу о платформе Rosebud AI Gamemaker — очередном чуде современных технологий, которое обещает превратить любого в геймдизайнера. Без кода, без опыта, просто описав свою идею текстом. Звучит как сказка? Давайте разберемся.

Как это работает? 🤔

Механика проста до безобразия:
• Вы описываете игру текстом ✍️ (есть готовые шаблоны промптов!)
• ИИ анализирует ваш текст 🧠
• Платформа генерирует код и ассеты 💻
• Вы получаете готовую игру 🎉

Да, всё настолько просто. По крайней мере, в теории.

Если вы знакомы с lovable.dev (недавно писал про него здесь), который позволяет создавать веб-приложения с помощью ИИ, то Rosebud — это примерно то же самое (интерфейс сильно похож), только для игр. Тот же принцип "опиши и получи", но вместо сайтов — игровые миры.

Для кого это? 👥

Rosebud AI Gamemaker позиционируется как инструмент для:
• Геймдизайнеров, которым лень писать код для прототипов 🎨
• Начинающих разработчиков без навыков программирования 🔰
• Преподавателей, обучающих основам геймдева 👨‍🏫
• Студентов, которые хотят создавать игры, не тратя годы на обучение 👩‍🎓
• Обычных людей, которым просто хочется воплотить свою идею 💭

Что в нём особенного? 🌟

• Не требует навыков программирования (наконец-то!) 🙌
• Генерирует игры в реальном времени ⏱️
• Поддерживает экспорт на разные платформы 📱💻
• Имеет бесплатные и платные планы 💰 (см. скриншот)
• Интегрируется с GitHub и другими инструментами 🔄

В отличие от lovable.dev, который фокусируется на создании функциональных веб-приложений, Rosebud погружается в более сложный мир игровой механики, графики и интерактивности.
На lovable.dev тоже можно сделать веб-игру (приводил пример в комментариях), но времени и навыков от вайб-кодера потребуется значительно больше, а качество игры, которая получится у обычного человека (например, у меня) в случае с lovable.dev будет хуже, чем если решать ту же задачу на rosebud.ai

Частые вопросы

Насколько хорошо ИИ понимает описания? ИИ обучен на огромном количестве игровых данных. Работает лучше с четкими описаниями, хотя не стоит ожидать, что он создаст вам новую GTA или Cyberpunk. 🎯

Нужны ли технические знания? По заверениям разработчиков — абсолютно никаких. Описал идею текстом — и готово. Хотя, как мы знаем, в реальности всё обычно сложнее. 🤷‍♂️

Какие платформы поддерживаются? Unity, Unreal, HTML5, iOS, Android и другие. Выбор есть. 📊

Есть ли ограничения на сложность игр? Конечно есть. На данном этапе развития науки и техники ИИ не всесилен. Лучше всего работает с простыми и средней сложности играми. Так что ваш личный Elden Ring придется отложить. 😅 А вот примеров готовых игр на этой платформе - хоть отбавляй! (см. скриншот) И самое классное, что можно любой из примеров "взять в работу" и затюнить под себя! Например, взять готовый шутер, загрузить его в rosebuild.ai в режиме Remix и сделать свою версию - добавить монстров нужной конструкции, поменять оружие или даже логику игры.

В целом, Rosebud AI Gamemaker — интересный инструмент, который может помочь воплотить простые игровые идеи без погружения в дебри программирования. Но, как и с любой "магической" технологией, стоит держать ожидания в разумных пределах. 🧙‍♂️

А вы бы попробовали создать игру с помощью ИИ? Делитесь в комментариях! 👇

#ai #dev #games #РазработкаИгр #БезКодинга #ИскусственныйИнтеллект #GameDev
🔥64
Bolt.DIY 1.0: Что нового в обновлении? 🚀

Команда Bolt.DIY (это опенсорсный эквивалент bolt.new, уже писал про него ранее, очень простой и удобный AI-кодер, пожалуй, самый первый из веб-кодеров, кто добился значительного роста числа своих пользователей в рекордно короткие сроки, все еще один из лидеров обзора инструментов для Vibe Coding) наконец выпустила версию 1.0, и, надо признать, обновление получилось довольно внушительным. Давайте разберемся, что там интересного, без лишнего восторга и маркетинговой шелухи.

Новые функции и улучшения

Улучшенные системные промпты 🤖 В настройках появилась библиотека промптов с тремя вариантами: стандартный, оптимизированный и новый "fine-tuned". Последний обещает более строгие стандарты, меньше ошибок и лучшее планирование. Правда, по умолчанию всё равно стоит базовый вариант — видимо, чтобы мы сами могли оценить разницу.

Шаблоны и производительность ⚡️ Добавили новые стартовые шаблоны: Expo (для мобильной разработки), Astro и пару вариантов с ShadCN. Установка шаблонов теперь работает быстрее, и, что важно, больше нет проблем с rate limit, которые раньше случались с завидной регулярностью.

Улучшения интерфейса 💅 Появилась кнопка "перейти к последнему сообщению" — мелочь, а приятно. Исправили странное поведение скроллбара в чате, теперь он отдельный и не дублируется с основным. Стриминг сообщений стал плавнее.

Редактор кода 👨‍💻 В редакторе теперь можно блокировать файлы, чтобы LLM не перезаписывал их (полезно для .env файлов). Добавили поиск по всем файлам с отображением всех вхождений.

Node.js 20 🔄 Обновили Node.js до версии 20 (было 18). Это должно положительно сказаться на производительности, хотя на практике разница не всегда заметна.

Интеграции 🔌
• Supabase: Теперь можно подключить базу данных прямо из интерфейса.
• Vercel: Добавили возможность деплоить приложения на Vercel (как раньше с Netlify). Интеграции с Cloudflare пока нет, но, возможно, появится в следующих версиях.

Десктопное приложение 🖥 Теперь Bolt.DIY можно установить как нативное приложение на Windows, Mac и Linux. Правда, приложения пока не подписаны, так что придется игнорировать предупреждения безопасности при установке.
К слову, dmg-образ для mac у меня не запустился - оказался corrupted.

Expo для мобильной разработки 📱 Наконец-то добавили интеграцию с Expo, что позволяет разрабатывать мобильные приложения. Сканируете QR-код в Expo Go на телефоне — и сразу видите результат. Функция, которая давно была в других AI-инструментах, наконец добралась и до Bolt.DIY.

Как обновиться 🔄

Если вы используете локальную версию:

1) В терминале выполните git pull
2) Установите зависимости: pnpm install
3) Запустите: pnpm run dev

Для существующего деплоя на Cloudflare достаточно синхронизировать форк через кнопку "Sync fork".

Важно ⚠️: Очистите кеш браузера после обновления (Application → Storage → Clear site data), иначе могут возникнуть проблемы с интерфейсом. Учтите, что это удалит ваши API-ключи, если они не сохранены в .env файле.

В целом, обновление выглядит солидно. Разработчики явно поработали над стабильностью и добавили несколько полезных функций. Хотя до идеала еще далеко (где мой деплой приложений на Cloudflare? 🤔), прогресс очевиден. Посмотрим, что они приготовят в следующих версиях.

#bolt #opensource #news #update
5🔥3
Обновления Windsurf: новые возможности и бесплатный тариф 🚀

Что нового в Wave 8?


Windsurf на майских праздниках выкатил обновление Wave 8, и, хотя компания пока официально не объявила о поглощении OpenAI (но слухи ходят, что их договорились купить за 3 млрд долларов 🤫), новые функции заслуживают внимания.

📊 Для корпоративных пользователей:
• Интеграция с Google Docs
• Возможность делиться "беседами" внутри команды
• Обновленная аналитика для администраторов
• Windsurf Reviews — бот для GitHub, проверяющий pull-запросы (только для командного тарифа, конечно же 💸)

🛠 Для обычных смертных:
• Custom Workflows — создание правил и шагов в markdown-файле, которые можно вызвать через slash-команды. По сути, простые инструкции для ИИ, чтобы он не терялся в ваших запросах
• Файловые правила — теперь работают как в Cursor или Cline/Roocode: создаете папку windsurf/rules и складываете туда правила
• Одновременная работа нескольких агентов Cascade — наконец-то можно не ждать, пока одна задача завершится, чтобы начать другую
Плагины Cascade — обновленный интерфейс MCP с графическим управлением (прощай, редактирование файлов вручную - см. скриншот). Ждем когда и в Cursor наконец-то появится нормальный MCP Marketplace (в Cline, Trae, Windsurf - уже есть)

🖥 Улучшения интерфейса:
• Кнопка "продолжить", когда ИИ ждет подтверждения
• Переработанный селектор моделей с поиском
• Фильтрация истории разговоров по рабочим пространствам

💰 Бесплатный тариф стал щедрее:
• Доступ к премиум-моделям
• 25 кредитов вместо 5 (это примерно 100 запросов к GPT-4.1 и Mini)
• Неограниченное использование Cascade в режиме написания
• Неограниченные быстрые автодополнения
• Один деплой в день

Выглядит неплохо, особенно для бесплатного тарифа. Хотя, конечно, самые сочные функции всё равно остаются за платной версией — классика жанра. 🙃

Если вы пользуетесь Windsurf, обновитесь до последней версии, чтобы получить доступ ко всем новшествам. А если нет — возможно, сейчас самое время попробовать.

#Windsurf #ИИ #Обновления #update
👍3🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
DeerFlow: Новый фреймворк для глубоких исследований от ByteDance

ByteDance, компания-создатель TikTok, выпустила новый опенсорсный инструмент под названием DeerFlow. Это фреймворк для проведения глубоких исследований, который уже набрал почти 5000 звезд на GitHub всего за несколько дней. Неплохо для очередного AI-проекта, не так ли? 🤔

Что такое DeerFlow?

DeerFlow представляет собой фреймворк для систематических глубоких исследований с использованием координированных LangGraph агентов. По сути, это еще один AI-ассистент, но с открытым исходным кодом и возможностью запуска локально.

Основные возможности:
• Комплексный анализ литературы
• Синтез данных
• Структурированное извлечение знаний
• Интеграция с веб-поиском и Python

Как это работает?

Система использует языковые модели (например, Qwen 2.5 14B) и может работать с различными инструментами:

- Веб-поиск (DuckDuckGo, Tavily, Brave Search)
- Веб-краулинг
- Выполнение Python-кода
- Генерация отчетов и даже подкастов 🎙

Интерфейс выглядит довольно приятно (см. демо), а процесс исследования отображается в реальном времени с активностями, выводами и ссылками на источники. Всё как у "больших мальчиков", только бесплатно.

Стоит ли пробовать?

Если вы устали от платных API и хотите иметь собственный инструмент для исследований — возможно. Установка не самая простая (требуется Node.js 22+, несколько зависимостей и настройка конфигурации), но для энтузиастов это не проблема.

Конечно, не стоит ожидать, что он заменит ChatGPT или Claude, но для специфических исследовательских задач может оказаться полезным. По крайней мере, не нужно платить за каждый токен. 💸

Источники
1) Официальный сайт проекта: https://deerflow.tech/
2) Репозиторий проекта: github.com/ByteDance/DeerFlow
3) Подробная документация со схемами по репозиторию здесь

#AI #opensource #ByteDance #deerflow #ИИ_инструменты #deepsearch #agents
🔥43👍3
Taskmaster 2.0: Теперь с поддержкой всех популярных AI-моделей 🧠

Помните Taskmaster ? (чуть выше писал о нем) Тот самый менеджер задач для AI-кодинга, который раньше работал только с ограниченным набором моделей? Что ж, похоже, разработчики услышали пользователей и выкатили обновление, которое действительно стоит внимания.

Что нового? 🆕

• Поддержка 6 AI-провайдеров: OpenAI, Gemini, XAI, Open Router, Anthropic и Perplexity. Наконец-то можно не продавать почку ради использования только Claude :)

• Настройка трёх ролей для моделей:

1) Основная модель (для кодинга)
2) Исследовательская модель (для поиска информации)
3) Запасная модель (на случай, если основная решит "уйти на перекур")

• Официальная поддержка .roo-правил - важно для тех кто использует RooCode и хочет вместо RooCode Orchestrator (бывший Boomerang Tasks - чуть выше писал о нем) использовать TaskMaster

• Улучшенный парсинг документов с требованиями проекта (PRD) — теперь AI лучше понимает, что вы от него хотите.

• Новые CLI-команды для интерактивной настройки моделей — для тех, кто любит общаться с терминалом больше, чем с людьми :)

Как это работает? 🛠

Если вы используете MCP-сервер, то обновление произойдёт автоматически. Для CLI-версии нужно выполнить:

npm install -g task-master-ai

или
npm update task-master-ai


После установки запустите:

task-master init


Система предложит выбрать модели для каждой роли. Можно выбрать Gemini 2.5 Flash для основной работы (экономия денег 💰 - хотя для сложных проектов, я бы использовал платные модели), Perplexity для исследований и что-то ещё для запасного варианта.

Что это значит для нас? 🤔

Теперь Taskmaster стал практически бесплатным инструментом, если настроить его на использование Gemini 2.5 Flash

Однако, есть и ложка дёгтя — после первой итерации задач Taskmaster всё ещё не очень хорошо анализирует созданные файлы проекта для генерации новых задач. Так что для сложных проектов придётся немного помогать ему вручную.

В целом, обновление действительно полезное. Если вы занимаетесь разработкой с помощью AI, стоит попробовать.

Источник здесь
Полный список новых фич для версии v0.13.0 здесь

#AI #разработка #Taskmaster #инструменты_разработчика
3🔥1
OpenAI представила HealthBench: новый стандарт для оценки медицинских AI-систем 🩺🤖

OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.

Что нужно знать 📋

• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).

• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.

• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)

• OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.

Почему это важно 🤔

Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.

Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.

#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение
3👍1
LangGraph Platform теперь общедоступен: разворачивайте и управляйте агентами без головной боли 🚀

Компания LangChain объявила о выходе LangGraph Platform из беты в общий доступ. Это специализированная инфраструктура для развертывания и масштабирования долгоиграющих агентов с сохранением состояния. С момента запуска беты почти 400 компаний уже использовали платформу для вывода своих агентов в продакшн.

Развертывание агентов — это следующий сложный барьер для создания надежных AI-решений, и LangGraph Platform значительно упрощает этот процесс благодаря:

• Развертыванию в один клик — запуск в продакшн за считанные минуты
• 30 API-эндпоинтам для создания пользовательских интерфейсов под любые сценарии взаимодействия
• Горизонтальному масштабированию для обработки нерегулярного трафика
• Слою персистентности для поддержки памяти, истории разговоров и асинхронного взаимодействия
• Встроенной среде разработки LangGraph Studio для отладки и итерации

Проблемы инфраструктуры для агентов — и как LangGraph Platform их решает 🛠

Команда LangChain работает с множеством компаний, создающих агентов (Klarna, Lovable, Replit, LinkedIn и др.), и выявила несколько уникальных проблем при запуске агентов в продакшн:

1️⃣ Многие агенты работают долго. Поисково-исследовательские агенты или агенты, работающие по расписанию, могут выполнять задачи продолжительное время. Такие процессы подвержены сбоям, поэтому им нужна надежная инфраструктура.

2️⃣ Многие агенты полагаются на асинхронное взаимодействие. Агентам нужно реагировать на непредсказуемые события — будь то взаимодействие с человеком или ожидание ответа от другого агента.

3️⃣ Нерегулярная нагрузка. Горизонтальное масштабирование для обработки скачков трафика — задача не из легких, особенно для задач, выполняемых по расписанию.

LangGraph Platform позволяет разработчикам сосредоточиться на архитектуре агента, а не беспокоиться об инфраструктуре. Достаточно одного клика для развертывания приложений прямо в консоли управления.

Ускорение разработки с визуальными рабочими процессами 📊

Создание хороших агентов требует быстрой обратной связи. LangGraph Studio (включенный в LangGraph Platform) помогает разработчикам визуализировать и отлаживать рабочие процессы агентов в реальном времени, с подробной видимостью траекторий агентов и поддержкой ветвления логики.

Вы можете тестировать граничные случаи, проверять состояние памяти на каждом шаге и быстро определять, где что-то идет не так. Встроенные контрольные точки и модули памяти позволяют перематывать, редактировать и перезапускать точки отказа без лишних хлопот.

Централизованное управление агентами в организации
🏢

По мере внедрения агентов в разных командах управление ими становится делом командным. LangGraph Platform консолидирует мониторинг и контроль за всеми агентами в разработке или продакшне. Корпоративный вариант также поддерживает RBAC и рабочие пространства для контроля доступа.

Консоль управления LangGraph Platform упрощает обеспечение согласованности, мониторинг поведения и безопасное развертывание обновлений.
Вы можете:
• Находить доступных агентов в реестре
• Создавать различные версии вашего агента в платформе
• Использовать других агентов как "удаленные графы", создавая мультиагентные архитектуры

Варианты развертывания LangGraph Platform 🌐

Выберите вариант развертывания, который соответствует потребностям вашей команды:

1️⃣ Облако (SaaS): Самый быстрый способ начать работу, полностью управляемый и простой в развертывании. Доступен в тарифах Plus и Enterprise.

2️⃣ Гибридный: SaaS-панель управления с самостоятельно размещенным уровнем данных — идеально для команд с конфиденциальными данными. Доступен только в тарифе Enterprise.

3️⃣ Полностью самостоятельное размещение: Запуск всей платформы в собственной инфраструктуре. Данные не покидают ваш VPC. Доступен в тарифе Enterprise.

Если вы хотите попробовать базовую версию сервера LangGraph в своей среде, вы также можете использовать тариф Developer и получить до 100 тысяч выполненных узлов в месяц бесплатно — отлично подходит для хобби-проектов.
2👍2
LangGraph Platform — это, пожалуй, самый простой способ разрабатывать, разворачивать и управлять долгоиграющими агентами с сохранением состояния. Он может использоваться независимо от других продуктов LangChain или в сочетании с ними для обеспечения плавного перехода от фазы сборки к продакшну.

Интересно, сколько компаний сейчас действительно нуждаются в такой сложной инфраструктуре для агентов? 🤔 Но если вы из их числа — возможно, стоит взглянуть.

Источники:

https://blog.langchain.dev/langgraph-platform-ga/
https://www.youtube.com/watch?v=YWVuBLSbNWE
https://langchain-ai.github.io/langgraph/concepts/langgraph_studio/
https://langchain-ai.github.io/langgraph/concepts/deployment_options/

#LangGraphPlatform #агенты #LangChain #ИнфраструктураИИ #DevOps #agents
2👍2🔥1