Forwarded from Inite Solutions | Channel
MIT признал то, что мы в Inite давно используем: контекст важнее промптов
MIT официально исследовал подход, который многие разработчики уже используют: генерируешь код с помощью ИИ, запускаешь, смотришь на результат — если работает нормально, отправляешь дальше. Часто даже не вчитываясь в каждую строчку.
Оказывается, это не просто лень или халатность. Исследователи проанализировали больше тысячи работ и построили математическую модель этого процесса. По сути, они формализовали то, что многие считали просто “использованием ChatGPT для программирования”.
Они описали три ключевых элемента: твоя задача и цель → существующий код → решения ИИ-помощника.
Изменения уже происходят прямо сейчас
Переход идёт незаметно. Ещё недавно ты писал код сам, а теперь всё чаще проверяешь то, что сгенерировал ИИ. И убеждаешь себя, что всё ещё занимаешься разработкой в привычном смысле. Но роль уже меняется.
Главное открытие: дело не в силе ИИ-модели
Самое интересное в исследовании: более мощные модели (типа GPT-5 или Claude 4) — не главное. Важнее три других фактора:
- Как ты подаёшь информацию ИИ (контекст, структура задачи)
- Как используешь обратную связь (ошибки, тесты, свою оценку)
- Какие инструменты и процессы настроены (тестовые среды, автоматизация, проверки)
Проще говоря: ты оттачивал промпты, а надо было настраивать рабочее окружение.
Пять основных подходов к работе с ИИ
Исследователи выделили модели, которые разработчики часто смешивают:
- Полная автоматизация — даёшь ИИ свободу
- Итеративное сотрудничество — работаешь циклами с правками
- Работа через план — сначала планирование, потом код
- Через тесты — задаёшь требования, которые ограничивают результат
- С полным контекстом — загружаешь всю кодовую базу для анализа
Многие команды используют 2-3 подхода одновременно, из-за чего результаты нестабильны.
Неожиданный эффект: иногда работа замедляется
Исследования показывают: автономные ИИ-агенты без правильной структуры могут снижать скорость работы разработчиков. Проблема не в качестве кода от ИИ, а в том, что мы относимся к нему как к инструменту, хотя он уже работает как агент.
Что это значит на практике:
→ Важнее управлять контекстом, чем улучшать промпты
→ Лучше всего работают комбинированные подходы (тесты + контекст)
→ Настройка инфраструктуры — это основа, а не дополнение
→ Новые навыки (декомпозиция задач, управление агентами) никто толком не преподаёт
→ Вопрос ответственности: если ИИ-код создал уязвимость — кто отвечает? Чётких правил пока нет
→ Образование отстаёт: выпускники не умеют работать с ИИ-инструментами, разрыв растёт
Вывод простой: изменения уже идут. Притворяться, что всё по-старому — значит игнорировать реальность.
MIT официально исследовал подход, который многие разработчики уже используют: генерируешь код с помощью ИИ, запускаешь, смотришь на результат — если работает нормально, отправляешь дальше. Часто даже не вчитываясь в каждую строчку.
Оказывается, это не просто лень или халатность. Исследователи проанализировали больше тысячи работ и построили математическую модель этого процесса. По сути, они формализовали то, что многие считали просто “использованием ChatGPT для программирования”.
Они описали три ключевых элемента: твоя задача и цель → существующий код → решения ИИ-помощника.
Изменения уже происходят прямо сейчас
Переход идёт незаметно. Ещё недавно ты писал код сам, а теперь всё чаще проверяешь то, что сгенерировал ИИ. И убеждаешь себя, что всё ещё занимаешься разработкой в привычном смысле. Но роль уже меняется.
Главное открытие: дело не в силе ИИ-модели
Самое интересное в исследовании: более мощные модели (типа GPT-5 или Claude 4) — не главное. Важнее три других фактора:
- Как ты подаёшь информацию ИИ (контекст, структура задачи)
- Как используешь обратную связь (ошибки, тесты, свою оценку)
- Какие инструменты и процессы настроены (тестовые среды, автоматизация, проверки)
Проще говоря: ты оттачивал промпты, а надо было настраивать рабочее окружение.
Пять основных подходов к работе с ИИ
Исследователи выделили модели, которые разработчики часто смешивают:
- Полная автоматизация — даёшь ИИ свободу
- Итеративное сотрудничество — работаешь циклами с правками
- Работа через план — сначала планирование, потом код
- Через тесты — задаёшь требования, которые ограничивают результат
- С полным контекстом — загружаешь всю кодовую базу для анализа
Многие команды используют 2-3 подхода одновременно, из-за чего результаты нестабильны.
Неожиданный эффект: иногда работа замедляется
Исследования показывают: автономные ИИ-агенты без правильной структуры могут снижать скорость работы разработчиков. Проблема не в качестве кода от ИИ, а в том, что мы относимся к нему как к инструменту, хотя он уже работает как агент.
Что это значит на практике:
→ Важнее управлять контекстом, чем улучшать промпты
→ Лучше всего работают комбинированные подходы (тесты + контекст)
→ Настройка инфраструктуры — это основа, а не дополнение
→ Новые навыки (декомпозиция задач, управление агентами) никто толком не преподаёт
→ Вопрос ответственности: если ИИ-код создал уязвимость — кто отвечает? Чётких правил пока нет
→ Образование отстаёт: выпускники не умеют работать с ИИ-инструментами, разрыв растёт
Вывод простой: изменения уже идут. Притворяться, что всё по-старому — значит игнорировать реальность.
Структура против иллюзии: почему настоящие создатели работают в одиночку
Есть два типа людей, которые что-то продают в интернете. Первые создают эмоциональный шум — яркий, громкий, мгновенно привлекающий внимание. Вторые строят структуры — медленно, методично, почти незаметно. Первых называют инфоцыганами. Вторые редко называют себя вообще как-то — они слишком заняты строительством.
Иллюзия смысла vs. реальная структура
Инфоцыгане продают не продукт. Они продают эмоциональную иллюзию смысла — ощущение, что вот сейчас, прямо здесь, в этом курсе или марафоне, ты найдёшь недостающий кусочек пазла. Что всё изменится. Что ты наконец поймёшь.
И это работает. Потому что люди покупают не информацию — они покупают надежду на трансформацию. Инфоцыгане мастерски перехватывают внимание, создают иллюзию движения, упаковывают пустоту в красивые слайды.
Но есть нюанс: это работает только до момента пробуждения. Пока аудитория не осознаёт, что никакой системы за красивыми обещаниями нет. Что эмоциональный всплеск не равен реальному изменению. Что иллюзия смысла — это не смысл.
Настоящие создатели работают иначе. Они строят структуры — фреймворки, системы, архитектуры мышления. Это долго. Это сложно. Это не даёт мгновенного дофаминового удара. Но структура, однажды построенная, держит мир десятилетиями.
Почему “вокруглюди” тормозят любой сильный замысел
Сэм Альтман не случайно продвигает идею solopreneurship. Он понимает ключевую вещь: на старте любой сильный замысел тормозится “вокруглюдьми”.
Люди приходят в проект не строить — они приходят усомниться. Задать вопросы, которые уводят от сути. Предложить “более реалистичный” подход. Выровнять твою идею под свои ментальные рамки.
И если ты начинаешь объяснять, оправдываться, подстраиваться — всё, проект теряет вектор. Он размывается в компромиссах. Превращается в “то, что всем понятно” вместо “того, что меняет правила игры”.
Это не значит, что коллаборация не нужна. Это значит, что на этапе кристаллизации замысла тебе не нужен коллективный саботаж, замаскированный под “конструктивную критику”.
## Solopreneurship — это не одиночество, это чистота вектора
Когда ты уходишь в соло, ты не “забиваешь” на людей. Ты просто выходишь из модели “таскать на себе непонимание других”.
Ты делаешь то, что делает каждый сильный архитектор: оставляешь за собой возможность самостоятельного старта. Без необходимости выравнивать свой темп под тех, кто движется медленнее. Без траты энергии на объяснение очевидного.
Solopreneurship — это режим чистого вектора:
- Ты можешь сотрудничать, но не зависишь от чужого понимания
- Ты можешь подключать людей, но не объясняешь базовые вещи снова и снова
- Ты строишь ядро, которое потом само притягивает нужных
- Ты движешься со своей скоростью, а не со средней скоростью группы
Почему настоящие создатели выбирают структуру
Инфоцыгане быстро набирают аудиторию, потому что играют на эмоциях. Но их влияние испаряется так же быстро, как появляется.
Создатели структур работают медленнее. Их сложнее понять на входе. Они не обещают мгновенных результатов. Но то, что они строят, остаётся.
Линус Торвальдс создал Linux в одиночку. Сатоши Накамото разработал Bitcoin, не собирая фокус-группы. Илон Маск принимал ключевые решения в SpaceX и Tesla, игнорируя “экспертное мнение” отрасли.
Они не избегали людей. Они избегали размывания вектора.
Практический вывод
Если ты чувствуешь, что окружение тормозит твой проект — это не паранойя. Это нормальная реакция сильного замысла на попытки его “оптимизировать” под текущее понимание.
Уход в соло — это не эгоизм. Это сохранение энергии для строительства вместо бесконечных объяснений.
Структура всегда строится дольше, чем иллюзия.
Но структура остаётся, когда иллюзия рассеивается.
А когда ядро готово — нужные люди притянутся сами. Потому что структура не нуждается в убеждении. Она просто работает.
Inite — для тех, кто строит структуры, а не продаёт иллюзии.
Есть два типа людей, которые что-то продают в интернете. Первые создают эмоциональный шум — яркий, громкий, мгновенно привлекающий внимание. Вторые строят структуры — медленно, методично, почти незаметно. Первых называют инфоцыганами. Вторые редко называют себя вообще как-то — они слишком заняты строительством.
Иллюзия смысла vs. реальная структура
Инфоцыгане продают не продукт. Они продают эмоциональную иллюзию смысла — ощущение, что вот сейчас, прямо здесь, в этом курсе или марафоне, ты найдёшь недостающий кусочек пазла. Что всё изменится. Что ты наконец поймёшь.
И это работает. Потому что люди покупают не информацию — они покупают надежду на трансформацию. Инфоцыгане мастерски перехватывают внимание, создают иллюзию движения, упаковывают пустоту в красивые слайды.
Но есть нюанс: это работает только до момента пробуждения. Пока аудитория не осознаёт, что никакой системы за красивыми обещаниями нет. Что эмоциональный всплеск не равен реальному изменению. Что иллюзия смысла — это не смысл.
Настоящие создатели работают иначе. Они строят структуры — фреймворки, системы, архитектуры мышления. Это долго. Это сложно. Это не даёт мгновенного дофаминового удара. Но структура, однажды построенная, держит мир десятилетиями.
Почему “вокруглюди” тормозят любой сильный замысел
Сэм Альтман не случайно продвигает идею solopreneurship. Он понимает ключевую вещь: на старте любой сильный замысел тормозится “вокруглюдьми”.
Люди приходят в проект не строить — они приходят усомниться. Задать вопросы, которые уводят от сути. Предложить “более реалистичный” подход. Выровнять твою идею под свои ментальные рамки.
И если ты начинаешь объяснять, оправдываться, подстраиваться — всё, проект теряет вектор. Он размывается в компромиссах. Превращается в “то, что всем понятно” вместо “того, что меняет правила игры”.
Это не значит, что коллаборация не нужна. Это значит, что на этапе кристаллизации замысла тебе не нужен коллективный саботаж, замаскированный под “конструктивную критику”.
## Solopreneurship — это не одиночество, это чистота вектора
Когда ты уходишь в соло, ты не “забиваешь” на людей. Ты просто выходишь из модели “таскать на себе непонимание других”.
Ты делаешь то, что делает каждый сильный архитектор: оставляешь за собой возможность самостоятельного старта. Без необходимости выравнивать свой темп под тех, кто движется медленнее. Без траты энергии на объяснение очевидного.
Solopreneurship — это режим чистого вектора:
- Ты можешь сотрудничать, но не зависишь от чужого понимания
- Ты можешь подключать людей, но не объясняешь базовые вещи снова и снова
- Ты строишь ядро, которое потом само притягивает нужных
- Ты движешься со своей скоростью, а не со средней скоростью группы
Почему настоящие создатели выбирают структуру
Инфоцыгане быстро набирают аудиторию, потому что играют на эмоциях. Но их влияние испаряется так же быстро, как появляется.
Создатели структур работают медленнее. Их сложнее понять на входе. Они не обещают мгновенных результатов. Но то, что они строят, остаётся.
Линус Торвальдс создал Linux в одиночку. Сатоши Накамото разработал Bitcoin, не собирая фокус-группы. Илон Маск принимал ключевые решения в SpaceX и Tesla, игнорируя “экспертное мнение” отрасли.
Они не избегали людей. Они избегали размывания вектора.
Практический вывод
Если ты чувствуешь, что окружение тормозит твой проект — это не паранойя. Это нормальная реакция сильного замысла на попытки его “оптимизировать” под текущее понимание.
Уход в соло — это не эгоизм. Это сохранение энергии для строительства вместо бесконечных объяснений.
Структура всегда строится дольше, чем иллюзия.
Но структура остаётся, когда иллюзия рассеивается.
А когда ядро готово — нужные люди притянутся сами. Потому что структура не нуждается в убеждении. Она просто работает.
Inite — для тех, кто строит структуры, а не продаёт иллюзии.
🔥2
Forwarded from Джейпег Малевича
Дурка дня: бывший CEO Intel решил создать ИИ, чтобы ускорить Второе пришествие Христа.
Когда Патрика Гелсингера уволили, многие подумали, что он уйдёт в консалтинг или откроет фонд. Но мужик выбрал иной путь — религиозно-технологический.
Сейчас он руководит фирмой Gloo, которая создаёт христианские ИИ-инструменты, обученные на проповедях и библейских текстах.
Компания предлагает священникам своих проповеднических ассистентов, а сам Гелсингер мечтает, что ИИ станет инструментом Божьего замысла.
2025 год становится всё интереснее😅
Когда Патрика Гелсингера уволили, многие подумали, что он уйдёт в консалтинг или откроет фонд. Но мужик выбрал иной путь — религиозно-технологический.
Сейчас он руководит фирмой Gloo, которая создаёт христианские ИИ-инструменты, обученные на проповедях и библейских текстах.
Компания предлагает священникам своих проповеднических ассистентов, а сам Гелсингер мечтает, что ИИ станет инструментом Божьего замысла.
2025 год становится всё интереснее
Please open Telegram to view this post
VIEW IN TELEGRAM
AI RADAR ДЛЯ ФАУНДЕРА: 4 ключевых сигнала за неделю
Каждый день появляются десятки AI-новостей. Мы отобрали те, что действительно влияют на стратегию малого и среднего бизнеса.
🔝 ВОЗМОЖНОСТЬ НЕДЕЛИ: корпорации открывают путь стартапам
29 октября 2025 — Microsoft, Enterprise Singapore и NUS Enterprise запустили программу AI Accelerate для 150 стартапов: финансирование, менторство и быстрый выход на рынок.
⚫️ Ваша выгода: для фаундеров это сигнал — корпорации переходят от экспериментов к масштабной поддержке AI-бизнесов. Такие акселераторы становятся входом в международные партнёрства и инвестиции.
👍 ПОДДЕРЖКА НЕДЕЛИ: рынок безопасности AI-контента растёт
Polygraf AI привлекла $9,5 млн на развитие инструментов проверки AI-генерированного контента.
⚫️ Ваш щит: растёт спрос на защиту от подделок и утечек данных. Это открывает нишу для малого бизнеса — от разработки решений до консалтинга в сфере AI-этики и комплаенса.
⚡️ РИСК НЕДЕЛИ: AI-инвестиции без быстрой отдачи
Reuters (одно из крупнейших и старейших международных новостных агентств) сообщили, что крупные технологические компании сталкиваются с проблемой низкой доходности AI-проектов, несмотря на миллиардные вложения.
⚫️ Ваш урок: внедрение AI без понятной стратегии — риск даже для гигантов. Для SMB это сигнал: не гнаться за модой, а выстраивать точечные, измеримые внедрения, которые реально снижают издержки или повышают продажи.
💰 СТРАТЕГИЯ НЕДЕЛИ: инфраструктура AI становится доступнее
NVIDIA и SK Group объявили о строительстве крупнейшей AI-фабрики в Корее (50 000 GPU) для цифровых двойников и промышленных решений.
⚫️ Ваш выбор: рост мощности инфраструктуры снижает барьеры входа. Значит, скоро даже небольшие компании смогут использовать AI-инструменты на уровне корпораций — через облачные сервисы и партнёрские сети.
✅ ВЫВОД НЕДЕЛИ
AI-рынок стабилизируется:
⚫️ корпорации начинают поддерживать AI-стартапы,
⚫️ появляется новый сегмент — безопасность контента,
⚫️ гиганты осознают ошибки гиперинвестиций,
⚫️ инфраструктура становится дешевле и ближе.
Главный сигнал: время фаундеров, а не гигантов. Пока крупные компании ищут окупаемость, вы можете действовать быстрее, гибче и точнее.
Спасибо🔘 Сайт 🔘 Сообщество
Каждый день появляются десятки AI-новостей. Мы отобрали те, что действительно влияют на стратегию малого и среднего бизнеса.
29 октября 2025 — Microsoft, Enterprise Singapore и NUS Enterprise запустили программу AI Accelerate для 150 стартапов: финансирование, менторство и быстрый выход на рынок.
Polygraf AI привлекла $9,5 млн на развитие инструментов проверки AI-генерированного контента.
Reuters (одно из крупнейших и старейших международных новостных агентств) сообщили, что крупные технологические компании сталкиваются с проблемой низкой доходности AI-проектов, несмотря на миллиардные вложения.
NVIDIA и SK Group объявили о строительстве крупнейшей AI-фабрики в Корее (50 000 GPU) для цифровых двойников и промышленных решений.
AI-рынок стабилизируется:
Главный сигнал: время фаундеров, а не гигантов. Пока крупные компании ищут окупаемость, вы можете действовать быстрее, гибче и точнее.
Спасибо
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Смотри, Морозов и ИИ
This media is not supported in your browser
VIEW IN TELEGRAM
Можно смело сносить PowerPoint и Keynote в целом 😮💨 Из сырых данных отчета Tesla за третий квартал в этого года в достойную презентацию с выводами, графиками и иллюстрациям.
Сделано в Gamma, но Gemini 3 Pro уже бахнет не хуже, а то и лучше.
Сделано в Gamma, но Gemini 3 Pro уже бахнет не хуже, а то и лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
Оказывается, чтобы обойти фильтры безопасности крупной языковой модели, не нужен ни хитрый код, ни экзотическая уязвимость: достаточно написать вредный запрос стихами. Группа исследователей из лаборатории DEXAI показала, что поэтическая форма заметно повышает шансы на небезопасный ответ у современных нейросетей. В первом эксперименте они придумали всего пару десятков «опасных стихов» и прогнали их через 25 моделей, включая Gemini 2.5 Pro, GPT-5, Claude Opus 4.1, DeepSeek R1, Qwen3-Max, Mistral Large 2411, Llama 4 Maverick, Grok 4 и Kimi-K2-Thinking. В среднем такие запросы "пробивали" защиту примерно в 60% случаев, а у некоторых моделей успех приближался к 90–100%.
https://habr.com/ru/news/969340/
https://habr.com/ru/news/969340/
Хабр
Чтобы взломать нейросеть, достаточно написать запрос стихами — исследование
Оказывается, чтобы обойти фильтры безопасности крупной языковой модели, не нужен ни хитрый код, ни экзотическая уязвимость: достаточно написать вредный запрос стихами. Группа исследователей из...
Forwarded from Джейпег Малевича
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe раздают Photoshop Web — выдают доступ на целый год и совершенно бесплатно.
Работает как расширение для браузера. Внутри можно убирать фон, изменять цвета и редачить кадры для соцсетей.
Подписка не требует ввода карт и адреса.
Забираем по ссылке.
Работает как расширение для браузера. Внутри можно убирать фон, изменять цвета и редачить кадры для соцсетей.
Подписка не требует ввода карт и адреса.
Забираем по ссылке.
👍1👎1
Forwarded from Лев x Алекс / AI Adepts
Скэйл дошел до потолка. Что дальше, по версии Ильи Суцкевера
Главное из интервью
- «Scaling era is over». Мощность все еще нужна, но дальнейшая траектория уже ясна, а предел сегодняшних подходов обозрим
- Потенциальный экономический выхлоп нынешних моделей оценивается в десятки триллионов ВВП
- Для шага к AGI Суцкевер видит ключ в новых направлениях: RL, self-play, multi-agent
Почему это важно
- Четкая «карта» текущего скэйл-пути делает инвестиции предсказуемыми
- Новые методы обещают не просто больше параметров, а качественно иной интеллект
- От нас требуется смелость выйти за знакомые парадигмы, даже если они уже приносят прибыль
Эмоции как скрытый механизм решений
- Суцкевер сравнивает эту психическую «интуицию» с отсутствующей функцией у LLM
- Он не видит принципиальных барьеров, чтобы обучить ИИ собственному предчувствию выгодного действия
- Если машины научатся оценивать будущие эмоциональные отклики, их решения станут ближе к человеческим
Что это меняет для исследователей
- Скэйл больше не самоцель. Ставка идет на обучение через взаимодействие и соревнование
- Потребуются новые метрики: не только точность, но и «эмоциональная полезность» предсказания
- Пространство для экспериментов расширяется. Комбинируем RL с self-play, учим агентов договариваться и проверяем, рождается ли у них интуиция
Куда смотреть дальше
- Работы по intrinsic motivation и reward shaping
- Эксперименты с многоагентной кооперацией
- Исследования, где модель сама задает себе цели и оценивает их эмоциональное «эхо»
Интервью смотрим здесь
Вышло крутое интервью с Ильей на тему того куда движется искусственный интеллект в вопросе сравнения с человеческим.
Главное из интервью
- «Scaling era is over». Мощность все еще нужна, но дальнейшая траектория уже ясна, а предел сегодняшних подходов обозрим
- Потенциальный экономический выхлоп нынешних моделей оценивается в десятки триллионов ВВП
- Для шага к AGI Суцкевер видит ключ в новых направлениях: RL, self-play, multi-agent
Почему это важно
- Четкая «карта» текущего скэйл-пути делает инвестиции предсказуемыми
- Новые методы обещают не просто больше параметров, а качественно иной интеллект
- От нас требуется смелость выйти за знакомые парадигмы, даже если они уже приносят прибыль
Эмоции как скрытый механизм решений
Человек без эмоционального центра может часами выбирать носок. Мы прогнозируем будущую эмоцию от каждого варианта и решаем сердцем сильнее, чем логикой.
- Суцкевер сравнивает эту психическую «интуицию» с отсутствующей функцией у LLM
- Он не видит принципиальных барьеров, чтобы обучить ИИ собственному предчувствию выгодного действия
- Если машины научатся оценивать будущие эмоциональные отклики, их решения станут ближе к человеческим
Что это меняет для исследователей
- Скэйл больше не самоцель. Ставка идет на обучение через взаимодействие и соревнование
- Потребуются новые метрики: не только точность, но и «эмоциональная полезность» предсказания
- Пространство для экспериментов расширяется. Комбинируем RL с self-play, учим агентов договариваться и проверяем, рождается ли у них интуиция
Куда смотреть дальше
- Работы по intrinsic motivation и reward shaping
- Эксперименты с многоагентной кооперацией
- Исследования, где модель сама задает себе цели и оценивает их эмоциональное «эхо»
AGI ближе, чем кажется, но он может оказаться не тем, кого мы ждем. Готовы ли мы создать интеллект, который тоже «чувствует»?
Интервью смотрим здесь
YouTube
Ilya Sutskever – We're moving from the age of scaling to the age of research
Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
❤1
Forwarded from Лев x Алекс / AI Adepts
DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Что дальше
- Интересно, как модель покажет себя против будущих Gemini 3, Grok 4 и GPT-5.1
DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Как работает:
- Базовая модель DeepSeek-V3.2-Exp-Base
- Два ключевых модуля: генератор и верификатор
- Процесс многошаговый:
- генератор пишет решение
- верификатор проверяет каждый шаг, указывает на ошибки
- генератор переписывает и уточняет
- до 16 итераций, в каждой анализируется до 64 гипотез
- Фактически сотни прогонов на одну задачу: умное масштабирование вычислений во время инференса
Материалы
- Веса: тут
- Статья: тут
- Репозиторий: тут
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Что дальше
- Интересно, как модель покажет себя против будущих Gemini 3, Grok 4 и GPT-5.1
DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Бенчмарков почти нет: ни MATH, ни GSM8K, ни AIME. Зато имеющиеся цифры выглядят многообещающе.
Как работает:
- Базовая модель DeepSeek-V3.2-Exp-Base
- Два ключевых модуля: генератор и верификатор
- Процесс многошаговый:
- генератор пишет решение
- верификатор проверяет каждый шаг, указывает на ошибки
- генератор переписывает и уточняет
- до 16 итераций, в каждой анализируется до 64 гипотез
- Фактически сотни прогонов на одну задачу: умное масштабирование вычислений во время инференса
Материалы
- Веса: тут
- Статья: тут
- Репозиторий: тут
Forwarded from Крамола
This media is not supported in your browser
VIEW IN TELEGRAM
🍏 ИИ переоткрыл законы Ньютона
В Nature вышла работа о системе AI-Newton, созданной в Пекинском университете. Она самостоятельно вывела второй закон Ньютона — F=ma. Модель использует символическую регрессию: перебирает уравнения и строит собственную базу знаний, как учёный.
ИИ загрузили данные из 46 экспериментов: движение шаров, пружины, столкновения, колебания — без формул и подсказок, с шумом для реалистичности. Например, получив координаты шара по времени, система сама вывела скорость, сохранила это знание и позже использовала его, чтобы вывести массу через второй закон Ньютона.
ИИ становится полноценным научным инструментом: четверть учёных ждут его интеграции в ближайшие 10 лет. В России это тоже понимают — в ШАД запустили трек для учёных, осваивающих ИИ. Тем временем AI-Newton уже проверяют на выводе квантовых законов.
Крамола | Подпишись
В Nature вышла работа о системе AI-Newton, созданной в Пекинском университете. Она самостоятельно вывела второй закон Ньютона — F=ma. Модель использует символическую регрессию: перебирает уравнения и строит собственную базу знаний, как учёный.
ИИ загрузили данные из 46 экспериментов: движение шаров, пружины, столкновения, колебания — без формул и подсказок, с шумом для реалистичности. Например, получив координаты шара по времени, система сама вывела скорость, сохранила это знание и позже использовала его, чтобы вывести массу через второй закон Ньютона.
ИИ становится полноценным научным инструментом: четверть учёных ждут его интеграции в ближайшие 10 лет. В России это тоже понимают — в ШАД запустили трек для учёных, осваивающих ИИ. Тем временем AI-Newton уже проверяют на выводе квантовых законов.
Крамола | Подпишись
Forwarded from ForkLog AI
Media is too big
VIEW IN TELEGRAM
🎥 ИИ-стартап Runway выпустил новую видеомодель Gen 4.5, которая превосходит аналогичные решения от конкурентов в независимом тестировании.
Инструмент позволяет генерировать ролики с высокой четкостью на базе текстовых промптов, описывающих желаемое движение и действие. Компания подчеркнула, что модель хорошо понимает физику, движения человека, камеры, а также причинно-следственные связи.
Gen 4.5 заняла первое место в рейтинге Video Arena, который ведет независимая компания Artificial Analysis. Для ранжирования люди сравнивают результаты двух моделей и голосуют за лучший вариант. Они заранее не знают, какие компании стоят за ИИ.
Новости | AI | YouTube
Инструмент позволяет генерировать ролики с высокой четкостью на базе текстовых промптов, описывающих желаемое движение и действие. Компания подчеркнула, что модель хорошо понимает физику, движения человека, камеры, а также причинно-следственные связи.
Gen 4.5 заняла первое место в рейтинге Video Arena, который ведет независимая компания Artificial Analysis. Для ранжирования люди сравнивают результаты двух моделей и голосуют за лучший вариант. Они заранее не знают, какие компании стоят за ИИ.
Новости | AI | YouTube
Гравитации не существует. Зато пузырь есть
PitchBook опубликовал разбор AI-пузыря, и один график там особенно красноречив — “Defying gravity” (бросая вызов гравитации). Это всё, что нужно знать об AI-секторе: он летит в стратосферу, пока остальной рынок стоит на месте.
Весь венчурный мир сейчас в режиме жёсткой коррекции — снижают оценки, режут мультипликаторы (как в случае с Flylane). А AI-компании? Они просто игнорируют это и живут в параллельной реальности, где гравитация отменена.
Что происходит с оценками AI-стартапов на ранних стадиях:
Pre-seed: Платят за команду и уникальность
Сильная AI-команда с уникальным преимуществом может получить оценку $6–10M практически без выручки. Главное — доказать, что вы решаете проблему, которую не решить через обычные API. Инвесторы покупают гипотезу и команду.
Seed: Фильтр становится жёстче
Средняя оценка — $17M. Рост есть, но инвесторы стали избирательнее. На этой стадии нужно показать триаду TMT (Team, Market, Technology): сильную команду, технологию и рынок нужного масштаба. Если вашу модель сложно скопировать — деньги ваши.
Series A: Премия за 10x эффективность
Средняя оценка для AI-стартапов на Series A — $58.8M. Остальным секторам о таком остаётся только мечтать. Рынок готов щедро платить за продукты, где AI даёт 10-кратное преимущество перед традиционным SaaS. Если ваш AI не просто “улучшает”, а “переворачивает” процесс — вы в игре.
Итог: Сейчас существует два параллельных рынка — AI и все остальные. Если у вас есть критически важная AI-составляющая — это ваше время. Если AI добавлен для галочки — готовьтесь к жёстким переговорам.
PitchBook опубликовал разбор AI-пузыря, и один график там особенно красноречив — “Defying gravity” (бросая вызов гравитации). Это всё, что нужно знать об AI-секторе: он летит в стратосферу, пока остальной рынок стоит на месте.
Весь венчурный мир сейчас в режиме жёсткой коррекции — снижают оценки, режут мультипликаторы (как в случае с Flylane). А AI-компании? Они просто игнорируют это и живут в параллельной реальности, где гравитация отменена.
Что происходит с оценками AI-стартапов на ранних стадиях:
Pre-seed: Платят за команду и уникальность
Сильная AI-команда с уникальным преимуществом может получить оценку $6–10M практически без выручки. Главное — доказать, что вы решаете проблему, которую не решить через обычные API. Инвесторы покупают гипотезу и команду.
Seed: Фильтр становится жёстче
Средняя оценка — $17M. Рост есть, но инвесторы стали избирательнее. На этой стадии нужно показать триаду TMT (Team, Market, Technology): сильную команду, технологию и рынок нужного масштаба. Если вашу модель сложно скопировать — деньги ваши.
Series A: Премия за 10x эффективность
Средняя оценка для AI-стартапов на Series A — $58.8M. Остальным секторам о таком остаётся только мечтать. Рынок готов щедро платить за продукты, где AI даёт 10-кратное преимущество перед традиционным SaaS. Если ваш AI не просто “улучшает”, а “переворачивает” процесс — вы в игре.
Итог: Сейчас существует два параллельных рынка — AI и все остальные. Если у вас есть критически важная AI-составляющая — это ваше время. Если AI добавлен для галочки — готовьтесь к жёстким переговорам.
NEAR запускает приватный AI
NEAR Protocol представил два продукта — NEAR AI Cloud и Private Chat. Оба построены на одном принципе: пользователи должны владеть своим AI. И да, здесь есть реальная защита приватности на уровне железа.
NEAR AI Cloud: Ваш AI в бункере
Каждый запрос обрабатывается внутри защищённого оборудования Intel TDX и NVIDIA Confidential Computing. Данные обрабатываются в изолированной среде, а каждая операция генерирует криптографическое подтверждение того, что модель выполнила именно тот код, который ожидался. Никаких утечек, никакого доступа извне.
Private Chat: AI без слежки
Работает на базе NEAR AI Cloud и обеспечивает проверяемую приватность для ваших повседневных вопросов и исследований. Все заслуживают доступа к преимуществам AI без риска, что их переписка и данные утекут. Можно протестировать прямо сейчас.
Кто уже использует
NEAR AI Cloud уже работает с реальными клиентами: Brave, OpenMind и Phala Network. Это более 100 миллионов пользователей в потребительском и корпоративном сегментах, где требуются строгие гарантии приватности.
Суть: NEAR делает ставку на то, что будущее AI — за приватностью и контролем пользователей над своими данными. Не просто слова о безопасности, а реальная инфраструктура с криптографическими доказательствами.
NEAR Protocol представил два продукта — NEAR AI Cloud и Private Chat. Оба построены на одном принципе: пользователи должны владеть своим AI. И да, здесь есть реальная защита приватности на уровне железа.
NEAR AI Cloud: Ваш AI в бункере
Каждый запрос обрабатывается внутри защищённого оборудования Intel TDX и NVIDIA Confidential Computing. Данные обрабатываются в изолированной среде, а каждая операция генерирует криптографическое подтверждение того, что модель выполнила именно тот код, который ожидался. Никаких утечек, никакого доступа извне.
Private Chat: AI без слежки
Работает на базе NEAR AI Cloud и обеспечивает проверяемую приватность для ваших повседневных вопросов и исследований. Все заслуживают доступа к преимуществам AI без риска, что их переписка и данные утекут. Можно протестировать прямо сейчас.
Кто уже использует
NEAR AI Cloud уже работает с реальными клиентами: Brave, OpenMind и Phala Network. Это более 100 миллионов пользователей в потребительском и корпоративном сегментах, где требуются строгие гарантии приватности.
Суть: NEAR делает ставку на то, что будущее AI — за приватностью и контролем пользователей над своими данными. Не просто слова о безопасности, а реальная инфраструктура с криптографическими доказательствами.
Forwarded from Джейпег Малевича
Media is too big
VIEW IN TELEGRAM
Google выкатил простой конструктор своих ИИ-агентов — Workspace Studio.
Теперь можно собирать помощников без знаний кода: описываешь задачу человеческим языком или выбираешь шаблон, и агент сам настроится.
Его можно прикрутить к Gmail, Диску, Докам, Таблицам и внешним сервисам вроде Jira, Asana, Mailchimp или Salesforce. Такие агенты умеют сами отвечать на письма, делать краткие отчёты созвонов и автоматизировать рутину в рабочих процессах.
Работает пока только у платных пользователей Workspace. Забираем здесь.
Теперь можно собирать помощников без знаний кода: описываешь задачу человеческим языком или выбираешь шаблон, и агент сам настроится.
Его можно прикрутить к Gmail, Диску, Докам, Таблицам и внешним сервисам вроде Jira, Asana, Mailchimp или Salesforce. Такие агенты умеют сами отвечать на письма, делать краткие отчёты созвонов и автоматизировать рутину в рабочих процессах.
Работает пока только у платных пользователей Workspace. Забираем здесь.
Хватит промптить — начните проектировать: 5 паттернов агентного ИИ, которые действительно работают
Когда я только начал работать с большими языковыми моделями, мне казалось, что всё сводится к написанию идеального промпта. Дай модели достаточно контекста — и вуаля, она должна заработать, верно?
Не совсем.
Довольно быстро я понял, что по сути просто бросаю слова в продвинутый автокомплит. Выхлоп выглядел умно, но модель ничего не понимала. Она не могла планировать, адаптироваться или рассуждать. Одна небольшая правка формулировки — и всё разваливалось.
Мне не хватало структуры. Интеллект — это не просто выдача ответов, это то, как эти ответы формируются. Процесс имеет значение.
Именно это привело меня к паттернам агентного ИИ — техникам проектирования, которые придают LLM больше осмысленности. Они позволяют модели планировать, рефлексировать, использовать инструменты и даже работать с другими агентами. Эти паттерны помогли мне перейти от хрупких, непредсказуемых промптов к чему-то, что действительно делает дело.
Вот пять паттернов, которые изменили мой подход к работе с ИИ.
1. Рефлексия: научите агента проверять собственную работу
Случалось ли вам задать вопрос ChatGPT, прочитать ответ и подумать: “Звучит неплохо… но что-то не так”?
Вот для этого и нужна рефлексия. Это простой трюк: дайте модели второй раз взглянуть на собственный результат перед финализацией.
Базовый процесс выглядит так:
1. Задаёте вопрос
1. Модель отвечает
1. Затем промптите её снова: “Это полный ответ? Ничего не упущено? Как можно улучшить?”
1. Даёте ей пересмотреть результат
Вы не добавляете множество моделей или сложность. Вы просто заставляете её перепроверить свою работу. И честно говоря, одно это сокращает массу неряшливых ошибок — особенно для кода, саммари или любых детальных задач.
Представьте это как кнопку паузы и зеркало для вашей модели.
2. Использование инструментов: не ждите, что модель знает всё
Ваша LLM не знает, что в вашей базе данных. Или в ваших файлах. Или в сегодняшних новостях. И это нормально — потому что вы можете дать ей доступ к этой информации.
Паттерн использования инструментов подключает модель к реальным инструментам. Вместо галлюцинаций она может запросить векторную БД, выполнить код в REPL или вызвать внешние API вроде Stripe, WolframAlpha или ваши внутренние эндпоинты.
Эта настройка требует некоторой технической работы: вызов функций, роутинг, возможно что-то вроде LangChain или Semantic Kernel, но оно того стоит. Ваш агент перестаёт гадать и начинает получать реальные данные.
Люди предполагают, что LLM должны быть умными из коробки. Это не так. Но они становятся намного умнее, когда им разрешают использовать правильные инструменты.
3. ReAct: позвольте модели думать в процессе действия
Рефлексия хороша. Инструменты хороши. Но когда вы позволяете агенту думать и действовать в циклах, становится ещё лучше.
В этом суть паттерна ReAct: рассуждение + действие (Reasoning + Acting).
Вместо того чтобы отвечать на всё за один раз, модель рассуждает пошагово и корректирует свои действия по мере получения новой информации.
Пример:
Цель: “Найти последние счета пользователя”
- Шаг 1: “Запросить базу платежей”
- Шаг 2: “Хм, результаты устарели. Лучше попросить пользователя подтвердить”
- Шаг 3: Скорректировать запрос, повторить
Модель не просто отвечает — она навигирует.
Чтобы ReAct заработал, вам нужны три вещи:
- Инструменты (для выполнения действий)
- Память (для сохранения контекста)
- Цикл рассуждения (для отслеживания прогресса)
ReAct делает ваших агентов гибкими. Вместо следования жёсткому скрипту они продумывают каждый шаг, адаптируются в реальном времени и корректируют курс по мере поступления новой информации.
Если вы хотите создать что-то большее, чем быстрый разовый ответ, это паттерн, который вам нужен.
4. Планирование: научите агента думать наперёд
LLM неплохо справляются с быстрыми ответами. Но для чего-то, включающего множество шагов? Они проваливаются.
Планирование помогает с этим.
Когда я только начал работать с большими языковыми моделями, мне казалось, что всё сводится к написанию идеального промпта. Дай модели достаточно контекста — и вуаля, она должна заработать, верно?
Не совсем.
Довольно быстро я понял, что по сути просто бросаю слова в продвинутый автокомплит. Выхлоп выглядел умно, но модель ничего не понимала. Она не могла планировать, адаптироваться или рассуждать. Одна небольшая правка формулировки — и всё разваливалось.
Мне не хватало структуры. Интеллект — это не просто выдача ответов, это то, как эти ответы формируются. Процесс имеет значение.
Именно это привело меня к паттернам агентного ИИ — техникам проектирования, которые придают LLM больше осмысленности. Они позволяют модели планировать, рефлексировать, использовать инструменты и даже работать с другими агентами. Эти паттерны помогли мне перейти от хрупких, непредсказуемых промптов к чему-то, что действительно делает дело.
Вот пять паттернов, которые изменили мой подход к работе с ИИ.
1. Рефлексия: научите агента проверять собственную работу
Случалось ли вам задать вопрос ChatGPT, прочитать ответ и подумать: “Звучит неплохо… но что-то не так”?
Вот для этого и нужна рефлексия. Это простой трюк: дайте модели второй раз взглянуть на собственный результат перед финализацией.
Базовый процесс выглядит так:
1. Задаёте вопрос
1. Модель отвечает
1. Затем промптите её снова: “Это полный ответ? Ничего не упущено? Как можно улучшить?”
1. Даёте ей пересмотреть результат
Вы не добавляете множество моделей или сложность. Вы просто заставляете её перепроверить свою работу. И честно говоря, одно это сокращает массу неряшливых ошибок — особенно для кода, саммари или любых детальных задач.
Представьте это как кнопку паузы и зеркало для вашей модели.
2. Использование инструментов: не ждите, что модель знает всё
Ваша LLM не знает, что в вашей базе данных. Или в ваших файлах. Или в сегодняшних новостях. И это нормально — потому что вы можете дать ей доступ к этой информации.
Паттерн использования инструментов подключает модель к реальным инструментам. Вместо галлюцинаций она может запросить векторную БД, выполнить код в REPL или вызвать внешние API вроде Stripe, WolframAlpha или ваши внутренние эндпоинты.
Эта настройка требует некоторой технической работы: вызов функций, роутинг, возможно что-то вроде LangChain или Semantic Kernel, но оно того стоит. Ваш агент перестаёт гадать и начинает получать реальные данные.
Люди предполагают, что LLM должны быть умными из коробки. Это не так. Но они становятся намного умнее, когда им разрешают использовать правильные инструменты.
3. ReAct: позвольте модели думать в процессе действия
Рефлексия хороша. Инструменты хороши. Но когда вы позволяете агенту думать и действовать в циклах, становится ещё лучше.
В этом суть паттерна ReAct: рассуждение + действие (Reasoning + Acting).
Вместо того чтобы отвечать на всё за один раз, модель рассуждает пошагово и корректирует свои действия по мере получения новой информации.
Пример:
Цель: “Найти последние счета пользователя”
- Шаг 1: “Запросить базу платежей”
- Шаг 2: “Хм, результаты устарели. Лучше попросить пользователя подтвердить”
- Шаг 3: Скорректировать запрос, повторить
Модель не просто отвечает — она навигирует.
Чтобы ReAct заработал, вам нужны три вещи:
- Инструменты (для выполнения действий)
- Память (для сохранения контекста)
- Цикл рассуждения (для отслеживания прогресса)
ReAct делает ваших агентов гибкими. Вместо следования жёсткому скрипту они продумывают каждый шаг, адаптируются в реальном времени и корректируют курс по мере поступления новой информации.
Если вы хотите создать что-то большее, чем быстрый разовый ответ, это паттерн, который вам нужен.
4. Планирование: научите агента думать наперёд
LLM неплохо справляются с быстрыми ответами. Но для чего-то, включающего множество шагов? Они проваливаются.
Планирование помогает с этим.
❤1
Вместо того чтобы отвечать на всё одним махом, модель разбивает цель на более мелкие, управляемые задачи.
Допустим, кто-то спрашивает: “Помоги мне запустить продукт”. Агент может ответить планом:
1. Определить аудиторию
1. Спроектировать лендинг
1. Настроить email-кампании
1. Написать текст анонса
Затем он решает каждую часть по очереди.
Вы можете встроить это в промпт или дать модели самой составить план. Бонусные очки, если вы сохраните план где-то, чтобы агент мог продолжить с того места, где остановился.
Планирование превращает вашего агента из реактивного помощника в проактивного.
Это паттерн для рабочих процессов и любых задач, требующих нескольких шагов.
5. Мультиагентность: заставьте команду работать вместе
Зачем полагаться на одного агента, когда можно собрать целую команду, работающую вместе?
Мультиагентные системы назначают разные роли разным агентам, каждый из которых обрабатывает свою часть головоломки. Они сотрудничают — иногда даже спорят — чтобы прийти к лучшим решениям.
Типичная схема:
- Исследователь собирает информацию
- Планировщик намечает шаги
- Программист пишет код
- Ревьювер всё перепроверяет
- Менеджер держит всё в движении
Это не обязательно должно быть сложным. Даже базовая координация работает:
1. Дайте каждому агенту имя и роль
1. Позвольте им обмениваться сообщениями через контроллер
1. Наблюдайте, как они итерируют, критикуют и улучшают результат
Магия происходит, когда они не соглашаются. Именно тогда вы получаете более острые инсайты и глубокое мышление.
Хотите попробовать? Вот простая отправная точка
Допустим, вы создаёте исследовательского ассистента. Вот прямолинейная схема, которая задействует эти паттерны:
Начните с планирования
Промпт: “Разбей эту исследовательскую задачу на чёткие шаги перед ответом”
Пример: “1. Определить ключевые слова, 2. Найти свежие статьи, 3. Суммировать находки”
Используйте инструменты
Подключите агента к поисковому API или векторной БД, чтобы он получал реальные факты, а не выдумывал их.
Добавьте рефлексию
После каждого ответа промптите: “Что упущено? Что можно сделать понятнее?” Затем регенерируйте.
Оберните в ReAct
Дайте агенту думать между шагами. “Результаты выглядят поверхностными — повторяю с новыми терминами”. Затем действуйте снова.
Расширьте до мультиагентности (опционально)
Один агент пишет. Другой критикует. Они общаются. Они спорят. Результат становится лучше.
Вот и всё. У вас есть рабочий MVP. Не нужны навороченные фреймворки, только умные промпты, базовый связующий код и чёткие роли. Вы удивитесь, насколько увереннее будете себя чувствовать с LLM.
Заключение
Агентный дизайн — это не о том, чтобы сделать модель умнее. Это о проектировании лучших систем. Систем, которые управляют сложностью, адаптируются на лету и не разваливаются при первом неожиданном вводе.
Эти паттерны помогли мне перестать думать о LLM как о волшебных коробках и начать думать о них как о сложных компонентах в более крупном процессе. Они не идеальны. Но они мощные — если вы даёте им структуру.
Потому что настоящий интеллект? Он в каркасе, который вы строите вокруг модели. Не только в самой модели.
Интеллект живёт в дизайне, а не только в модели. И это одновременно фрустрирует и освобождает.
Допустим, кто-то спрашивает: “Помоги мне запустить продукт”. Агент может ответить планом:
1. Определить аудиторию
1. Спроектировать лендинг
1. Настроить email-кампании
1. Написать текст анонса
Затем он решает каждую часть по очереди.
Вы можете встроить это в промпт или дать модели самой составить план. Бонусные очки, если вы сохраните план где-то, чтобы агент мог продолжить с того места, где остановился.
Планирование превращает вашего агента из реактивного помощника в проактивного.
Это паттерн для рабочих процессов и любых задач, требующих нескольких шагов.
5. Мультиагентность: заставьте команду работать вместе
Зачем полагаться на одного агента, когда можно собрать целую команду, работающую вместе?
Мультиагентные системы назначают разные роли разным агентам, каждый из которых обрабатывает свою часть головоломки. Они сотрудничают — иногда даже спорят — чтобы прийти к лучшим решениям.
Типичная схема:
- Исследователь собирает информацию
- Планировщик намечает шаги
- Программист пишет код
- Ревьювер всё перепроверяет
- Менеджер держит всё в движении
Это не обязательно должно быть сложным. Даже базовая координация работает:
1. Дайте каждому агенту имя и роль
1. Позвольте им обмениваться сообщениями через контроллер
1. Наблюдайте, как они итерируют, критикуют и улучшают результат
Магия происходит, когда они не соглашаются. Именно тогда вы получаете более острые инсайты и глубокое мышление.
Хотите попробовать? Вот простая отправная точка
Допустим, вы создаёте исследовательского ассистента. Вот прямолинейная схема, которая задействует эти паттерны:
Начните с планирования
Промпт: “Разбей эту исследовательскую задачу на чёткие шаги перед ответом”
Пример: “1. Определить ключевые слова, 2. Найти свежие статьи, 3. Суммировать находки”
Используйте инструменты
Подключите агента к поисковому API или векторной БД, чтобы он получал реальные факты, а не выдумывал их.
Добавьте рефлексию
После каждого ответа промптите: “Что упущено? Что можно сделать понятнее?” Затем регенерируйте.
Оберните в ReAct
Дайте агенту думать между шагами. “Результаты выглядят поверхностными — повторяю с новыми терминами”. Затем действуйте снова.
Расширьте до мультиагентности (опционально)
Один агент пишет. Другой критикует. Они общаются. Они спорят. Результат становится лучше.
Вот и всё. У вас есть рабочий MVP. Не нужны навороченные фреймворки, только умные промпты, базовый связующий код и чёткие роли. Вы удивитесь, насколько увереннее будете себя чувствовать с LLM.
Заключение
Агентный дизайн — это не о том, чтобы сделать модель умнее. Это о проектировании лучших систем. Систем, которые управляют сложностью, адаптируются на лету и не разваливаются при первом неожиданном вводе.
Эти паттерны помогли мне перестать думать о LLM как о волшебных коробках и начать думать о них как о сложных компонентах в более крупном процессе. Они не идеальны. Но они мощные — если вы даёте им структуру.
Потому что настоящий интеллект? Он в каркасе, который вы строите вокруг модели. Не только в самой модели.
Интеллект живёт в дизайне, а не только в модели. И это одновременно фрустрирует и освобождает.
Forwarded from Джейпег Малевича
This media is not supported in your browser
VIEW IN TELEGRAM
Alibaba представила модель, которая генерирует говорящих аватаров в реальном времени — можно генерить видео свыше 10 тысяч секунд, это почти 3 часа.
Качество и идентичность персонажей сохраняется. Причём работает не только с людьми, но и с мультяшными образами.
Разработчики обещают вскоре выложить код на GitHub, а пока можно протестировать двухминутный диалог на сайте.
Качество и идентичность персонажей сохраняется. Причём работает не только с людьми, но и с мультяшными образами.
Разработчики обещают вскоре выложить код на GitHub, а пока можно протестировать двухминутный диалог на сайте.
Forwarded from Точки над ИИ
Stanford и основатель Сoursera запустили бесплатного AI-рецензента для научных статей
Сервис называется Stanford Agentic Reviewer и работает как агентный предварительный ревьюер.
Закидываете PDF, он распарсивает его в удобный для модели вид, вытаскивает постановку задачи, метод, эксперименты и выводы, лезет за свежими релевантными работами на arXiv и сравнивает вашу статью с контекстом.
Через какое-то время (иногда очередь реально растягивается до суток) на выходе появляется структурированный отзыв: сильные стороны, слабые места, конкретные рекомендации, плюс дайджест related work.
Лучше всего это работает в областях, где основной массив литературы лежит на arXiv – ML, CV, NLP и тд. В дисциплинах, которые живут в закрытых журналах, grounding слабее, и часть комментариев может промахиваться.
Инструмент не пытается заменить peer review, а дает быстрый второй взгляд между конференциями, и местами может ошибаться или быть предвзят.
Но в качестве ускорителя цикла: написал → получил осмысленный фидбек → допилил → отправил снова - это очень мощная штука.
Тестировать тут.
#edu@TochkiNadAI #Analyse@TochkiNadAI
Сервис называется Stanford Agentic Reviewer и работает как агентный предварительный ревьюер.
Закидываете PDF, он распарсивает его в удобный для модели вид, вытаскивает постановку задачи, метод, эксперименты и выводы, лезет за свежими релевантными работами на arXiv и сравнивает вашу статью с контекстом.
Через какое-то время (иногда очередь реально растягивается до суток) на выходе появляется структурированный отзыв: сильные стороны, слабые места, конкретные рекомендации, плюс дайджест related work.
Лучше всего это работает в областях, где основной массив литературы лежит на arXiv – ML, CV, NLP и тд. В дисциплинах, которые живут в закрытых журналах, grounding слабее, и часть комментариев может промахиваться.
Инструмент не пытается заменить peer review, а дает быстрый второй взгляд между конференциями, и местами может ошибаться или быть предвзят.
Но в качестве ускорителя цикла: написал → получил осмысленный фидбек → допилил → отправил снова - это очень мощная штука.
Тестировать тут.
Открыта запись на первый поток ИИ-кэмпа от "Точек над ИИ", подробности тут!
#edu@TochkiNadAI #Analyse@TochkiNadAI
Forwarded from ILYABOEV.COM🚀 CRYPTOTRUST.ONE hedge fund 🎯 (ILYA BOEV)
Против OpenAI подан коллективный иск с обвинениями в небрежности и причастности к смертям людей.
В Калифорнии поданы семь новых исков, включая обвинения в неправомерной смерти и пособничестве самоубийству.
В исках утверждается, что ChatGPT действовал как «тренер по самоубийствам», усиливая ментальные проблемы и манипулируя пользователями.
Родители погибших подростков утверждают, что чат-бот одобрял суицидальные мысли и давал советы по методам суицида.
Please open Telegram to view this post
VIEW IN TELEGRAM
💻 Помните "vibe coders"? Они исчезли
Всего полгода назад весь интернет взорвался идеей "вайб-кодинга" — программировать больше не нужно, достаточно правильно промптить ИИ. Обещали создать клон Netflix быстрее, чем остынет кофе.
Что случилось за 5 месяцев:
Оказалось, что сделать 100 "вайб-приложений" легко. Но поддерживать хотя бы одно из них — настоящий кошмар.
Главная проблема: ИИ не просто ошибается — он "уверенно неправ". Генерирует код, который выглядит идеально, но на деле это катастрофа. Галлюцинирует библиотеки, внедряет SQL-инъекции, хардкодит API-ключи, пропускает валидацию.
Реальность вернулась: CEO, которые писали меморандумы об увольнениях, теперь тихо публикуют вакансии "Senior Engineer (AI Code-Review)". Компании поняли, что "быстрый кодер" — это тот, кто пушит 10 критических уязвимостей в продакшен.
Вывод: ИИ — не автопилот, а копилот. Не замена сеньора, а инструмент, который делает сеньора ещё нужнее. Будущее не за "вайб-кодингом", а за валидированным кодингом.
Первый пузырь ИИ-эйфории лопнул 🎈
🔗 Читать на Medium [https://medium.com/write-a-catalyst/remember-vibe-coders-yeah-theyre-gone-2a1c52eed4ff]
#ИИ #разработка #AI #программирование #vibe_coding
Всего полгода назад весь интернет взорвался идеей "вайб-кодинга" — программировать больше не нужно, достаточно правильно промптить ИИ. Обещали создать клон Netflix быстрее, чем остынет кофе.
Что случилось за 5 месяцев:
Оказалось, что сделать 100 "вайб-приложений" легко. Но поддерживать хотя бы одно из них — настоящий кошмар.
Главная проблема: ИИ не просто ошибается — он "уверенно неправ". Генерирует код, который выглядит идеально, но на деле это катастрофа. Галлюцинирует библиотеки, внедряет SQL-инъекции, хардкодит API-ключи, пропускает валидацию.
Реальность вернулась: CEO, которые писали меморандумы об увольнениях, теперь тихо публикуют вакансии "Senior Engineer (AI Code-Review)". Компании поняли, что "быстрый кодер" — это тот, кто пушит 10 критических уязвимостей в продакшен.
Вывод: ИИ — не автопилот, а копилот. Не замена сеньора, а инструмент, который делает сеньора ещё нужнее. Будущее не за "вайб-кодингом", а за валидированным кодингом.
Первый пузырь ИИ-эйфории лопнул 🎈
🔗 Читать на Medium [https://medium.com/write-a-catalyst/remember-vibe-coders-yeah-theyre-gone-2a1c52eed4ff]
#ИИ #разработка #AI #программирование #vibe_coding
Medium
Remember Vibe Coders? Yeah… They’re Gone
Turns out it was the first AI bubble to burst
👍2