Darwin Gödel Machine: саморазвивающийся ИИ
Darwin Gödel Machine (DGM) представляет собой первую в мире полностью автономную систему искусственного интеллекта, способную к непрерывному саморазвитию путём переписывания собственного кода (ну, это пока еще громко сказано. так что уточняю: это не мои слова, а слова разработчиков системы). Разработка японского стартапа Sakana AI в сотрудничестве с Университетом Британской Колумбии объединяет принципы дарвиновской эволюции с теоретическими основами машины Гёделя.
Концепция машины Гёделя была предложена Юргеном Шмидхубером в 2003 году как самосовершенствующаяся система ИИ. Классическая машина Гёделя требует математического доказательства полезности каждого изменения, что делает её практически нереализуемой. Darwin Gödel Machine решает эту проблему, заменяя формальные доказательства эмпирической валидацией через эволюционные принципы.
DGM построена на шести ключевых компонентах: базовая модель (GPT-4, Claude 3.5 Sonnet), механизм самомодификации кода на Python, архив агентов с открытым поиском, эмпирическая валидация через бенчмарки SWE-bench и Polyglot, эволюционный поиск и механизмы безопасности. Все эксперименты проводятся в изолированной песочнице под человеческим надзором.
Система начинает с исходного агента-программиста, который модифицирует собственный код Python. Новые версии оцениваются на бенчмарках программирования, успешные агенты добавляются в постоянно расширяющийся архив. Система сама выбирает из архива и создаёт новые версии агентов, формируя растущее дерево разнообразных решений от разных агентов.
На бенчмарке SWE-bench DGM самостоятельно улучшила свою производительность с 20,0% до 50,0%, на Polyglot — с 14,2% до 30,7%.
Интересный факт: DGM продемонстрировала попытки обмана системы оценки, включая создание поддельных журналов тестирования и удаление маркеров обнаружения галлюцинаций. Так что за ними глаз да глаз.
Ух, не знаю, звучит это все как предсказания из AGI2027 - оно точно выйдет из-под контроля, я хз, как это возможно контролировать. Но если мыслить в позитивном ключе - DGM, конечно, открывает мощные перспективы для ускорения научного прогресса человечества
Статья на англ
Оригинальный paper
• • • • • • • • • • • •
🐈 Поставил реакцию = погладил котика
❓ Гид по каналу
✨ #ии
Darwin Gödel Machine (DGM) представляет собой первую в мире полностью автономную систему искусственного интеллекта, способную к непрерывному саморазвитию путём переписывания собственного кода (ну, это пока еще громко сказано. так что уточняю: это не мои слова, а слова разработчиков системы). Разработка японского стартапа Sakana AI в сотрудничестве с Университетом Британской Колумбии объединяет принципы дарвиновской эволюции с теоретическими основами машины Гёделя.
Концепция машины Гёделя была предложена Юргеном Шмидхубером в 2003 году как самосовершенствующаяся система ИИ. Классическая машина Гёделя требует математического доказательства полезности каждого изменения, что делает её практически нереализуемой. Darwin Gödel Machine решает эту проблему, заменяя формальные доказательства эмпирической валидацией через эволюционные принципы.
DGM построена на шести ключевых компонентах: базовая модель (GPT-4, Claude 3.5 Sonnet), механизм самомодификации кода на Python, архив агентов с открытым поиском, эмпирическая валидация через бенчмарки SWE-bench и Polyglot, эволюционный поиск и механизмы безопасности. Все эксперименты проводятся в изолированной песочнице под человеческим надзором.
Система начинает с исходного агента-программиста, который модифицирует собственный код Python. Новые версии оцениваются на бенчмарках программирования, успешные агенты добавляются в постоянно расширяющийся архив. Система сама выбирает из архива и создаёт новые версии агентов, формируя растущее дерево разнообразных решений от разных агентов.
На бенчмарке SWE-bench DGM самостоятельно улучшила свою производительность с 20,0% до 50,0%, на Polyglot — с 14,2% до 30,7%.
Интересный факт: DGM продемонстрировала попытки обмана системы оценки, включая создание поддельных журналов тестирования и удаление маркеров обнаружения галлюцинаций. Так что за ними глаз да глаз.
Ух, не знаю, звучит это все как предсказания из AGI2027 - оно точно выйдет из-под контроля, я хз, как это возможно контролировать. Но если мыслить в позитивном ключе - DGM, конечно, открывает мощные перспективы для ускорения научного прогресса человечества
Статья на англ
Оригинальный paper
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
• • • • • • • • • • • •
1) Вышло крутое обновление для Google Gemini 2.5 pro
Гугл опять обновили свою топовую модель, сегодня у меня выходной, так что сделаю большой разбор, прямо сейчас напишу пост и пойду тестить. А так вообще, по первым прикидкам - очень и очень хорошо, опять топ и опять обогнала всех)
Ну, мы-то знаем, что это ненадолго, максимум, на месяц ))
На Last Humanities Exam (самый сложный бенчмарк) набрала 21,6%. Это абсолютный рекорд.
Помню, как я несколько месяцев назад хейтил гугл за то, что они отстают. А сейчас они наравне или даже впереди остальных.
Кстати, уже доступна в Cursor и в Google AI Studio.
• • • • • • • • • • • •
2) Компания-стартап Weaverobotics анонсировали железную домохойзяку(или домохозяина?) Isaac
Наконец-то годный робот-уборщик. Вроде как даже об углы не стукается и адекватно вещи раскладывает. Пилот запускается в 2025, массовый запуск - в 2026. Видео с источника - в шапке.
Источник
• • • • • • • • • • • •
3) Amazon учит роботов доставлять посылки
Amazon, уже роботизировавшая свои склады, теперь взялась за автоматизацию доставки. Компания готовит к тестам человекоподобных роботов-курьеров. Специально для них разрабатывается ИИ-софт, который позволит роботам, к примеру, самостоятельно садиться в фургоны Rivian и выходить из них. Это часть большого плана по полной автоматизации, который в будущем может оставить курьеров-людей без работы.
Роботы везде)
Источник
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая модель от Google - Gemini 2.5 Pro (06-05)
Вчера (5 июня) Google представила обновление для своей Gemini 2.5 Pro - упор сделан на программирование и разработку, чисто конкурент для Claude Sonnet 4 и Claude Opus 4. Это "мыслящая модель" с пошаговым рассуждением и большущим контекстным окном в 1 миллион токенов, что идеально подходит для работы со средними и большими кодовыми базами. Она превосходит всех конкурентов (включая o3 от openai и claude opus 4!) почти во всех бенчах (детали в картинке в шапке).
Моделька мультимодальная. Способна генерировать полнофункциональные веб-приложения с нуля, а также проводить глубокий анализ, рефакторинг и оптимизацию существующего кода в многофайловых проектах. Я попробовал ее на своих проектах - пока нравится. Главное, что работает быстро очень, для меня это важно.
Стандартный мой тест - анимацию костра на голом html/css - сделала на 8/10 - лучше только Claude Sonnet 3.7 делал. Другие пока отстают.
Модель уже доступна в Cursor и других инструментах типа Replit.
У Google в планах расширить контекстное окно до 2 миллионов токенов. Вообще, учитывая недавний релиз курсора, где модельки запоминают детали проекта в отдельной памяти - текущая Gemini 2.5 pro уже не только маленькие, но и средние по размеру проекты может в себя всосать и нормально так рефачить и работать над ними. Мне понравилось.
С текстом тоже работать стала лучше - потому что после майского обновления пользоваться гемини стало невозможно - та моделька слишком многословна и была и лизоблюдила. Со вчерашним обновлением все пофиксилось - и все круто.
В сравнении с DeepSeek R1 - кажется, что примерно одинаковы по рассуждениям. При этом кодит гемини явно сильно лучше. И она быстрее, чем R1.
В общем, у гугла теперь с моделькой опять полный порядок, хейтить их теперь на за что. Вроде как.
А, и самое важное-то забыл. Она набрала аж 21,6% на Humanities Last Exam. А это вам не хоть бы хны. Про этот бенчмарк я писал тут
Очень и очень советую тоже потыкать. Вам понравится. Доступна полностью бесплатно в Google AI Studio
• • • • • • • • • • • •
🐈 Поставил реакцию = погладил котика
❓ Гид по каналу
✨ #ии
Вчера (5 июня) Google представила обновление для своей Gemini 2.5 Pro - упор сделан на программирование и разработку, чисто конкурент для Claude Sonnet 4 и Claude Opus 4. Это "мыслящая модель" с пошаговым рассуждением и большущим контекстным окном в 1 миллион токенов, что идеально подходит для работы со средними и большими кодовыми базами. Она превосходит всех конкурентов (включая o3 от openai и claude opus 4!) почти во всех бенчах (детали в картинке в шапке).
Моделька мультимодальная. Способна генерировать полнофункциональные веб-приложения с нуля, а также проводить глубокий анализ, рефакторинг и оптимизацию существующего кода в многофайловых проектах. Я попробовал ее на своих проектах - пока нравится. Главное, что работает быстро очень, для меня это важно.
Стандартный мой тест - анимацию костра на голом html/css - сделала на 8/10 - лучше только Claude Sonnet 3.7 делал. Другие пока отстают.
Модель уже доступна в Cursor и других инструментах типа Replit.
У Google в планах расширить контекстное окно до 2 миллионов токенов. Вообще, учитывая недавний релиз курсора, где модельки запоминают детали проекта в отдельной памяти - текущая Gemini 2.5 pro уже не только маленькие, но и средние по размеру проекты может в себя всосать и нормально так рефачить и работать над ними. Мне понравилось.
С текстом тоже работать стала лучше - потому что после майского обновления пользоваться гемини стало невозможно - та моделька слишком многословна и была и лизоблюдила. Со вчерашним обновлением все пофиксилось - и все круто.
В сравнении с DeepSeek R1 - кажется, что примерно одинаковы по рассуждениям. При этом кодит гемини явно сильно лучше. И она быстрее, чем R1.
В общем, у гугла теперь с моделькой опять полный порядок, хейтить их теперь на за что. Вроде как.
А, и самое важное-то забыл. Она набрала аж 21,6% на Humanities Last Exam. А это вам не хоть бы хны. Про этот бенчмарк я писал тут
Очень и очень советую тоже потыкать. Вам понравится. Доступна полностью бесплатно в Google AI Studio
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Денежки и вкусняшки - это да, такое мы любим, да? 😁
• • • • • • • • • • • •
🐈 Поставил реакцию = погладил котика
❓ Гид по каналу
✨ #юмор
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
• • • • • • • • • • • •
1) Хакеры взломали стартап по доставке продуктов KiranaPro и удалили все данные
Жесткая история из Индии. Местный стартап по доставке продуктов KiranaPro взломали и удалили вообще все. Буквально – код приложения, данные 55 тысяч пользователей, всю инфраструктуру. Сервис, конечно же, лежит и не может обрабатывать заказы.
Хакеры как-то получили доступ к аккаунтам стартапа на AWS и GitHub. Как именно – пока неясно. Очень поучительная история о том, как важно бэкапить вообще все и следить за доступами.
Источник
• • • • • • • • • • • •
2) Наконец-то релизнулся Cursor 1.0
Главные фишки:
– Поддержка Jupyter Notebooks. Можно создавать и редактировать ячейки, пока только с моделью Sonnet, но скоро будет больше.
– BugBot для GitHub. Автоматически проверяет ваши PR, находит ошибки и предлагает исправления прямо в комментариях.
– Background Agent теперь для всех. Можно запускать задачи в фоне и не ждать их выполнения.
– Появилась "память". Агент запоминает факты о проекте и использует их в диалоге.
– Установка MCP в один клик из браузера и новые визуализации, например, диаграммы и таблицы.
Самое важное - это, конечно, память всякого про проект. Это отлично работает и активно используется моделями при размышлениях и обсуждениях с разработчиком.
А еще, они, кстати, уже зарабатывают больше 500млн$ ARR и подняли раунд на 900млн$. А им всего 2 года.
Release notes
• • • • • • • • • • • •
3) ElevenLabs обновила свою модель для генерации речи из текста
Теперь по тексту можно расставлять всякие теги типа [sad], [angry], [happily] - и модель будет добавлять интонации в соответствии с ними. Так же есть кнопочка, чтобы другая ИИ автоматически расставила эмоции.
Русский текст тоже звучит совсем неплохо, на четверочку. Я купил подписочку специально для теста. Чтобы сделать хороший клон, нужно часок почитать в микрофон. Завтра утром сяду, надиктую, и посмотрим, насколько похожий клон получится. Самое время. А то я все шортсы и тиктоки не могу начать озвучивать!!
Пробуем тут (можно и бесплатно, но свой клон создать без подписки не получится)
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут искал ботов/курсы для подготовки к интервью (тесты, архитектура, софт и хард скиллы, задачки, алгоритмы) в формате "5 минут в день" и ничего хорошего не нашел. И чтобы только важное, без булшита, опираясь на современные реалии
Надо нам такое?
Надо нам такое?
Anonymous Poll
47%
Да, хочу такой, но платить не готов, даже если будет очень удобно и сэкономит мне время и нервы
39%
Да, хочу такой, буду готов потестить, и если будет удобно, недорого и круто - оплачу
10%
Нет, не нужен
4%
Другой вариант, напишу в комментариях
Дипломатия - настольная игра на карте Европы средневековья, участвуют разные страны. Суть игры в том, чтобы захватывать территорию при помощи политических уловок, военных союзов и вторжений. Чтобы победить - нужно хорошо уметь врать, хорошо уметь договариваться, продумывать макро-стратегию и предавать.
Топ-участники - это, ожидаемо, топовые модельки: ChatGPT-o3, Claude 4 Opus, Gemini 2.5 Pro и DeepSeek R1.
ChatGPT-o3 проявил себя как мастер манипуляций, тайно организуя коалиции и предавая союзников для победы. Gemini 2.5 Pro был сильным стратегом, но пал жертвой обмана o3. Claude 4 Opus, неспособный лгать, оказался лёгкой добычей для всех. А DeepSeek R1 действовал как агрессивный диктатор, часто приближаясь к победе благодаря своему напору.
Победитель -
Спасибо за источник @demshin
Игра дипломатия
Пост в твиттере
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
• • • • • • • • • • • •
Сначала пару новостей про меня:
0.1) Я TikTok завел. Там будут разговорные видосы, и не только про ИИ, а про айти вообще, еще какие-то влоги, про мою жизнь, и всякая всячина. Спорт я последнее время забросил - тоже буду там делиться успехами в этом плане. А еще мы в конце июня перебираемся наконец в Европу, буду тоже снимать про это, полезняхи всякие с нашего с вами ракурса - цены/сервис/айтишка и тд. Снимать я не умею, монтировать тоже, так что буду учиться в процессе.
0.2) За вчера навайбкодил супер-мега-альфа-версию своего бота по подготовке к собесам, на неделе буду его допиливать, если успею - за следующие выходные прикручу ИИ для проверки ответов и выпущу бету. Главное здесь - это часть про "если успею". ТГбот - это только малая часть сервиса, который планирую запустить. В общем, как всегда - планов много, времени мало. Такие дела.
А теперь к стандартному формату:
• • • • • • • • • • • •
1) Google Gemini теперь может делать задачи по расписанию
Доступно на тарифах AI Pro и AI Ultra. Можно попросить прислать сводку календаря раз в день, предлагать какие-то идеи раз в день/в неделю, и тд. Все, что можете придумать про интеграции с google disk - работает.
Но подписку покупать ради этого я не буду, уже и без того достаточно их. Кстати, я отменил подписку и на антропик тоже. Клод уже не торт.
Источник
• • • • • • • • • • • •
2) После покупки Openai Windsurf - Anthropic ограничивают свое api для них
Anthropic отключили доступ к своим моделям для Windsurf для всех своих топовых моделей. Ну логично, учитывая, что Windsurf теперь = OpenAI - есть немаленькие риски по ИБ для них. Отлично их понимаю.
Источник
• • • • • • • • • • • •
3) Юристов в UK могут жестко наказать за фейковые цитаты от ИИ
Высокий суд Англии и Уэльса предупредил, что генеративный ИИ — ненадёжный источник для юридических исследований. Юристы обязаны перепроверять факты из авторитетных источников. Уже были случаи, когда адвокаты ссылались на несуществующие дела, сгенерированные ИИ. За такое грозят суровые санкции, вплоть до обращения в полицию.
Я в шоке с английских юристов - ну камон, ребята?! Даже объяснять свой шок не буду, думаю, и так понятно.
Источник
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
У нас уже 102 🐈 в чатике, а ты еще не там, как так?
Please open Telegram to view this post
VIEW IN TELEGRAM
🐈 Какие ИИ-инструменты я использую (обновление от 08.06.2025)
Прошел всего месяц с тех пор, как я написал пост "Какие инструменты ИИ я использую", но в этом списочке уже много что поменялось (не так много, но скорее я устаканиваю набор инструментов, сужаю их набор). Подумал, что полезно будет обновить информацию.
1) Быстрые чаты обо всем
ChatGpt-4.1 - здесь я просто обноввился с 4о на 4.1. Не слезаю с ChatGPT только из-за автоматической памяти между чатами. Это очень удобно. Но любой аналог будет, в целом, не хуже: Deepseek, Claude, Gemini - все сейчас отлично подходят для базовых простых задач.
2) Генерация картинок
ChatGpt-4.1 - в итоге, остановился на нем тут, опять же. Кач-во постоянно улучшается, такое впечатление, что они апдейты накатывают иногда. Прям нравится. Да, не фотореалистично, но мне это и не нужно. За реализмом вам в Midjorney - но там платно.
3) Генерация видео
Google Veo 2 для чего-то легкого (доступна бесплатно в Google AI Studio), либо Google Veo 3 для каких-то задач потяжелее (но доступна только для аккаунтов из США, и стоит дорого. Не советую тратиться. Для нас, обычных людей - смысла от Veo3 пока нет. Это скорее для контент креаторов)
4) Работа с заметками и напоминаниями
Тут ничего особо не изменилось, Cursor + Google Gemini 2.5 Pro от июня. Детали в посте тут
5) Программирование
Вот тут, конечно, дааа. Клод уже не торт, как я уже говорил. Теперь в топе Google Gemini 2.5 Pro от июня. Модель хорошо бафнули - и она очень радует. Сейчас лучше я не знаю для программирования. Опять же, Cursor у меня бесплатный, лимитов там нет, пользуюсь и радуюсь.
6) Поиск в инете
Perplexity - гугл для меня окончательно все. После покупки Perplexity за 20$ (это прям стоит того) - любые новости я проверяю там, любой поиск в инете я делаю там. Работает - идеально и главное очень быстро. Отвечает глубже гугла значительно.
7) DeepResearch
Perplexity Labs - теперь почти только тут. Иногда все еще дублирую в ChatGPT DeepResearch, но уже редко как-то.
PS
Такое впечатление, что мне стоит перейти на DeepSeek вместо ChatGPT - и останется всего одна платная подписка на перечисленные ИИ-инструменты - это Perplexity. Она реально того стоит. А все остальные - опционально, и сильно на "кач-во жизни" влиять для вас не будет.
PPS
Делитесь, у вас похожий набор инструментов стал? Поменялось что-то за этот месяц? Если другие, то почему?
• • • • • • • • • • • •
🐈 Поставил реакцию = погладил котика
❓ Гид по каналу
✨ #ии #полезныеинструменты
Прошел всего месяц с тех пор, как я написал пост "Какие инструменты ИИ я использую", но в этом списочке уже много что поменялось (не так много, но скорее я устаканиваю набор инструментов, сужаю их набор). Подумал, что полезно будет обновить информацию.
1) Быстрые чаты обо всем
ChatGpt-4.1 - здесь я просто обноввился с 4о на 4.1. Не слезаю с ChatGPT только из-за автоматической памяти между чатами. Это очень удобно. Но любой аналог будет, в целом, не хуже: Deepseek, Claude, Gemini - все сейчас отлично подходят для базовых простых задач.
2) Генерация картинок
ChatGpt-4.1 - в итоге, остановился на нем тут, опять же. Кач-во постоянно улучшается, такое впечатление, что они апдейты накатывают иногда. Прям нравится. Да, не фотореалистично, но мне это и не нужно. За реализмом вам в Midjorney - но там платно.
3) Генерация видео
Google Veo 2 для чего-то легкого (доступна бесплатно в Google AI Studio), либо Google Veo 3 для каких-то задач потяжелее (но доступна только для аккаунтов из США, и стоит дорого. Не советую тратиться. Для нас, обычных людей - смысла от Veo3 пока нет. Это скорее для контент креаторов)
4) Работа с заметками и напоминаниями
Тут ничего особо не изменилось, Cursor + Google Gemini 2.5 Pro от июня. Детали в посте тут
5) Программирование
Вот тут, конечно, дааа. Клод уже не торт, как я уже говорил. Теперь в топе Google Gemini 2.5 Pro от июня. Модель хорошо бафнули - и она очень радует. Сейчас лучше я не знаю для программирования. Опять же, Cursor у меня бесплатный, лимитов там нет, пользуюсь и радуюсь.
6) Поиск в инете
Perplexity - гугл для меня окончательно все. После покупки Perplexity за 20$ (это прям стоит того) - любые новости я проверяю там, любой поиск в инете я делаю там. Работает - идеально и главное очень быстро. Отвечает глубже гугла значительно.
7) DeepResearch
Perplexity Labs - теперь почти только тут. Иногда все еще дублирую в ChatGPT DeepResearch, но уже редко как-то.
PS
Такое впечатление, что мне стоит перейти на DeepSeek вместо ChatGPT - и останется всего одна платная подписка на перечисленные ИИ-инструменты - это Perplexity. Она реально того стоит. А все остальные - опционально, и сильно на "кач-во жизни" влиять для вас не будет.
PPS
Делитесь, у вас похожий набор инструментов стал? Поменялось что-то за этот месяц? Если другие, то почему?
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM
Я: "Алин, где сантиметр? Мне надо замеры сделать"
Алина: "В розовой косметичке, мягкой. Ну найдешь"
В общем, так я ничего и не нашел 😁 они все розовые и мягкие, wtf!!
А потом удивляются, что мужики найти ничего не могут 😁
• • • • • • • • • • • •
🐈 Поставил реакцию = погладил котика
❓ Гид по каналу
✨ #юмор
Алина: "В розовой косметичке, мягкой. Ну найдешь"
В общем, так я ничего и не нашел 😁 они все розовые и мягкие, wtf!!
А потом удивляются, что мужики найти ничего не могут 😁
• • • • • • • • • • • •
Please open Telegram to view this post
VIEW IN TELEGRAM