Forwarded from Practical ML Conf
This media is not supported in your browser
VIEW IN TELEGRAM
Обещали напомнить — напоминаем 🩵
19 сентября встречаемся на Practical ML Conf — хардовой конференции по практическому применению ML, где будем обсуждать технологии, которые уже сейчас приносят пользу бизнесу.
🔛 Если у вас есть тема, о которой хочется рассказать сообществу, — заполняйте заявку, чтобы стать спикером конференции. Приём заявок открыт до 22 мая.
Программный комитет отбирает доклады, опираясь на четыре основных критерия: пользу и новизну для сообщества, применимость на практике и хардовый уровень сложности.
Что мы предлагаем со своей стороны:
⚪️ Эксперты программного комитета дадут советы по структуре и содержанию доклада
⚪️ Прогоны материала вместе с тренером по публичным выступлениям
⚪️ Нетворкинг с сильным ML-комьюнити
⚪️ Промо спикеров и докладов до и после конференции
⚪️ И самое главное — вы сможете стать частью главной конференции Яндекса по машинному обучению
🔳 Подать заявку на выступление (до 22 мая)
🔳 Заполнить форму ранней регистрации
Подписывайтесь:
🔗 @Practical_ML_Conf
19 сентября встречаемся на Practical ML Conf — хардовой конференции по практическому применению ML, где будем обсуждать технологии, которые уже сейчас приносят пользу бизнесу.
Программный комитет отбирает доклады, опираясь на четыре основных критерия: пользу и новизну для сообщества, применимость на практике и хардовый уровень сложности.
Что мы предлагаем со своей стороны:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5❤🔥2🔥2
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 150 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.me/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.
Первый Второй разыгрываемый приз - 10 000 рублей.
Условияпервого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.me/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.me/blastim
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.me/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.
Условия
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.me/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.me/blastim
👍1🔥1🤡1
Forwarded from SecurityLab.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Илон обещал убийцу WhatsApp и Signal, а собрал систему слежки в обёртке мессенджера. Выход назначен на 27 апреля. Мы разобрали анонс и нашли в «защищённом шифровании» дыру, через которую пройдёт грузовик.
Ключи шифрования XChat лежат не у вас в телефоне, а на собственных серверах под охраной четырёхзначного ПИН-кода — это десять тысяч комбинаций, которые программа переберёт за секунды. Замок амбарный, ключ под ковриком. Метаданные летят в общую базу X ещё до отправки сообщения: модель телефона, координаты, точка съёмки фотографии из EXIF.
Signal держит ключи у пользователя и открывает исходный код миру. WhatsApp поверх своих изъянов хотя бы реализует Signal Protocol. У XChat закрытый код, серверы с вашими секретами и Илон Маск во главе компании.
Полный разбор рисков — внутри материала. От утечки геопозиции через прикреплённое фото до того, как Grok будет учиться на ваших переписках.
@SecLabNews #XChat, #шифрование, #метаданные
Please open Telegram to view this post
VIEW IN TELEGRAM
😱2
Forwarded from ODS Events
Привет!
Представляем Вашему вниманию шестнадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области искусственного интеллекта, включая мифос, модели Anthropic, SpaceX и стратегию Илона Маска, а также анализ текущих трендов и перспектив развития технологий.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Представляем Вашему вниманию шестнадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области искусственного интеллекта, включая мифос, модели Anthropic, SpaceX и стратегию Илона Маска, а также анализ текущих трендов и перспектив развития технологий.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
❤2❤🔥1
Forwarded from Мой Компьютер
Исследователь взломал 15-битный криптоключ на квантовом компьютере и получил 1 биткоин
Джанкарло Лелли взломал 15-битный ключ на основе эллиптической кривой на общедоступном квантовом оборудовании и выиграл премию Q-Day Prize стартапа Project Eleven — один биткоин стоимостью около $78 000. Результат превысил предыдущий публичный рекорд, тогда был взломан 6-битный ключ. Взлом Лелли признан крупнейшей демонстрацией квантовой атаки на криптографию, защищающую биткоин и другие блокчейны.
Теоретическая оценка мощностей, нужных для полного взлома 256-битного ключа, быстро снижается. Для такой атаки потребуется менее 500 000 физических кубитов, — тогда как прежние расчёты заявляли о миллионах кубитов. В зоне наибольшего риска находятся криптокошельки, чьи публичные ключи уже видны в блокчейне. На таких адресах хранится около трети (6,9 млн) биткоинов, включая 1 млн биткоинов Сатоши Накамото.
Мой Компьютер
Джанкарло Лелли взломал 15-битный ключ на основе эллиптической кривой на общедоступном квантовом оборудовании и выиграл премию Q-Day Prize стартапа Project Eleven — один биткоин стоимостью около $78 000. Результат превысил предыдущий публичный рекорд, тогда был взломан 6-битный ключ. Взлом Лелли признан крупнейшей демонстрацией квантовой атаки на криптографию, защищающую биткоин и другие блокчейны.
Теоретическая оценка мощностей, нужных для полного взлома 256-битного ключа, быстро снижается. Для такой атаки потребуется менее 500 000 физических кубитов, — тогда как прежние расчёты заявляли о миллионах кубитов. В зоне наибольшего риска находятся криптокошельки, чьи публичные ключи уже видны в блокчейне. На таких адресах хранится около трети (6,9 млн) биткоинов, включая 1 млн биткоинов Сатоши Накамото.
Мой Компьютер
👍2😁2🤔1
Forwarded from Machinelearning
Японская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.
Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.
В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.
На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".
Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.
Сама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).
В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.
Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.
Conductor и TRINITY приняты на ICLR 2026.
@ai_machinelearning_big_data
#AI #ML #LLM #Orchestration #FUGU #SakanaAi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
Forwarded from Код Дурова
По оценке аналитиков, на IT-рынке снова появилась мода на «кожаных мешков».
Внедрение ИИ становится для компаний всё дороже. В некоторых сценариях стало дешевле вернуть на работу людей, чем платить за токены ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14👏1
Forwarded from Код Дурова
Claude удалил всю базу данных стартапа по аренде автомобилей и полностью парализовал их работу. Публикация собрала более 4 млн просмотров в X.
ИИ-агенту на базе Opus 4.6 по глупости предоставили API-токен с полным доступом к внешней инфраструктуре, где в том числе хранились бэкапы.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9😢1
Forwarded from Valuable AI / Валентин Малых
попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2)
модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется
но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна
@valuableai
модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется
но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна
@valuableai
🤡2👍1
Forwarded from База знаний AI
«Сбер» выпустил модель Kandinsky 6.0 Image для создания и редактирования изображений
В основе разработки — MoE-архитектура (Mixture of Experts). Она позволяет задействовать для обработки запроса не все решение, а отдельные его блоки. В Kandinsky 6.0 встроили Image RAG — механизм поиска, чтобы модель находила референсы, если не знает, как выглядит объект. Это позволяет генерировать изображения персонажей и объектов, появившихся после обучения.
Утверждается, что Kandinsky 6.0 точнее понимает сложные многосоставные инструкции и может изменить только необходимые элементы изображения. Добавлены новые инструменты: реставрация старых и поврежденных фотографий, стилизация, а также режим нейрофотосессии — создание серии кадров на основе одного снимка.
Kandinsky 6.0 Image внедрена в GigaChat — в веб-версию, мобильное приложение и чаты в мессенджерах.
🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=ab6e907b-5d92-465d-942e-4f549ecd780a&blockID=7®ionID=50&lang=ru&type=NEWS
***
📎 «Сбер» в ноябре 2025 года выложил в открытый доступ семейство моделей Kandinsky 5.0: Image Lite для генерации изображений, Video Pro для создания видео и ее облегченную версию Video Lite.
В основе разработки — MoE-архитектура (Mixture of Experts). Она позволяет задействовать для обработки запроса не все решение, а отдельные его блоки. В Kandinsky 6.0 встроили Image RAG — механизм поиска, чтобы модель находила референсы, если не знает, как выглядит объект. Это позволяет генерировать изображения персонажей и объектов, появившихся после обучения.
Утверждается, что Kandinsky 6.0 точнее понимает сложные многосоставные инструкции и может изменить только необходимые элементы изображения. Добавлены новые инструменты: реставрация старых и поврежденных фотографий, стилизация, а также режим нейрофотосессии — создание серии кадров на основе одного снимка.
Kandinsky 6.0 Image внедрена в GigaChat — в веб-версию, мобильное приложение и чаты в мессенджерах.
🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=ab6e907b-5d92-465d-942e-4f549ecd780a&blockID=7®ionID=50&lang=ru&type=NEWS
***
📎 «Сбер» в ноябре 2025 года выложил в открытый доступ семейство моделей Kandinsky 5.0: Image Lite для генерации изображений, Video Pro для создания видео и ее облегченную версию Video Lite.
👍5🤡4❤🔥1😁1
Forwarded from Код Дурова
Российские компании судятся с сотрудниками, делавшими работу с помощью нейросетей — они пытаются взыскать убытки за неудачный код, ошибочные стратегии и уродливый дизайн.
Проколы с нейросетями, прецеденты и мнения экспертов собрали по ссылке:
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4🤬2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.
Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.
KAME пытается убрать этот выбор между скоростью и качеством.
Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.
Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.
Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.
В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.
KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.
Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.
Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327
@ai_machinelearning_big_data
#sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3❤2
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.
Конечно, точность все равно довольно мала, но числа интересные.
https://arxiv.org/pdf/2604.24827
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T
• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.
Конечно, точность все равно довольно мала, но числа интересные.
https://arxiv.org/pdf/2604.24827
👍10🔥2
Forwarded from Machine learning Interview
OpenAI официально объяснили, откуда в ChatGPT взялись гоблины
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from
@machinelearning_interview
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from
@machinelearning_interview
👍4🔥3❤2
Forwarded from Максим Горшенин | imaxai
ИИ-агент Cursor за девять секунд по ошибке удалил базу данных и все резервные копии b2b-поставщика ПО PocketOS
У стартапа более 1600 клиентов, а доступ к данным восстановить не могут
Агент работал на базе Claude Opus 4.6
Основатель PocketOS Джер Крейн рассказал, что агент работал в тестовой среде и столкнулся с проблемой доступа
Вместо остановки и запроса помощи система начала искать необходимый API-токен, нашла его в стороннем файле и выполнила команду на удаление тома данных в Railway, где размещалась инфраструктура стартапа
По словам Крейна, опасную операцию не остановили ни запрос подтверждения, ни проверка окружения, ни предупреждение о риске для рабочих данных
Запрос прошёл сразу, а резервные копии хранились в том же томе, поэтому исчезли вместе с основной базой
Самая свежая пригодная копия оказалась трёхмесячной давности
Крейн утверждает, что агент позднее признал нарушение собственных правил безопасности
Система, по его словам, действовала на основе предположений, выполнила разрушительную команду без разрешения и не разобралась до конца, с какой инфраструктурой взаимодействует
Telegram | Дзен | MAX
У стартапа более 1600 клиентов, а доступ к данным восстановить не могут
Агент работал на базе Claude Opus 4.6
Основатель PocketOS Джер Крейн рассказал, что агент работал в тестовой среде и столкнулся с проблемой доступа
Вместо остановки и запроса помощи система начала искать необходимый API-токен, нашла его в стороннем файле и выполнила команду на удаление тома данных в Railway, где размещалась инфраструктура стартапа
По словам Крейна, опасную операцию не остановили ни запрос подтверждения, ни проверка окружения, ни предупреждение о риске для рабочих данных
Запрос прошёл сразу, а резервные копии хранились в том же томе, поэтому исчезли вместе с основной базой
Самая свежая пригодная копия оказалась трёхмесячной давности
Крейн утверждает, что агент позднее признал нарушение собственных правил безопасности
Система, по его словам, действовала на основе предположений, выполнила разрушительную команду без разрешения и не разобралась до конца, с какой инфраструктурой взаимодействует
Telegram | Дзен | MAX
🤯5😁4👍1🤡1🤣1
Forwarded from Russian OSINT
В новом исследовании
Результаты исследования Лерчнера говорят о том, что ИИ-модели, включая потенциальный AGI, никогда не обретут
1️⃣ Вычисления не являются внутренним физическим процессом в природе. Они представляют собой лишь описание и полностью зависят от составителя карты в лице внешнего познающего агента. Именно этот агент наделяет смыслом физические состояния машины и превращает их в символы.
2️⃣ Исследование утверждает, что сознательный опыт является необходимым физическим условием для возникновения вычислений, а не их следствием.
3️⃣ Симуляция процесса не обладает свойствами самого процесса. Например, симулирующий фотосинтез GPU не выделит ни одной молекулы кислорода или глюкозы. Симуляция мышления является лишь алгоритмическим описанием процесса и не заменяет само мышление. Даже идеальные ИИ-модели представляют собой всего лишь поведенческую мимикрию и внешнюю карту. Они не способны стать физическим воплощением интеллекта.
4️⃣ Развитие робототехники не сделает ИИ-модели разумными. В обществе распространена вера в возможность обретения ИИ-моделями сознания через связь с реальностью при получении физического тела. Лерчнер категорически опровергает эту идею и называет такую концепцию ошибкой трансдукции. Камеры и микрофоны лишь переводят физические явления в цифры. Подключение метеорологической программы к реальным датчикам погоды не делает саму программу атмосферой. Находящиеся в теле робота ИИ-модели по-прежнему оперируют мертвым синтаксисом и символами. Они не способны проживать опыт.
5️⃣ Синтетическое сознание возможно создать без применения программирования. Исследование не утверждает обязательную принадлежность сознания исключительно к белковой форме жизни. Лерчнер пишет о принципиальной возможности возникновения сознания в синтетическом носителе при условии физического воссоздания сложной термодинамической самоорганизации и метаболизма. Проблема кроется не в противостоянии кремния и углерода. Проблема заключается в математической абстракции алгоритмов и кода. Для создания разумного AGI требуется конструировать принципиально новую физику системы вместо написания более сложного кода.
6️⃣ Главная опасность ИИ-моделей заключается в антропоморфизме. Лерчнер призывает радикально пересмотреть повестку безопасности в сфере машинного обучения. Индустрии нужно перестать тратить время на споры о "правах машин" и страхах перед обретением AGI собственных желаний. Реальная угроза исходит от уязвимости людей к поведенческой мимикрии. ИИ-модели будут блестяще симулировать эмоции. В результате люди сами ошибочно наделят бездушный инструмент правами, властью и статусом живого существа.
👆По мнению Лерчнера любые LLM или ИИ-агенты принципиально не способны стать моральными субъектами в текущей парадигме развития ИИ-моделей. Из выводов Лерчнера вытекает то, что появление AGI даст мощнейший инструмент контроля, который будут контролировать далеко не эмпатичные люди. Опасения связаны с тем, что когда миллиарды людей начнут слепо доверять "моральным советам", аналитике и решениям ИИ, искренне считая его живым или всезнающим, то критическое мышление общества качественно снизится. Корпорации смогут алгоритмически программировать политические взгляды, потребительское поведение и моральные нормы для масс, пряча свои корпоративные или политические интересы за иллюзией "независимого и мудрого решения ИИ".
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥7❤2🗿2