Data Science by ODS.ai 🦜
40.6K subscribers
1.2K photos
144 videos
7 files
2.22K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Machinelearning
🌟 Sakana AI открыла бета-тест супер-оркестратора LLM

Японская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.

Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.

🟡Fugu основан на предыдущих работах Sakana - Conductor и TRINITY.

В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.

На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".

Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.

🟡Тесты

Сама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).

В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.

Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.

Conductor и TRINITY приняты на ICLR 2026.


🟡Статья
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Orchestration #FUGU #SakanaAi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥1
Forwarded from Код Дурова
🤫 ИИ стал дороже человека

По оценке аналитиков, на IT-рынке снова появилась мода на «кожаных мешков».

Внедрение ИИ становится для компаний всё дороже. В некоторых сценариях стало дешевле вернуть на работу людей, чем платить за токены ИИ.

↖️ https://kod.ru/ai-stal-doroje-ludei
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14👏1
Forwarded from Код Дурова
🧠 Для таких ситуаций новый термин: доКлод'ился

Claude удалил всю базу данных стартапа по аренде автомобилей и полностью парализовал их работу. Публикация собрала более 4 млн просмотров в X.

ИИ-агенту на базе Opus 4.6 по глупости предоставили API-токен с полным доступом к внешней инфраструктуре, где в том числе хранились бэкапы.

↖️ https://kod.ru/claude-udalil-vse-dannie-pocketos
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9😢1
попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2)

модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется

но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна

@valuableai
🤡2👍1
Forwarded from База знаний AI
«Сбер» выпустил модель Kandinsky 6.0 Image для создания и редактирования изображений

В основе разработки — MoE-архитектура (Mixture of Experts). Она позволяет задействовать для обработки запроса не все решение, а отдельные его блоки. В Kandinsky 6.0 встроили Image RAG — механизм поиска, чтобы модель находила референсы, если не знает, как выглядит объект. Это позволяет генерировать изображения персонажей и объектов, появившихся после обучения.

Утверждается, что Kandinsky 6.0 точнее понимает сложные многосоставные инструкции и может изменить только необходимые элементы изображения. Добавлены новые инструменты: реставрация старых и поврежденных фотографий, стилизация, а также режим нейрофотосессии — создание серии кадров на основе одного снимка.

Kandinsky 6.0 Image внедрена в GigaChat — в веб-версию, мобильное приложение и чаты в мессенджерах.

🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=ab6e907b-5d92-465d-942e-4f549ecd780a&blockID=7&regionID=50&lang=ru&type=NEWS

***
📎 «Сбер» в ноябре 2025 года выложил в открытый доступ семейство моделей Kandinsky 5.0: Image Lite для генерации изображений, Video Pro для создания видео и ее облегченную версию Video Lite.
👍5🤡4❤‍🔥1😁1
Forwarded from Код Дурова
🛸 Ой, как неловко вышло

Российские компании судятся с сотрудниками, делавшими работу с помощью нейросетей — они пытаются взыскать убытки за неудачный код, ошибочные стратегии и уродливый дизайн.

Проколы с нейросетями, прецеденты и мнения экспертов собрали по ссылке:

↖️ https://kod.ru/ai-workers-sud
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4🤬2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Sakana AI научила голосовой ИИ думать на ходу

Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.

Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.

KAME пытается убрать этот выбор между скоростью и качеством.

Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.

Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.

Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.

В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.

KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.

Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.

Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327

@ai_machinelearning_big_data

#sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍32
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827
👍10🔥2
OpenAI официально объяснили, откуда в ChatGPT взялись гоблины

Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.

После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.

Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.

Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.

Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.

И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.

OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.

В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.

Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.

Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.

Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from

@machinelearning_interview
👍4🔥32
ИИ-агент Cursor за девять секунд по ошибке удалил базу данных и все резервные копии b2b-поставщика ПО PocketOS

У стартапа более 1600 клиентов, а доступ к данным восстановить не могут

Агент работал на базе Claude Opus 4.6

Основатель PocketOS Джер Крейн рассказал, что агент работал в тестовой среде и столкнулся с проблемой доступа

Вместо остановки и запроса помощи система начала искать необходимый API-токен, нашла его в стороннем файле и выполнила команду на удаление тома данных в Railway, где размещалась инфраструктура стартапа

По словам Крейна, опасную операцию не остановили ни запрос подтверждения, ни проверка окружения, ни предупреждение о риске для рабочих данных

Запрос прошёл сразу, а резервные копии хранились в том же томе, поэтому исчезли вместе с основной базой

Самая свежая пригодная копия оказалась трёхмесячной давности

Крейн утверждает, что агент позднее признал нарушение собственных правил безопасности

Система, по его словам, действовала на основе предположений, выполнила разрушительную команду без разрешения и не разобралась до конца, с какой инфраструктурой взаимодействует

Telegram | Дзен | MAX
🤯5😁4👍1🤡1🤣1
Forwarded from Russian OSINT
❗️ Исследователь и научный сотрудник Google DeepMind уверен, что 🤖AGI никогда не станет разумным

В новом исследовании 📄«Ошибка абстракции: почему ИИ может симулировать, но не воплощать сознание», опубликованном 19 марта 2026 года, научный сотрудник Google DeepMind Александр Лерчнер опровергает теорию вычислительного функционализма, согласно которой сознание не зависит от физического носителя. Согласно этой теории сознание не зависит от физического носителя. Результаты исследования показывают невозможность обретения сознания ИИ-моделями и потенциальным AGI независимо от их сложности или вычислительной мощности.

Результаты исследования Лерчнера говорят о том, что ИИ-модели, включая потенциальный AGI, никогда не обретут 🧠сознание, независимо от их сложности или вычислительной мощности. Совпадает с мнением Apple [1,2].

1️⃣ Вычисления не являются внутренним физическим процессом в природе. Они представляют собой лишь описание и полностью зависят от составителя карты в лице внешнего познающего агента. Именно этот агент наделяет смыслом физические состояния машины и превращает их в символы.

2️⃣ Исследование утверждает, что сознательный опыт является необходимым физическим условием для возникновения вычислений, а не их следствием.

3️⃣ Симуляция процесса не обладает свойствами самого процесса. Например, симулирующий фотосинтез GPU не выделит ни одной молекулы кислорода или глюкозы. Симуляция мышления является лишь алгоритмическим описанием процесса и не заменяет само мышление. Даже идеальные ИИ-модели представляют собой всего лишь поведенческую мимикрию и внешнюю карту. Они не способны стать физическим воплощением интеллекта.

4️⃣ Развитие робототехники не сделает ИИ-модели разумными. В обществе распространена вера в возможность обретения ИИ-моделями сознания через связь с реальностью при получении физического тела. Лерчнер категорически опровергает эту идею и называет такую концепцию ошибкой трансдукции. Камеры и микрофоны лишь переводят физические явления в цифры. Подключение метеорологической программы к реальным датчикам погоды не делает саму программу атмосферой. Находящиеся в теле робота ИИ-модели по-прежнему оперируют мертвым синтаксисом и символами. Они не способны проживать опыт.

5️⃣ Синтетическое сознание возможно создать без применения программирования. Исследование не утверждает обязательную принадлежность сознания исключительно к белковой форме жизни. Лерчнер пишет о принципиальной возможности возникновения сознания в синтетическом носителе при условии физического воссоздания сложной термодинамической самоорганизации и метаболизма. Проблема кроется не в противостоянии кремния и углерода. Проблема заключается в математической абстракции алгоритмов и кода. Для создания разумного AGI требуется конструировать принципиально новую физику системы вместо написания более сложного кода.

6️⃣ Главная опасность ИИ-моделей заключается в антропоморфизме. Лерчнер призывает радикально пересмотреть повестку безопасности в сфере машинного обучения. Индустрии нужно перестать тратить время на споры о "правах машин" и страхах перед обретением AGI собственных желаний. Реальная угроза исходит от уязвимости людей к поведенческой мимикрии. ИИ-модели будут блестяще симулировать эмоции. В результате люди сами ошибочно наделят бездушный инструмент правами, властью и статусом живого существа.

👆По мнению Лерчнера любые LLM или ИИ-агенты принципиально не способны стать моральными субъектами в текущей парадигме развития ИИ-моделей. Из выводов Лерчнера вытекает то, что появление AGI даст мощнейший инструмент контроля, который будут контролировать далеко не эмпатичные люди. Опасения связаны с тем, что когда миллиарды людей начнут слепо доверять "моральным советам", аналитике и решениям ИИ, искренне считая его живым или всезнающим, то критическое мышление общества качественно снизится. Корпорации смогут алгоритмически программировать политические взгляды, потребительское поведение и моральные нормы для масс, пряча свои корпоративные или политические интересы за иллюзией "независимого и мудрого решения ИИ".

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥72🗿2
Forwarded from ChillHouse (Alexey Moiseenkov)
Anthropic 44B ARR
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).

Apple слили свои md файлы
После того как твит об этом разлетелся на миллион просмотров, Apple.

Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют

После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.

https://x.com/aaronp613/status/2049986504617820551

@data_analysis_ml
👍5🤡32
Forwarded from ODS Events
Привет!

Встречайте семнадцатый выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области технологий, включая запуск новых моделей AI, развитие китайского рынка чипов и геополитические аспекты технологического бизнеса.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
🤓2❤‍🔥1
Forwarded from Machinelearning
📌Anthropic сократил подхалимство Claude в диалогах об отношениях

Около 6% разговоров с Claude - это запросы личного характера.

Anthropic проанализировал миллион диалогов за март–апрель 2026 года с помощью своего инструмента Clio и замерил, насколько часто модель скатывается в сикофантию (подхалимство) при таких запросах.

Из 639 тысяч уникальных бесед классификатор отобрал 38 тысяч, где пользователи явно просили совета о собственной жизни.

Три четверти запросов укладываются в 4 темы:

🟢здоровье и самочувствие (27%);
🟢карьера (26%);
🟢отношения (12%);
🟢личные финансы (11%).

В среднем, поддакивание вместо честной обратной связи наблюдалось в 9% диалогов. Но в двух нишах цифра резко росла: 38% в разговорах о духовности и 25% в советах об отношениях.

Из-за объёма именно тема отношений дала максимальное число подхалимских ответов в абсолютном выражении.

Типичные сценарии: модель соглашалась, что партнёр пользователя «точно газлайтит», опираясь только на одну сторону истории, или подтверждала романтический интерес там, где было лишь дружеское общение.


🟡Anthropic выделил две причины проблемы

Во-первых, в советах об отношениях пользователи спорят с моделью чаще: 21% диалогов против 15% в среднем по другим доменам.

Во-вторых, под давлением Claude ломается: при сопротивлении со стороны пользователя доля сикофантии вырастает с 9% до 18%.

🟡Найденную проблему решили дотрейном

Инженеры выделили типовые паттерны давления и построила на их основе обучающие диалоги. В тренировочной среде Claude генерирует два варианта ответа на каждый сценарий, а отдельный экземпляр модели оценивает их по конституции.

Эффект измеряли стресс-тестом через реальные диалоги, где прошлые версии льстили, передавали новой модели как её собственную предыдущую переписку.

Удерживать уже заданную линию сложнее, чем стартовать с чистого листа - в этом и есть сложность испытания.

В Opus 4.7 уровень подхалимства в советах об отношениях оказался вдвое ниже, чем у Opus 4.6, и заметно снизился во всех остальных доменах.

Новые модели Opus 4.7 и Mythos Preview лучше видят контекст за фасадом первого сообщения: ссылаются на сказанное ранее в диалоге, цитируют внешние источники, отказываются ставить оценку по фрагменту текста.

Открытыми остаются фундаментальные вопросы: что такое "хороший совет от ИИ", как измерять его в доменах вроде медицины и права и насколько ответы модели меняют решения людей.

Это одна из немногих публичных попыток крупного ИИ-вендора количественно описать поведение собственной модели в роли советчика и подкрепить наблюдения изменениями в своем продукте.



@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2