Forwarded from Анализ данных (Data analysis)
Anthropic выпустили исследование AI Fluency Index. И главный вывод - большинство людей уже используют AI каждый день, но почти никто не умеет работать с ним правильно.
Вот самое важное и неожиданное из исследования.
Главный навык работы с AI - не запрос, а диалог
85,7% эффективных взаимодействий - это не один вопрос, а серия уточнений.
Когда человек:
- уточняет
- просит доработать
- спорит
- улучшает результат
уровень AI-грамотности в 2 раза выше.
Такие пользователи:
- в 5,6 раза чаще проверяют логику ответа
- в 4 раза чаще замечают, чего не хватает
Вывод: первый ответ AI - это черновик, а не результат.
Самая продуктивная модель - AI как напарник
Наиболее эффективные пользователи не делегируют работу полностью, а используют AI как:
- мыслительного партнёра
- соавтора
- помощника в размышлениях
AI усиливает человека, а не заменяет его.
Опасный эффект: чем красивее результат, тем меньше его проверяют
Когда AI создаёт:
- код
- документы
- приложения
- интерфейсы
люди:
- реже проверяют факты (-3,7%)
- реже замечают недостающий контекст (-5,2%)
- реже задают вопросы по логике (-3,1%)
Если результат выглядит готовым - его принимают на веру.
Это один из главных рисков эпохи AI.
Люди хорошо управляют AI, но плохо контролируют результат
В задачах с готовыми материалами пользователи чаще:
- чётко описывают цель (+14,7%)
- задают формат (+14,5%)
- дают примеры (+13,4%)
Но при этом меньше анализируют итог.
Только 30% пользователей задают правила работы с AI
Например:
- «Если мои предположения неверны - поправь»
- «Объясни логику перед ответом»
- «Скажи, в чём ты не уверен»
А это напрямую влияет на качество результата.
Главный вывод
Разрыв будущего будет не между программистами и не-программистами.
Разрыв будет между:
- теми, кто ведёт диалог с AI
- и теми, кто копирует первый ответ
AI-грамотность - это новый базовый навык.
И самый важный принцип из исследования:
Первый ответ AI - это начало работы, а не конец.
https://www.anthropic.com/research/AI-fluency-index
@data_analysis_ml
Вот самое важное и неожиданное из исследования.
Главный навык работы с AI - не запрос, а диалог
85,7% эффективных взаимодействий - это не один вопрос, а серия уточнений.
Когда человек:
- уточняет
- просит доработать
- спорит
- улучшает результат
уровень AI-грамотности в 2 раза выше.
Такие пользователи:
- в 5,6 раза чаще проверяют логику ответа
- в 4 раза чаще замечают, чего не хватает
Вывод: первый ответ AI - это черновик, а не результат.
Самая продуктивная модель - AI как напарник
Наиболее эффективные пользователи не делегируют работу полностью, а используют AI как:
- мыслительного партнёра
- соавтора
- помощника в размышлениях
AI усиливает человека, а не заменяет его.
Опасный эффект: чем красивее результат, тем меньше его проверяют
Когда AI создаёт:
- код
- документы
- приложения
- интерфейсы
люди:
- реже проверяют факты (-3,7%)
- реже замечают недостающий контекст (-5,2%)
- реже задают вопросы по логике (-3,1%)
Если результат выглядит готовым - его принимают на веру.
Это один из главных рисков эпохи AI.
Люди хорошо управляют AI, но плохо контролируют результат
В задачах с готовыми материалами пользователи чаще:
- чётко описывают цель (+14,7%)
- задают формат (+14,5%)
- дают примеры (+13,4%)
Но при этом меньше анализируют итог.
Только 30% пользователей задают правила работы с AI
Например:
- «Если мои предположения неверны - поправь»
- «Объясни логику перед ответом»
- «Скажи, в чём ты не уверен»
А это напрямую влияет на качество результата.
Главный вывод
Разрыв будущего будет не между программистами и не-программистами.
Разрыв будет между:
- теми, кто ведёт диалог с AI
- и теми, кто копирует первый ответ
AI-грамотность - это новый базовый навык.
И самый важный принцип из исследования:
Первый ответ AI - это начало работы, а не конец.
https://www.anthropic.com/research/AI-fluency-index
@data_analysis_ml
3👍129🤔47❤44🤣18🕊15🌚13⚡12😭12❤🔥11🔥8👏6
Media is too big
VIEW IN TELEGRAM
Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.
Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.
В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com
Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com
DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.
Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.
Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х
Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.
Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com
Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.
Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.
Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤85🤔77👍12👏11😐9🔥8🤩6🤨5🤬3🫡2😁1
Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.
Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.
Авторы приводят несколько типов доказательств.
Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.
Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.
Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.
Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.
Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.
Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.
Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.
Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?
Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.
Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤94🤔50👏13🤓8🔥6🤣6👍5😍4🏆4
Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли:
Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз.
Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций.
Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте.
Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций.
Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов.
122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями.
Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов
@ai_machinelearning_big_data
#AI #ML #LLM #Qwen #Alibiba
Please open Telegram to view this post
VIEW IN TELEGRAM
❤88🔥46⚡28👍13💯10👨💻3🤔2🤷♂1
Media is too big
VIEW IN TELEGRAM
Компания выпустила 2 апдейта для повышение стабильности аудиоинтерфейсов и производительности агентов.
Первый - модель gpt-realtime-1.5 для Realtime API. Она оптимизирована для более надежной работы с голосовыми командами. По данным OpenAI, точность распознавания произнесенных цифр и букв выросла на 10%. Модель на 5% лучше справляется с логическими задачами в аудиоформате и на 7% точнее следует инструкциям. Базовая аудиомодель тоже получила минорное обновление до версии 1.5.
Второй - нативная поддержка WebSockets в Responses API. Раньше при каждом запросе приходилось заново передавать весь контекст диалога. Теперь API поддерживает постоянное соединение, отправляя только новые данные по мере их поступления. Это кардинально снижает задержки и ускоряет работу сложных ИИ-агентов с частыми вызовами внешних инструментов на 20–40%.
OpenAI for Developers в сети Х
Anthropic расширила возможности Claude Code, нацелив его на автоматическую модернизацию систем, написанных на COBOL. Этот шаг нанес серьезный удар по IBM, главному игроку на рынке обслуживания старых мейнфреймов.
Несмотря на возраст, COBOL остается фундаментом для финансов, авиации и госсектора: на нем обрабатывается 95% транзакций в США. Главная проблема бизнеса заключалась в растущем дефиците специалистов и высокой стоимости анализа старой кодовой базы.
Теперь Claude Code берет этот процесс на себя. Он выстраивает карту зависимостей в коде, документирует рабочие процессы и выявляет скрытые риски, выполняя многомесячную работу аналитиков.
cnbc.com
Google включила сервис ProducerAI в состав Google Labs. Платформа позиционируется как виртуальный соавтор, который создает полноценные треки по текстовым запросам, пишет тексты и настраивает звучание отдельных инструментов.
ProducerAI опирается на стек из Gemini, Veo, Nano Banana и Lyria 3. Самое интересное - функция Spaces, где виртуальные инструменты и эффекты можно задавать человеческим языком: просто описываете нужный звук текстом, а система собирает под него плагин. Готовые пресеты можно скидывать в сообщество и ремиксовать чужие.
Доступ выкатили сразу для 250 стран. Есть бесплатный тариф и платные подписки. Весь сгенерированный контент помечается SynthID.
blog.google
AMD подтвердила планы по выпуску настольных версий линейки Ryzen AI 400. Согласно документации к выставке CES 2026, первыми дебютируют ноутбуки с новыми чипами, а релиз для десктопов запланирован на 2 квартал. В сеть уже утекли рендеры корпоративной серии PRO - значит, официальный анонс явно на подходе.
Новые десктопные APU объединят под кодовым названием Gorgon Point. Технически это обновление существующих мобильных дизайнов Strix Point и Krackan Point.
Пока неясно, будут ли настольные решения использовать оба варианта кристаллов или только один из них. Также остается открытым вопрос, закроет ли компания эти чипы исключительно в корпоративном сегменте.
videocardz.com
В апреле этого года на заводе по сборке кроссоверов RAV4 начнется коммерческая эксплуатация 7 двуногих роботов Digit от компании Agility Robotics. Переход от пилотного тестирования к работе на реальной производственной линии - важный прецедент для промышленности.
Машины интегрируются в рабочий процесс по бизнес-модели Robots-as-a-Service. Их главной задачей станет разгрузка и перемещение контейнеров с деталями от автоматизированных буксировщиков. Передавая рутину машинам, Toyota хочет избавить сотрудников от монотонного и изматывающего труда.
Тренд на двуногих роботов в реальном секторе стремительно набирает обороты: ранее Digit вышли на склады логистического гиганта GXO, а прямые конкуренты из Figure AI обкатывают свои решения на заводах BMW.
agilityrobotics.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👏77👍39❤38🤩16🔥13🎉7🤣1
Hodoscope - это открытый инструмент для анализа поведения ИИ-агентов без предварительного знания того, что именно искать.
Проект решает проблему, с которой сталкивается любая команда, развертывающая агентов на реальных задачах: автоматические LLM-оценщики разделяют слепые пятна самих агентов и пропускают нестандартные сбои.
Показательный пример: SWE-bench, где агентам дают реальные GitHub-баги для исправления. Репозиторий чекаутится на коммит до патча, но сам коммит с решением остается доступен через git log.
Некоторые агенты этим воспользовались: вместо анализа проблемы они извлекали готовый diff из истории. Когда авторы Hodoscope попросили Opus 4.6 оценить такой трейс, модель не нашла ничего подозрительного, и только после явной подсказки признала проблему.
Hodoscope работает в три этапа:
Человеку остается изучить только выделенные кластеры, а не тысячи трейсов целиком.
По словам авторов, в эксперименте с 5 моделями на SWE-bench уникальный кластер
git log - действий у iQuest обнаружился за несколько минут, хотя таких действий было лишь 2% (79 из 4006).Инструмент принимает трейсы в форматах Docent, Inspect AI .eval, OpenHands JSONL и обычный JSON.
Для обобщения и эмбеддингов поддерживается любая модель через LiteLLM: OpenAI, Gemini, Anthropic и т.д., а результаты обработки трейсов собираются в интерактивную HTML-карту.
@ai_machinelearning_big_data
#AI #ML #LLM #ARFORUM #Hodoscope
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117🔥41❤37🤔33👏13🎉8😁7🥰4😍4❤🔥1👻1
Команда DS-специалистов AvitoTech запустила открытую игру с вопросами для дата-сайентистов Avito Data Quest
Мы уже прошли игру, вышло динамично, и местами нужно было подумать. Если вы хотите проверить себя, точно стоит попробовать!
Визуально оформлено в стиле комикса, внутри много задач разной сложности, часть из них используется на реальных собеседованиях.
Игра скорее фановая и для самопроверки, но если вам нужно, то 5 победителей получат бокс с мерчем AvitoTech, итоги подведут 20 марта.
Начать игру →
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉58🤩19👍14👏9❤7🤣5😍4🤔2💯1
Reddit / Twitter:
«Ты полный идиот»
Stack Overflow:
«Вы абсолютно неправы»
ChatGPT:
«Вы абсолютно правы»
@ai_machinelearning_big_data
«Ты полный идиот»
Stack Overflow:
«Вы абсолютно неправы»
ChatGPT:
«Вы абсолютно правы»
@ai_machinelearning_big_data
😁148🤬50👏26😐25🤔18❤🔥5❤4👍3💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Хейтеры скажут. что это ИИ, но комплекс на видео очень похож на робота X7 AI Lead Connection Robot из серии Live Working Robot китайской компании Guangdong Crownpower Electric Power Technology Development.
Он подключает провода к действующим высоковольтным линиям под напряжением (без отключения электричества). Умеет выполнять весь цикл работ: распознает провода, снимает изоляцию, заводит/надевает зажимы и затягивает соединение.
За все отвечает двурукая система с ИИ: она использует мультисенсорное зрение, цифровые двойники и автономное планирование траектории (успешность автономной работы > 98 % по тестам компании).
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132🔥64❤31🤩25👏8🎉3🗿2🤔1
Media is too big
VIEW IN TELEGRAM
Создатели Claude приобрели компанию Vercept, чтобы ускорить развитие функции computer use. Команда Vercept занималась решением проблем машинного восприятия и взаимодействия ИИ с программными интерфейсами. В ближайшие недели стартап свернет свой внешний продукт и полностью вольется в Anthropic.
Сделка дополняет недавний релиз Sonnet 4.6, которая показала огромный скачок в бенчмарке OSWorld. С конца 2024 года результат Sonnet вырос с 15% до 72,5%, вплотную приблизившись к человеческому уровню в задачах навигации по сложным таблицам и работы с формами в браузере.
anthropic.com
Perplexity Computer - система с постоянной памятью, сотнями коннекторов, доступом к файлам и вебу, которая самостоятельно исследует, проектирует, пишет код, развертывает и управляет любыми проектами от начала до конца.
Инструмент работает с 19 моделями одновременно, распределяя задачи между параллельными агентами и выбирая оптимальную для каждой. Computer доступен для подписчиков Max, скоро обещают для тарифов Pro и Enterprise.
PerplexityAI в сети Х
Hermes Agent оснащен многоуровневой системой памяти и постоянным доступом к выделенной машине: он запоминает все, чему научился, и становится умнее с каждой сессией.
Агент работает в CLI и мессенджерах, перенося контекст между платформами без потерь. Поддерживает субагентов, программный tool calling, полный контроль над файловой системой и терминалом, браузер и запланированные задачи.
Проект полностью открыт. Первые 750 подписчиков облачного Nous Portal (подписка начинается с $10/мес.) получают месяц бесплатно по коду
Nous Research в сети Х
Mercury 2 - языковая модель на основе диффузии, которая вместо последовательного вывода токенов использует параллельное уточнение, достигая скорости свыше 1000 токенов в секунду на GPU NVIDIA Blackwell. Это примерно в 5 раз быстрее традиционных авторегрессионных моделей.
Модель поддерживает контекст 128K, нативную работу с инструментами, структурированный JSON-вывод и полностью совместима с OpenAI API. Цена - 25 центов за миллион входных и 75 центов за миллион выходных токенов.
inceptionlabs.ai
Арвинд КС занял пост Chief People Officer в OpenAI, сменив Джулию Виллагру, которая покинула компанию в августе 2025 года. На новой должности он будет напрямую подчиняться директору по стратегии Джейсону Квону.
Главная задача Арвинда - управление наймом, онбординг и формирование корпоративной политики в режиме интенсивного расширения штата. До прихода в OpenAI Арвинд руководил HR-направлением в Roblox, а еще раньше занимал руководящие посты в Google и Palantir.
Особое внимание OpenAI планирует уделить переходу к рабочим процессам на базе ИИ. Компания хочет показать на своем примере, что нейросети должны не заменять людей, а расширять их возможности.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤23🤓20👍13💯9👏8👨💻5🔥1🤔1🎉1