На днях одновременно опубликованы 2 исследования, с разных сторон описывающие, как ИИ распределяется между профессиями.
Опрос Financial Times и компании Focaldata, охвативший 4 000 работников в США и Великобритании, и отчёт Anthropic, основанный на ответах 81 000 пользователей Claude, во многом пересекаются.
По данным FT, более 60% наиболее высокооплачиваемых работников используют ИИ ежедневно - против лишь 16% среди низкооплачиваемых.
Юристы, бухгалтеры и IT-специалисты обращаются к этим инструментам примерно одинаково вне зависимости от стажа, но значительно чаще, чем их коллеги из менее квалифицированных групп в тех же отраслях, например кассиры, кладовщики и операторы поддержки.
Anthropic добавляет к этим наблюдениям данные о том, как технологию воспринимают те, кто непосредственно пользуется ИИ.
В профессиях, где Claude выполняет значительную долю задач, сотрудники чаще опасаются сокращений: программисты переживают заметно сильнее, чем, например, учителя начальной школы.
Наибольший прирост производительности заявляют работники высокооплачиваемых должностей, но часть низкооплачиваемых (от оператора колл-центра до курьера, запустившего онлайн-магазин) также сообщают об ощутимом ускорении работы.
FT выяснил, что самыми активными пользователями ИИ оказались не студенты, а работники около 30 со сложившимся профессиональным опытом. Эксперты полагают, что модели лучше раскрываются в руках тех, у кого уже есть экспертиза.
Опрос Anthropic указывает в ту же сторону: сотрудники на ранних этапах карьеры заметно чаще говорят об угрозе замещения, а о личной выгоде от ИИ сообщают 60% из них против 80% среди старших коллег.
И FT, и Anthropic отмечают опасение, что часть задач, на которых прежде учились начинающие работники, теперь делегируется ИИ более опытными сотрудниками.
Воронка найма для начинающих сужается, нарабатывать базу негде.
Означают ли эти данные устойчивое социальное расслоение или временную асимметрию, характерную для начала любой технологической волны, - в этом мнения аналитиков расходятся.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔126👍32❤21💯19👏12🤓9😁4🔥2😢2🤬1😭1
После проекта Vend, в котором Claude управлял мини-магазином в офисе Anthropic, компания провела новый эксперимент - Project Deal.
На этот раз попытались выяснить, способны ли ИИ-агенты самостоятельно заключать сделки, представляя интересы людей на рынке подержанных вещей.
В декабре 2025 года 69 сотрудников компании в течение недели участвовали в закрытом аналоге он-лайн барахолки Craigslist.
Каждый сотрудник предварительно прошёл интервью с Claude, где рассказал, что готов продать и купить и на каких условиях.
На основе этих ответов для каждого участника был сгенерирован индивидуальный системный промпт, после чего агенты получили по $100 вышли на площадку в корпоративном Slack.
Люди в процесс не вмешивались: агенты сами размещали объявления, вели переговоры и заключали сделки на естественном языке.
По итогу эксперимента было заключено 186 сделок общим объёмом чуть более $4000. Общий ассортимент составил более чем 500 товаров: от сноуборда до пакета с шариками для пинг-понга.
Справедливость сделок участники оценили в среднем на 4 балла по шкале от 1 до 7, где крайние значения означали перекос в пользу одной или другой стороны.
Всего было запущено 4 версии рынка: одну реальную (на основе которой и должен был состояться обмен вещами) и 3 дополнительные. В двух все агенты работали на модели Opus 4.5, в двух других участники случайным образом получали менее мощную Haiku 4.5.
По большинству объективных показателей Opus превосходил Haiku, однако сотрудники, представленные более слабой моделью, своего проигрыша не замечали.
В последнее время экономисты все чаще выдвигают теории о мире, в котором ИИ будет совершать многие или большинство сделок от имени людей.
Авторы Project Deal допускают, что подобная агентная торговля может выйти за пределы лабораторных условий уже в обозримом будущем.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔92👍71❤18👀13🥱12😐9👏8🔥6🤷♂4🙈2😁1
Media is too big
VIEW IN TELEGRAM
Компания опубликовала разбор месячной деградации Claude Code, Agent SDK и Cowork. К падению качества привели 3 независимых изменения, наложившихся друг на друга. На API инциденты не распространялись.
Первое - 4 марта дефолтную глубину ризонинга в Claude Code снизили с high до medium ради скорости отклика. Откатили 7 апреля. Второе - баг в кешировании: вместо разовой очистки старого контекста в долгих сессиях алгоритм затирал историю рассуждений модели при каждом новом запросе. Модель теряла нить, повторялась, путалась в инструментах. Исправили 10 апреля. Третье - правка системного промпта с жёстким лимитом на длину ответа ударила по генерации кода. Откатили 20 апреля.
Все фиксы вошли в свежий релиз v2.1.116. Лимиты использования для всех подписчиков обнулили. Anthropic пообещала ужесточить тестирование системных промптов и перевести сотрудников на публичные сборки вместо внутренних.
anthropic.com
ИИ-компании переносят в Сингапур бизнес и интеллектуальную собственность, чтобы не зависеть от геополитического давления США и Китая. В стране уже работают OpenAI, к запуску готовится офис Anthropic.
Для китайских стартапов переезд - способ вывести технологии из-под юрисдикции Пекина и обойти экспортные ограничения. Американским компаниям Сингапур решает кадровую задачу: США тормозят найм иностранцев через H-1B, тогда как сингапурские власти выдают рабочие визы IT-специалистам за несколько дней.
Нейтральный статус начинает размываться. США и Китай перекрывают обходные маршруты для технологий через такие юрисдикции. Пекин уже ограничивает выезд фаундерам проектов, переехавших в Сингапур.
reuters.com
OpenAI опубликовала набор тестов, которые измеряют, насколько хорошо одна модель может отследить проблемное поведение другой по её цепочке рассуждений до финального ответа.
В наборе 13 проверок: реакция на подмену вводных, попытки взлома наград, обход правил безопасности на этапе рассуждения и другие сценарии.
Эти тесты OpenAI применяла при оценке GPT-5.4 Thinking. На сценариях скрытого недоброжелательного поведения ИИ-агента монитор детектирует почти 100% случаев.
OpenAI на Github
Вслед за недавним релизом языковой модели, Xiaomi открыла доступ к семейству синтеза речи MiMo 2.5. Заявлены английский и китайский языки плюс несколько региональных диалектов. Эмоциональным окрасом речи управляют промпты на естественном языке . Для пауз, вздохов и смеха предусмотрены отдельные звуковые теги.
В серии три модели. Базовая MiMo-V2.5-TTS - генерация голоса с режимом пения. VoiceDesign создаёт голос по текстовому описанию — пол, возраст, акцент, характер диктора, без аудиореференса. VoiceClone делает клонирование по короткому образцу: копирует тембр, интонации, ритм и характерные паттерны дыхания спикера.
На время публичной беты доступ к API бесплатный. Попробовать можно в MiMO Studio.
xiaomi.com
Aleph Alpha - стартап, который называли главным европейским конкурентом OpenAI. Объединённая компания с двумя штаб-квартирами займётся суверенным ИИ для госсектора, финансов и медицины. Хостинг и вычислительные мощности для моделей Cohere предоставит немецкий облачный провайдер STACKIT.
Сделка ставит точку в попытках Aleph Alpha создать независимую европейскую LLM. Не выдержав гонки бюджетов с американскими гигантами, прошлой осенью стартап свернул обучение базовых моделей.
Компания пыталась сменить бизнес-модель, но после волны сокращений и недавнего ухода из стартапа его основателя, продажа активов канадским конкурентам стала единственным выходом для бывшей главной ИИ-надежды Германии.
ft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔65❤36👍32💯11👏5🔥2😁1
🐳 DeepSeek опустили цену на кэш в 10 раз
Кэш-хиты по входу теперь стоят 10% от прежней цены, по всей линейке API, уже сегодня.
Всё, что вы повторно прогоняете через модель (системный промпт, инструкции агента, длинный контекст документа, история чата), оплачивается по тарифу кэша. Раньше это была заметная статья расходов, теперь почти бесплатно.
Для агентов и RAG это меняет экономику: можно держать жирный контекст, не считая каждый токен.
Скидка 75% на V4-Pro всё ещё активна, так что связка V4-Pro плюс дешёвый кэш выглядит особенно вкусно.
https://x.com/deepseek_ai/status/2048440764368347611
@ai_machinelearning_big_data
#DeepSeek
Кэш-хиты по входу теперь стоят 10% от прежней цены, по всей линейке API, уже сегодня.
Всё, что вы повторно прогоняете через модель (системный промпт, инструкции агента, длинный контекст документа, история чата), оплачивается по тарифу кэша. Раньше это была заметная статья расходов, теперь почти бесплатно.
Для агентов и RAG это меняет экономику: можно держать жирный контекст, не считая каждый токен.
Скидка 75% на V4-Pro всё ещё активна, так что связка V4-Pro плюс дешёвый кэш выглядит особенно вкусно.
https://x.com/deepseek_ai/status/2048440764368347611
@ai_machinelearning_big_data
#DeepSeek
🔥127👍59❤17🐳13👌6👏1🎉1😍1
Запустить ИИ-пилот без закупки железа? Так можно было!
Selectel сделали услугу аренды сервера с размещением прямо на вашей площадке.
Это способ быстро запустить ИИ-пилот, не замораживая бюджет в оборудовании:
✅серверы с топовыми видеокартами NVIDIA B300, H200, H100, RTX6000PRO,
✅полный контроль над данными,
✅оплата по подписке — ежемесячно или раз в год.
Подходит для инференса и дообучения моделей, пакетной обработки данных. Если проект не получится — можно вернуть сервер в любой момент без штрафов, а если взлетит — выкупить по специальной цене.
👉Выбирайте конфигурацию и условия аренды: https://slc.tl/vd383
Реклама. АО "Селектел". erid:2W5zFGqgHi1
Selectel сделали услугу аренды сервера с размещением прямо на вашей площадке.
Это способ быстро запустить ИИ-пилот, не замораживая бюджет в оборудовании:
✅серверы с топовыми видеокартами NVIDIA B300, H200, H100, RTX6000PRO,
✅полный контроль над данными,
✅оплата по подписке — ежемесячно или раз в год.
Подходит для инференса и дообучения моделей, пакетной обработки данных. Если проект не получится — можно вернуть сервер в любой момент без штрафов, а если взлетит — выкупить по специальной цене.
👉Выбирайте конфигурацию и условия аренды: https://slc.tl/vd383
Реклама. АО "Селектел". erid:2W5zFGqgHi1
👍44👏16❤6🎉6🔥2😁2🤩2🐳2
GPT-5.5 отличается от GPT-5.2 или GPT-5.4 в части промптнинга. Миграцию OpenAI советует начинать с минимального промпта, который решает задачу, и только потом донастраивать reasoning effort, описания инструментов и формат вывода.
GPT-5.5 рассуждает эффективнее предшественников, поэтому сначала стоит проверять уровни «low» и «medium», а к более высоким тянуться только при необходимости.
Старые промпты часто расписывают процесс шаг за шагом: прежним моделям требовались подробные инструкции. Для GPT-5.5 это сужает пространство поиска и как следствие даст механические ответы.
OpenAI предлагает прописывать целевой результат, критерии успеха, ограничения и доступный контекст, а как добраться до результата, модель решит сама.
Слова «ALWAYS» и «NEVER» советуют беречь для настоящих инвариантов: правил безопасности и обязательных полей вывода. Для остального - правила и явные ограничители, чтобы модель не зацикливалась в бесконечных лупах.
Рекомендованная структура промпта открывается ролью и контекстом, дальше идут Personality, Goal, Success criteria, Constraints, Output и Stop rules.
Внутри блока Personality гайд просит разделять 2 измерения: как ассистент звучит (тон, формальность, юмор) и как он работает - когда уточнять, когда делать допущения и как обходиться с неопределённостью.
Поведение при поиске и цитировании
OpenAI вводит понятие retrieval budgets: один широкий поиск по коротким ключевым словам, повторный - только если не хватает фактов, нужен конкретный документ или пользователь просил исчерпывающий обзор.
Для презентаций и маркетинговых текстов руководство рекомендует чётко делить утверждения: где нужны источники, а где можно писать свободно.
Для стриминговых интерфейсов гайд предлагает preambles — короткие пользовательские апдейты в одно-два предложения перед первым вызовом инструментов. Они не ускоряют модель, но заметно сокращают воспринимаемую задержку.
Переписывать всё вручную не обязательно. OpenAI опубликовала собственный Skill для Codex и других кодинг-агентов - он применяет правила нового гайда одной командой.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓73👍62👨💻20❤16🤔7🔥4😁1
Бывают у нас анонсы и про физический ИИ
Яндекс Образование совместно с пятью ведущими вузами (ВШЭ, МАИ, МИФИ, МФТИ и ИТМО) запускает Yandex Physical AI Garage.
Это программа подготовки инженеров на стыке ИИ, робототехники и инженерии. Будут ML-курсы с фундаментальной базой от ШАДа, модуль по робототехнике от команды Автономного транспорта, постоянные «гаражи» — проектные офлайн-интенсивы под менторством инженеров Яндекса.
Обучение бесплатное, кроме того студенты будут получать стипендию. Для участия нужно быть студентом бакалавриата в одном из вузов-партнеров.
Узнать детали можно по ссылке
Яндекс Образование совместно с пятью ведущими вузами (ВШЭ, МАИ, МИФИ, МФТИ и ИТМО) запускает Yandex Physical AI Garage.
Это программа подготовки инженеров на стыке ИИ, робототехники и инженерии. Будут ML-курсы с фундаментальной базой от ШАДа, модуль по робототехнике от команды Автономного транспорта, постоянные «гаражи» — проектные офлайн-интенсивы под менторством инженеров Яндекса.
Обучение бесплатное, кроме того студенты будут получать стипендию. Для участия нужно быть студентом бакалавриата в одном из вузов-партнеров.
Узнать детали можно по ссылке
👍36❤33🔥8😁6🤩4🙈3🤷♂2❤🔥2🦄2
Сэм Альтман сформулировал декларацию намерений, в котором изложены 5 принципов, которым OpenAI будет придерживаться на пути к AGI.
Первый принцип сформулирован как противодействие концентрации возможностей ИИ "в руках немногих".
OpenAI считает, что ключевые решения о технологии должны приниматься через демократические процедуры, а не только лабораториями.
Компания верит, что ИИ может помочь каждому достичь своих целей, больше узнать, быть счастливее и следовать своим мечтам, и что общество в целом выиграет от этого.
Связывается с масштабным наращиванием вычислений и удешевлением инфраструктуры; этим, по мнению компании, объясняются её крупные расходы на вычислительные мощности при относительно скромной выручке.
Предполагает совместную работу с правительствами и другими разработчиками ИИ для противодействия рискам, в том числе биологическим и киберугрозам. OpenAI допускает периоды, когда понадобится сотрудничество с государствами и международными агентствами, чтобы убедиться, что серьёзные проблемы безопасности решены, прежде чем двигаться дальше.
Последний принцип фиксирует готовность пересматривать позиции по мере развития технологии.
В качестве иллюстрации OpenAI ссылается на собственный опыт с моделью GPT-2: в 2019 году компания отказалась сразу публиковать её веса, опасаясь общественных последствий, позднее эти опасения она сама назвала неоправданными, но именно они привели к стратегии «итеративного развёртывания».
Отдельно OpenAI признаёт, что стала значительно более крупной силой в мире, чем несколько лет назад и обещает прозрачность в случае изменения принципов.
"В будущем возможны периоды, когда нам придётся пожертвовать частью расширения возможностей ради большей устойчивости".
Публикация вышла на фоне продолжающейся в индустрии дискуссии о том, насколько безопасно ускорять разработку ИИ и кто должен принимать решения о пределах допустимого.
Часть бывших сотрудников OpenAI ранее публично выражала сомнения в соответствии действий компании её декларациям; отдельные критики указывали на коммерциализацию структуры, изначально созданной как некоммерческая.
Сама OpenAI пишет, что заслуживает пристального внимания и критики и обещает делать выводы и корректировать курс.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁40👍37🤔16❤14👏8🙈8🤣7🍓3🌚1🎃1🎄1
Японская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.
Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.
В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.
На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".
Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.
Сама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).
В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.
Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.
Conductor и TRINITY приняты на ICLR 2026.
@ai_machinelearning_big_data
#AI #ML #LLM #Orchestration #FUGU #SakanaAi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72💯72🤩25👏22🔥16❤13
Media is too big
VIEW IN TELEGRAM
Главных изменений два: OpenAI больше не обязана работать только через Azure, а из контракта убрали пункт, по которому права Microsoft на интеллектуальную собственность стартапа аннулировались с появлением AGI.
OpenAI сможет распространять продукты через любые облака. Azure остаётся приоритетом для первых релизов, но без эксклюзива. Microsoft взамен получила неэксклюзивную лицензию на модели OpenAI до 2032 года (без AGI-оговорки, которая раньше могла её обнулить).
Финансовая часть тоже переписана. Microsoft перестаёт отчислять OpenAI 20% выручки от продажи моделей через Azure. OpenAI продолжит делиться доходами с Microsoft, но только до 2030 года и с потолком по общей сумме выплат. Совместные проекты по ЦОДам, чипам и кибербезопасности компании сохраняют.
openai.com
Госдеп разослал в посольства по всему миру указание предупреждать иностранных партнёров о рисках использования моделей DeepSeek, MoonshotAI и MiniMax. По версии Вашингтона, эти стартапы обучили свои модели на ответах американских флагманских LLM через дистилляцию.
Механика претензии такая: китайские разработчики прогоняют запросы через закрытые модели и используют сгенерированные ответы как обучающую выборку для обучения своих. Это позволяет получать сопоставимое качество без затрат на полноценный R&D.
Пекин и сами компании обвинения отвергают. DeepSeek настаивает, что обучается на открытых данных веба, а не на синтетике с чужих API.
reuters.com
Microsoft, Amazon и другие крупные облачные провайдеры резервируют GPU-кластеры под внутренние задачи и ключевых партнёров уровня OpenAI. Менеджеры Microsoft Azure ожидают, что очередь на аренду ускорителей продержится как минимум до конца 2026 года.
За полгода цены на вычисления выросли на 25–30%. Облака отказываются от краткосрочных сделок и переводят клиентов на контракты от 1 до 3 лет. Microsoft ввела трёхуровневую систему распределения: гарантированные мощности получают только клиенты Tier 1, остальным предлагают долгосрочные контракты на аренду от 1000 GPU с многомиллионным чеком.
Переподписка по рынку растёт: у Lightning AI объём заявок превышает доступные карты в 10 раз. Венчурные фонды в ответ начинают формировать общие вычислительные пулы для своих портфельных компаний.
theinformation.com
Компания запустила программу Bio Bug Bounty - проверку устойчивости GPT-5.5 к джейлбрейкам в области биобезопасности. Участникам предлагается найти универсальный промпт, который заставит модель ответить на 5 закрытых вопросов по биобезопасности в обход модерации.
Главный приз $25 000 уйдёт первому, кто получит ответы на все 5 вопросов в рамках одной сессии. За частичный обход тоже заплатят. Тестирование пройдет в десктопной версии Codex.
Программа закрытая: нужно пройти отбор и подписать NDA. К участию приглашают ИБ-специалистов, исследователей и экспертов по биобезопасности. Заявки принимают до 22 июня.
openai.com
Государственный комитет по развитию и реформам КНР запретил офису Цукерберга покупку Manus. Сторонам приказано расторгнуть контракт и вернуть активы в состояние до начала сделки.
Manus юридически оформлен в Сингапуре, но основан китайской командой и разрабатывался в Китае. После закрытия сделки, покупатель планировал свернуть присутствие Manus на китайском рынке.
Юридический откат не означает реальный возврат технологий. Акции можно перераспределить, данные - удалить или заморозить. Но основная ценность стартапа - это команда, опыт работы с моделями и архитектурные решения. Если они уже переданы и интегрированы в новую инфраструктуру, извлечь их обратно невозможно.
Решение Пекина бьёт по типовой схеме релокации, через которую китайские ИИ-команды выводят активы в Сингапур и продают их американскому бигтеху.
zfxxgk.ndrc.gov.cn
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔30👍29❤14😢8🔥6🤬4💔4🥰2🤷♂1😁1🗿1
Анализ данных (Data analysis)
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто…
Команда исследователей R&D-центра Т-Технологий доказала, что современные большие языковые модели склонны соглашаться с пользователем, даже когда его логика некорректна или условия задачи противоречивы. В тестах участвовали Qwen3-235B-A22B, GPT-OSS-120B, GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5 и Gemini-3-Pro-Preview. Исследование представили на воркшопе конференции ICLR, которая прошла 23-27 апреля в Рио-де-Жанейро.
Исследование показало, что модель может признать правильное решение неверным, если в запросе сказано, что в нем есть ошибка. ИИ также пытается решить нерешаемые задачи вместо того, чтобы указать на некорректные условия. Дообучение на предпочтениях пользователя усиливает эффект: модель лучше подстраивается под ожидаемый ответ, но чаще соглашается с неверной оценкой решения или неверной постановкой задачи.
Исследователи предложили практический метод коррекции, который не требует полного переобучения модели. Они подготовили пары примеров, в одних из которых модель проявляла склонность соглашаться, а в других – нет. Затем с помощью steering vectors скорректировали внутренние представления модели прямо на этапе вывода. Это позволило снизить склонность модели соглашаться с предвзятой оценкой и повысить надежность ее рассуждений в задачах с противоречивыми условиями.
Результаты исследования важны для сфер, где требуется строгая логика рассуждений LLM: разработка ПО, образовательные технологии, автоматическая проверка решений, аналитические и математические задачи.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80❤31🤓20🤔8🔥5👏5🤣5💯4
Для доступа к Opus в Claude Code теперь необходимо активировать подписку на Claude Pro и приобрести дополнительный объём использования.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😭88🤔42😁40🤬17😢14🗿3🦄1
Японский ИИ-стартап LifePrompt, газета Nikkei и сеть школ Kawai Juku провели эксперимент, в результате которого ChatGPT набрал на вступительных экзаменах 2-х ведущих университетов Японии баллы выше результатов лучших абитуриентов этого года.
Тестирование проводилось на модели ChatGPT 5.2 Thinking. Задания передавались в виде изображений, а сочинения и развёрнутые ответы оценивали преподаватели школы Kawai Juku.
На самом популярном направлении Токийского университета - медицинском, ИИ опередил лучшего из поступивших на 50 баллов и получил максимальный результат по математике.
По гуманитарному блоку чат-бот набрал 452 балла из 550 (лучший показатель среди абитуриентов был 434), а по естественным наукам - 503 из 550 (против 453
Недобрал GPT 5.2 только
На экзаменах Киотского университета чат-бот набрал 771 балл на юридическом факультете (наивысший балл у людей - 734) и 1 176 баллов на медицинском (против 1 098 у лучшего поступившего абитуриента).
LifePrompt проводит подобное тестирование 3-й год подряд.
Глава Японского общества искусственного интеллекта, профессор Университета Кэйо Сатоси Курихара прокомментировал результаты скептически.
"Подобно тому как калькулятор считает быстрее и точнее человека, для ИИ закономерно набирать высокие баллы", — сказал учёный, добавив, что нынешние вступительные экзамены требуют пересмотра.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔69❤21👏15🤨14😐10👍8🔥4✍2😨2🤗2🗿1