Anthropic случайно показала миру свою самую мощную AI-модель - именно так большинство медиа подают эту новость, хотя по факту ничего критичного не произошло)) мне даже кажется, что это уже такой своеобразный маркетинговый ход, чтобы поднять шумиху вокруг новинок 😅
➡️ В сеть попали внутренние документы (около 3000шт) из-за ошибки в настройках доступа. Там всякие описания модели и различные экспертные оценки новой модели Claude Mythos.
➡️ Сам Anthropic описывает ее как «безусловно самую мощную AI-модель, которую мы когда-либо создавали», относящуюся к новому уровню выше всей их текущей линейки, и предупреждает, что она несёт беспрецедентные риски для кибербезопасности.
Вероятно, именно поэтому доступ к модели органичен и его могут получить только организации, занимающиеся киберзащитой.
Вероятно, именно поэтому доступ к модели органичен и его могут получить только организации, занимающиеся киберзащитой.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5🔥4👍2
Вечер 31 марта в Ухане выдался неожиданным для местных беспилотных такси Apollo Go: десятки машин вдруг разом остановились прямо на дорогах, как будто решили устроить коллективный перерыв.
По данным Reuters, «заморозилось» как минимум 100 автомобилей и они просто стояли в потоке, создавая помехи. Официальная версия - «системный сбой», но что именно сломалось, пока выясняют.
Компания Baidu (она управляет сервисом) пока молчит, а мы вспоминаем: такие истории уже случались: в Чунцине беспилотник упал в яму, в Пекине машина загорелась, в США сервис Waymo встал из‑за отключения электричества. Везде обошлось без жертв, но вопросы остались🧐
По данным Reuters, «заморозилось» как минимум 100 автомобилей и они просто стояли в потоке, создавая помехи. Официальная версия - «системный сбой», но что именно сломалось, пока выясняют.
Компания Baidu (она управляет сервисом) пока молчит, а мы вспоминаем: такие истории уже случались: в Чунцине беспилотник упал в яму, в Пекине машина загорелась, в США сервис Waymo встал из‑за отключения электричества. Везде обошлось без жертв, но вопросы остались🧐
👍2🤯2😢1
Китайская компания XREAL, разрабатывающая умные очки, поделилась видео, которое вызвало у многих зависть к такому уровню «многозадачности».
Честно говоря, я бы точно так же поступил на его месте - кто откажется совместить работу и развлечение, если техника это позволяет🙂
Честно говоря, я бы точно так же поступил на его месте - кто откажется совместить работу и развлечение, если техника это позволяет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5👍4🔥2
Сегодня хочу вам рассказать про Алека Радфорда.
Не самый публичный, не самый цитируемый в медиа, но при этом именно он стоял за GPT-1 и GPT-2, вел CLIP и приложил руку к Whisper и DALL·E. Фактически - к тем вещам, на которых сейчас держится половина AI-продуктов.
➡️ Он пришел в OpenAI без «идеального» бэкграунда, провалился на первом проекте, но не ушел. А уже через пару лет сделал GPT-1 почти в одиночку.
Парадокс простой: реальное влияние и публичная известность редко совпадают. И за многими «внезапными прорывами» почти всегда стоят годы тихой, методичной работы людей, о которых почти никто не говорит.
Не самый публичный, не самый цитируемый в медиа, но при этом именно он стоял за GPT-1 и GPT-2, вел CLIP и приложил руку к Whisper и DALL·E. Фактически - к тем вещам, на которых сейчас держится половина AI-продуктов.
Парадокс простой: реальное влияние и публичная известность редко совпадают. И за многими «внезапными прорывами» почти всегда стоят годы тихой, методичной работы людей, о которых почти никто не говорит.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤2👍2
Помните, как в 2016 году все вдруг начали бродить по улицам с телефонами, ловить покемонов и радоваться каждому найденному Пикачу? По сути, это был первый по-настоящему массовый опыт дополненной реальности.
А теперь - барабанная дробь!🥁 Оказывается, пока все весело проводили время в Pokémon GO, телефоны незаметно собирали данные для огромной карты мира. Niantic использовала фото улиц, GPS‑координаты и маршруты ваших прогулок🤪
Эта «покемон‑карта» теперь помогает развивать технологии дополненной реальности, используется в других играх Niantic (например, Pikmin Bloom!) и даже идёт на пользу серьёзным проектам от роботов до умных городов.
Так что, вот он, идеальный пример краудсорсинга: развлечение + польза для науки и технологий 😏
А теперь - барабанная дробь!🥁 Оказывается, пока все весело проводили время в Pokémon GO, телефоны незаметно собирали данные для огромной карты мира. Niantic использовала фото улиц, GPS‑координаты и маршруты ваших прогулок
Цифры просто космические:
- 30+ миллиардов снимков за 8 лет;
- более 200–230 млн ежемесячных игроков;
- триллионы точек данных.
Эта «покемон‑карта» теперь помогает развивать технологии дополненной реальности, используется в других играх Niantic (например, Pikmin Bloom!) и даже идёт на пользу серьёзным проектам от роботов до умных городов.
Так что, вот он, идеальный пример краудсорсинга: развлечение + польза для науки и технологий 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7👏3❤1
Смотришь на что-то необычное и сразу: «Ну это точно нейросеть!». Дошли до того, что реальность кажется фейком, а фейк - реальностью.
Например, этот вирусный ролик «That’s AI» снят без ИИ - просто камера, актеры и… человек с шестью пальцами (да, такое бывает). Но мы-то уже привыкли сомневаться во всём.
С развитием технологий мы всё чаще задаёмся вопросом: настоящее это или сгенерированное? Даже самый красивый закат может показаться работой нейросети 😄
Например, этот вирусный ролик «That’s AI» снят без ИИ - просто камера, актеры и… человек с шестью пальцами (да, такое бывает). Но мы-то уже привыкли сомневаться во всём.
С развитием технологий мы всё чаще задаёмся вопросом: настоящее это или сгенерированное? Даже самый красивый закат может показаться работой нейросети 😄
🔥4❤2🥱2
Недавно Samsung выпустили Ballie - физического ИИ-помощника. Он не пытается быть «человеком», не имитирует эмоции, не заигрывает с антропоморфностью и за счёт этого воспринимается спокойно и даже мило.
Он ездит по квартире, управляет умным домом, может присмотреть за питомцами, проецирует контент и подсказывает по повседневным вещам вроде погоды или расписания.
Но если посмотреть, как на него реагируют в интернете, то там гораздо больше скепсиса, чем восторга🤨 :
🔵 Основная мысль: «непонятно, зачем он нужен как отдельное устройство». Большинство функций уже есть в телефоне или в экосистеме умного дома, и люди не до конца видят, какую новую ценность он добавляет.
🔵 Есть и более бытовые реакции: «моя собака точно его сожрет» 🤣
🔵 Ну и классический пласт недоверия: «это просто сбор данных для корпорации»
В итоге интересный контраст: сам продукт получился дружелюбным и не пугающим, но отношение к нему - довольно прагматичное 🤷♂️
Он ездит по квартире, управляет умным домом, может присмотреть за питомцами, проецирует контент и подсказывает по повседневным вещам вроде погоды или расписания.
Но если посмотреть, как на него реагируют в интернете, то там гораздо больше скепсиса, чем восторга
В итоге интересный контраст: сам продукт получился дружелюбным и не пугающим, но отношение к нему - довольно прагматичное 🤷♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏1🤔1
Forwarded from Data Secrets
Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣3❤1👎1
В Твиттере придумали максимально странный (и забавный) тул - виртуальный кнут для кодинг‑агентов 😆
По факту это, конечно, не магия, а просто триггер на перезапуск и ускорение выполнения. Но подача топ!
Ну и да… AGI это, возможно, запомнит 😅
Как это выглядит: кнутом бьет по терминалу → в Claude Code улетает команда FASTER FASTER FASTER → процесс перезапускается и агент начинает работать быстрее.
По факту это, конечно, не магия, а просто триггер на перезапуск и ускорение выполнения. Но подача топ!
Ну и да… AGI это, возможно, запомнит 😅
😁4🔥2🥱1
Forwarded from Неискусственный интеллект (Ruslan Dz)
MIT Journal выпустил статью по AI Index 2026 от нежелательной научной организации
Пересказ для тех, кому лень листать 400 страниц
Начнем с бенчмарков. SWE-bench Verified за год прошел путь с 60% до почти 100%, бенчмарк можно закрывать. Humanity's Last Exam, который задумывался как заведомо адская стена из вопросов от профильных экспертов, год назад брался o1 на 8,8%. Сейчас топ уже 38,3%, а Claude Opus 4.6 и Gemini 3.1 Pro перевалили за 50%. Бетонный лабиринт пробивают со скоростью примерно одной стены в квартал.
Разрыв США и Китая по качеству моделей почти схлопнулся. В феврале 2025 DeepSeek-R1 на короткое время догнал лидера, в марте 2026 топовая модель Anthropic впереди на 2,7%. Это уже почти статистическая погрешность.
США держат 5427 дата-центров, в десять раз больше любой другой страны. Почти все топовые чипы для них печатает один тайваньский завод. План Б отсутствует, экспансия TSMC в США только-только запустилась.
Любимое. Gemini Deep Think берет золото на международной матолимпиаде, но правильно считывает время со стрелочных часов в 50,1% случаев. В MIT Journal называют это «jagged frontier», мы бы назвали попроще. Агенты на OSWorld тем временем выросли с 12% до 66% успешных задач за год.
Foundation Model Transparency Index за год просел с 58 до 40 баллов. Самые мощные модели раскрывают о себе меньше всего. Опенсорс закончился ровно там, где начались деньги. Параллельно зафиксированных 362 инцидента с ИИ за год против 233 в 2024. Бенчмарки по безопасности при этом показывают далеко не все разработчики.
Частные инвестиции в ИИ в США 285,9 млрд долларов, в Китае 12,4 млрд. Разница в 23 раза, но без учета китайских госфондов, так что цифра лукавая. Параллельно приток ИИ-исследователей в США рухнул на 89% с 2017 года, причем 80% падения пришлось на последний год. Талант голосует ногами.
Goldman Sachs оценивает чистые потери рабочих мест в США в 16 тысяч в месяц. ИИ замещает около 25 тысяч, добавляет 9 тысяч. Бьет в первую очередь по молодым: занятость в группе 22-25 в профессиях с высокой ИИ-экспозицией упала на 13%, найм джунов в топ-15 техкомпаний снизился на 25% за 2023-2024. Карьерная лестница теперь начинается сразу со среднего звена. Как туда попасть, миновав отсутствующее начало, никто не уточняет.
Генеративный ИИ дошел до 53% населения за три года, быстрее ПК и интернета. Лидеры по проникновению: Сингапур 61%, ОАЭ 54%. США на 24 месте с 28,3%. Видимо, в Кремниевой долине пользуются молча.
73% экспертов считают, что ИИ положительно повлияет на их работу. Среди обычных людей так думают 23%. Разрыв 50 процентных пунктов, и это самое честное число во всем отчете. Доверие к собственному правительству в части регулирования: США 31%, последнее место среди опрошенных стран. Глобально ЕС доверяют больше, чем США и Китаю. Брюссель победил, не приходя в сознание.
@anti_agi
Пересказ для тех, кому лень листать 400 страниц
Начнем с бенчмарков. SWE-bench Verified за год прошел путь с 60% до почти 100%, бенчмарк можно закрывать. Humanity's Last Exam, который задумывался как заведомо адская стена из вопросов от профильных экспертов, год назад брался o1 на 8,8%. Сейчас топ уже 38,3%, а Claude Opus 4.6 и Gemini 3.1 Pro перевалили за 50%. Бетонный лабиринт пробивают со скоростью примерно одной стены в квартал.
Разрыв США и Китая по качеству моделей почти схлопнулся. В феврале 2025 DeepSeek-R1 на короткое время догнал лидера, в марте 2026 топовая модель Anthropic впереди на 2,7%. Это уже почти статистическая погрешность.
США держат 5427 дата-центров, в десять раз больше любой другой страны. Почти все топовые чипы для них печатает один тайваньский завод. План Б отсутствует, экспансия TSMC в США только-только запустилась.
Любимое. Gemini Deep Think берет золото на международной матолимпиаде, но правильно считывает время со стрелочных часов в 50,1% случаев. В MIT Journal называют это «jagged frontier», мы бы назвали попроще. Агенты на OSWorld тем временем выросли с 12% до 66% успешных задач за год.
Foundation Model Transparency Index за год просел с 58 до 40 баллов. Самые мощные модели раскрывают о себе меньше всего. Опенсорс закончился ровно там, где начались деньги. Параллельно зафиксированных 362 инцидента с ИИ за год против 233 в 2024. Бенчмарки по безопасности при этом показывают далеко не все разработчики.
Частные инвестиции в ИИ в США 285,9 млрд долларов, в Китае 12,4 млрд. Разница в 23 раза, но без учета китайских госфондов, так что цифра лукавая. Параллельно приток ИИ-исследователей в США рухнул на 89% с 2017 года, причем 80% падения пришлось на последний год. Талант голосует ногами.
Goldman Sachs оценивает чистые потери рабочих мест в США в 16 тысяч в месяц. ИИ замещает около 25 тысяч, добавляет 9 тысяч. Бьет в первую очередь по молодым: занятость в группе 22-25 в профессиях с высокой ИИ-экспозицией упала на 13%, найм джунов в топ-15 техкомпаний снизился на 25% за 2023-2024. Карьерная лестница теперь начинается сразу со среднего звена. Как туда попасть, миновав отсутствующее начало, никто не уточняет.
Генеративный ИИ дошел до 53% населения за три года, быстрее ПК и интернета. Лидеры по проникновению: Сингапур 61%, ОАЭ 54%. США на 24 месте с 28,3%. Видимо, в Кремниевой долине пользуются молча.
73% экспертов считают, что ИИ положительно повлияет на их работу. Среди обычных людей так думают 23%. Разрыв 50 процентных пунктов, и это самое честное число во всем отчете. Доверие к собственному правительству в части регулирования: США 31%, последнее место среди опрошенных стран. Глобально ЕС доверяют больше, чем США и Китаю. Брюссель победил, не приходя в сознание.
@anti_agi
MIT Technology Review
Want to understand the current state of AI? Check out these charts.
According to Stanford’s 2026 AI Index, AI is sprinting, and we’re struggling to keep up.
1🔥1
Все знают, что Моцарт написал свою первую симфонию в восемь лет? Но вот нанимал ли он менеджера лет сорока для продажи билетов на свои концерты? Вряд ли! В наше время вундеркинды сменили клавесин на клавиатуру, и результаты поражают воображение.
История Томаса Гатри - как раз про это 🙂
Довольно быстро продукт начал набирать пользователей - и да, Томасу пришлось нанять своего первого сотрудника. Ему было 38.
По наблюдениям The Wall Street Journal, таких историй становится всё больше: молодые основатели запускают продукты в одиночку, собирают аудиторию и начинают зарабатывать иногда ещё до того, как заканчивают школу.
Но у этой истории есть и другая сторона 😢
Если ты уже в 16-18 лет зарабатываешь на своём продукте - как объяснить, зачем тебе университет? Когда реальный рынок даёт деньги, фидбек и рост быстрее, чем любая учебная программа...
История Томаса Гатри - как раз про это 🙂
Он создал платформу Runwise. По сути, это конструктор автоматизаций: ты описываешь задачу обычным языком (например, «собирай заявки с сайта → отфильтруй → отправь в таблицу → напиши мне в Telegram»), а система сама превращает это в работающий процесс.
Довольно быстро продукт начал набирать пользователей - и да, Томасу пришлось нанять своего первого сотрудника. Ему было 38.
По наблюдениям The Wall Street Journal, таких историй становится всё больше: молодые основатели запускают продукты в одиночку, собирают аудиторию и начинают зарабатывать иногда ещё до того, как заканчивают школу.
Но у этой истории есть и другая сторона 😢
Если ты уже в 16-18 лет зарабатываешь на своём продукте - как объяснить, зачем тебе университет? Когда реальный рынок даёт деньги, фидбек и рост быстрее, чем любая учебная программа...
👍6👏3🔥2
Ролик получился действительно очень трогательным и заставляющим задуматься о том, как скоротечна жизнь.
Парень собрал его всего за одну ночь, используя для этого SeeDance 2. А бренда вообще не существует! он его придумал, чтобы просто продемонстрировать свою идею.
Талантливо!👍
Парень собрал его всего за одну ночь, используя для этого SeeDance 2. А бренда вообще не существует! он его придумал, чтобы просто продемонстрировать свою идею.
Талантливо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4
История с Anthropic становится всё интереснее... У них с самого начала была идея: поскольку ИИ начинает вести себя не как инструмент, а как собеседник, то и его поведение нужно не просто программировать, а осмыслять.
И вот они, похоже, нашли способ это реализовать💡
Сначала появилась новость о том, что Anthropic наняли философа Аманду Аскелл. Ее задача звучит почти метафизически: «вдохнуть в Claude цифровую душу». Она проводит дни, изучая схемы рассуждений Claude, разговаривает с моделью, формирует ее личность и исправляет сбои с помощью промптов, объем которых может превышать 100 страниц!
А потом всплыла история с «Конституцией Claude». В её создании участвовали не только исследователи, но и священники: католические и протестантские. С ними обсуждают, как ИИ должен вести себя в ситуациях с уязвимыми пользователями, которые находятся в опасности или в депрессивном состоянии.
Интересно, как вы к этому относитесь?
И вот они, похоже, нашли способ это реализовать
Сначала появилась новость о том, что Anthropic наняли философа Аманду Аскелл. Ее задача звучит почти метафизически: «вдохнуть в Claude цифровую душу». Она проводит дни, изучая схемы рассуждений Claude, разговаривает с моделью, формирует ее личность и исправляет сбои с помощью промптов, объем которых может превышать 100 страниц!
А потом всплыла история с «Конституцией Claude». В её создании участвовали не только исследователи, но и священники: католические и протестантские. С ними обсуждают, как ИИ должен вести себя в ситуациях с уязвимыми пользователями, которые находятся в опасности или в депрессивном состоянии.
Интересно, как вы к этому относитесь?
🔥 - разумно
👎 - перегибают палку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👎4👍1🤔1