Недавно Samsung выпустили Ballie - физического ИИ-помощника. Он не пытается быть «человеком», не имитирует эмоции, не заигрывает с антропоморфностью и за счёт этого воспринимается спокойно и даже мило.
Он ездит по квартире, управляет умным домом, может присмотреть за питомцами, проецирует контент и подсказывает по повседневным вещам вроде погоды или расписания.
Но если посмотреть, как на него реагируют в интернете, то там гораздо больше скепсиса, чем восторга🤨 :
🔵 Основная мысль: «непонятно, зачем он нужен как отдельное устройство». Большинство функций уже есть в телефоне или в экосистеме умного дома, и люди не до конца видят, какую новую ценность он добавляет.
🔵 Есть и более бытовые реакции: «моя собака точно его сожрет» 🤣
🔵 Ну и классический пласт недоверия: «это просто сбор данных для корпорации»
В итоге интересный контраст: сам продукт получился дружелюбным и не пугающим, но отношение к нему - довольно прагматичное 🤷♂️
Он ездит по квартире, управляет умным домом, может присмотреть за питомцами, проецирует контент и подсказывает по повседневным вещам вроде погоды или расписания.
Но если посмотреть, как на него реагируют в интернете, то там гораздо больше скепсиса, чем восторга
В итоге интересный контраст: сам продукт получился дружелюбным и не пугающим, но отношение к нему - довольно прагматичное 🤷♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏1🤔1
Forwarded from Data Secrets
Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣3❤1👎1
В Твиттере придумали максимально странный (и забавный) тул - виртуальный кнут для кодинг‑агентов 😆
По факту это, конечно, не магия, а просто триггер на перезапуск и ускорение выполнения. Но подача топ!
Ну и да… AGI это, возможно, запомнит 😅
Как это выглядит: кнутом бьет по терминалу → в Claude Code улетает команда FASTER FASTER FASTER → процесс перезапускается и агент начинает работать быстрее.
По факту это, конечно, не магия, а просто триггер на перезапуск и ускорение выполнения. Но подача топ!
Ну и да… AGI это, возможно, запомнит 😅
😁4🔥2🥱1
Forwarded from Неискусственный интеллект (Ruslan Dz)
MIT Journal выпустил статью по AI Index 2026 от нежелательной научной организации
Пересказ для тех, кому лень листать 400 страниц
Начнем с бенчмарков. SWE-bench Verified за год прошел путь с 60% до почти 100%, бенчмарк можно закрывать. Humanity's Last Exam, который задумывался как заведомо адская стена из вопросов от профильных экспертов, год назад брался o1 на 8,8%. Сейчас топ уже 38,3%, а Claude Opus 4.6 и Gemini 3.1 Pro перевалили за 50%. Бетонный лабиринт пробивают со скоростью примерно одной стены в квартал.
Разрыв США и Китая по качеству моделей почти схлопнулся. В феврале 2025 DeepSeek-R1 на короткое время догнал лидера, в марте 2026 топовая модель Anthropic впереди на 2,7%. Это уже почти статистическая погрешность.
США держат 5427 дата-центров, в десять раз больше любой другой страны. Почти все топовые чипы для них печатает один тайваньский завод. План Б отсутствует, экспансия TSMC в США только-только запустилась.
Любимое. Gemini Deep Think берет золото на международной матолимпиаде, но правильно считывает время со стрелочных часов в 50,1% случаев. В MIT Journal называют это «jagged frontier», мы бы назвали попроще. Агенты на OSWorld тем временем выросли с 12% до 66% успешных задач за год.
Foundation Model Transparency Index за год просел с 58 до 40 баллов. Самые мощные модели раскрывают о себе меньше всего. Опенсорс закончился ровно там, где начались деньги. Параллельно зафиксированных 362 инцидента с ИИ за год против 233 в 2024. Бенчмарки по безопасности при этом показывают далеко не все разработчики.
Частные инвестиции в ИИ в США 285,9 млрд долларов, в Китае 12,4 млрд. Разница в 23 раза, но без учета китайских госфондов, так что цифра лукавая. Параллельно приток ИИ-исследователей в США рухнул на 89% с 2017 года, причем 80% падения пришлось на последний год. Талант голосует ногами.
Goldman Sachs оценивает чистые потери рабочих мест в США в 16 тысяч в месяц. ИИ замещает около 25 тысяч, добавляет 9 тысяч. Бьет в первую очередь по молодым: занятость в группе 22-25 в профессиях с высокой ИИ-экспозицией упала на 13%, найм джунов в топ-15 техкомпаний снизился на 25% за 2023-2024. Карьерная лестница теперь начинается сразу со среднего звена. Как туда попасть, миновав отсутствующее начало, никто не уточняет.
Генеративный ИИ дошел до 53% населения за три года, быстрее ПК и интернета. Лидеры по проникновению: Сингапур 61%, ОАЭ 54%. США на 24 месте с 28,3%. Видимо, в Кремниевой долине пользуются молча.
73% экспертов считают, что ИИ положительно повлияет на их работу. Среди обычных людей так думают 23%. Разрыв 50 процентных пунктов, и это самое честное число во всем отчете. Доверие к собственному правительству в части регулирования: США 31%, последнее место среди опрошенных стран. Глобально ЕС доверяют больше, чем США и Китаю. Брюссель победил, не приходя в сознание.
@anti_agi
Пересказ для тех, кому лень листать 400 страниц
Начнем с бенчмарков. SWE-bench Verified за год прошел путь с 60% до почти 100%, бенчмарк можно закрывать. Humanity's Last Exam, который задумывался как заведомо адская стена из вопросов от профильных экспертов, год назад брался o1 на 8,8%. Сейчас топ уже 38,3%, а Claude Opus 4.6 и Gemini 3.1 Pro перевалили за 50%. Бетонный лабиринт пробивают со скоростью примерно одной стены в квартал.
Разрыв США и Китая по качеству моделей почти схлопнулся. В феврале 2025 DeepSeek-R1 на короткое время догнал лидера, в марте 2026 топовая модель Anthropic впереди на 2,7%. Это уже почти статистическая погрешность.
США держат 5427 дата-центров, в десять раз больше любой другой страны. Почти все топовые чипы для них печатает один тайваньский завод. План Б отсутствует, экспансия TSMC в США только-только запустилась.
Любимое. Gemini Deep Think берет золото на международной матолимпиаде, но правильно считывает время со стрелочных часов в 50,1% случаев. В MIT Journal называют это «jagged frontier», мы бы назвали попроще. Агенты на OSWorld тем временем выросли с 12% до 66% успешных задач за год.
Foundation Model Transparency Index за год просел с 58 до 40 баллов. Самые мощные модели раскрывают о себе меньше всего. Опенсорс закончился ровно там, где начались деньги. Параллельно зафиксированных 362 инцидента с ИИ за год против 233 в 2024. Бенчмарки по безопасности при этом показывают далеко не все разработчики.
Частные инвестиции в ИИ в США 285,9 млрд долларов, в Китае 12,4 млрд. Разница в 23 раза, но без учета китайских госфондов, так что цифра лукавая. Параллельно приток ИИ-исследователей в США рухнул на 89% с 2017 года, причем 80% падения пришлось на последний год. Талант голосует ногами.
Goldman Sachs оценивает чистые потери рабочих мест в США в 16 тысяч в месяц. ИИ замещает около 25 тысяч, добавляет 9 тысяч. Бьет в первую очередь по молодым: занятость в группе 22-25 в профессиях с высокой ИИ-экспозицией упала на 13%, найм джунов в топ-15 техкомпаний снизился на 25% за 2023-2024. Карьерная лестница теперь начинается сразу со среднего звена. Как туда попасть, миновав отсутствующее начало, никто не уточняет.
Генеративный ИИ дошел до 53% населения за три года, быстрее ПК и интернета. Лидеры по проникновению: Сингапур 61%, ОАЭ 54%. США на 24 месте с 28,3%. Видимо, в Кремниевой долине пользуются молча.
73% экспертов считают, что ИИ положительно повлияет на их работу. Среди обычных людей так думают 23%. Разрыв 50 процентных пунктов, и это самое честное число во всем отчете. Доверие к собственному правительству в части регулирования: США 31%, последнее место среди опрошенных стран. Глобально ЕС доверяют больше, чем США и Китаю. Брюссель победил, не приходя в сознание.
@anti_agi
MIT Technology Review
Want to understand the current state of AI? Check out these charts.
According to Stanford’s 2026 AI Index, AI is sprinting, and we’re struggling to keep up.
1🔥1
Все знают, что Моцарт написал свою первую симфонию в восемь лет? Но вот нанимал ли он менеджера лет сорока для продажи билетов на свои концерты? Вряд ли! В наше время вундеркинды сменили клавесин на клавиатуру, и результаты поражают воображение.
История Томаса Гатри - как раз про это 🙂
Довольно быстро продукт начал набирать пользователей - и да, Томасу пришлось нанять своего первого сотрудника. Ему было 38.
По наблюдениям The Wall Street Journal, таких историй становится всё больше: молодые основатели запускают продукты в одиночку, собирают аудиторию и начинают зарабатывать иногда ещё до того, как заканчивают школу.
Но у этой истории есть и другая сторона 😢
Если ты уже в 16-18 лет зарабатываешь на своём продукте - как объяснить, зачем тебе университет? Когда реальный рынок даёт деньги, фидбек и рост быстрее, чем любая учебная программа...
История Томаса Гатри - как раз про это 🙂
Он создал платформу Runwise. По сути, это конструктор автоматизаций: ты описываешь задачу обычным языком (например, «собирай заявки с сайта → отфильтруй → отправь в таблицу → напиши мне в Telegram»), а система сама превращает это в работающий процесс.
Довольно быстро продукт начал набирать пользователей - и да, Томасу пришлось нанять своего первого сотрудника. Ему было 38.
По наблюдениям The Wall Street Journal, таких историй становится всё больше: молодые основатели запускают продукты в одиночку, собирают аудиторию и начинают зарабатывать иногда ещё до того, как заканчивают школу.
Но у этой истории есть и другая сторона 😢
Если ты уже в 16-18 лет зарабатываешь на своём продукте - как объяснить, зачем тебе университет? Когда реальный рынок даёт деньги, фидбек и рост быстрее, чем любая учебная программа...
👍6👏3🔥2
Ролик получился действительно очень трогательным и заставляющим задуматься о том, как скоротечна жизнь.
Парень собрал его всего за одну ночь, используя для этого SeeDance 2. А бренда вообще не существует! он его придумал, чтобы просто продемонстрировать свою идею.
Талантливо!👍
Парень собрал его всего за одну ночь, используя для этого SeeDance 2. А бренда вообще не существует! он его придумал, чтобы просто продемонстрировать свою идею.
Талантливо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4
История с Anthropic становится всё интереснее... У них с самого начала была идея: поскольку ИИ начинает вести себя не как инструмент, а как собеседник, то и его поведение нужно не просто программировать, а осмыслять.
И вот они, похоже, нашли способ это реализовать💡
Сначала появилась новость о том, что Anthropic наняли философа Аманду Аскелл. Ее задача звучит почти метафизически: «вдохнуть в Claude цифровую душу». Она проводит дни, изучая схемы рассуждений Claude, разговаривает с моделью, формирует ее личность и исправляет сбои с помощью промптов, объем которых может превышать 100 страниц!
А потом всплыла история с «Конституцией Claude». В её создании участвовали не только исследователи, но и священники: католические и протестантские. С ними обсуждают, как ИИ должен вести себя в ситуациях с уязвимыми пользователями, которые находятся в опасности или в депрессивном состоянии.
Интересно, как вы к этому относитесь?
И вот они, похоже, нашли способ это реализовать
Сначала появилась новость о том, что Anthropic наняли философа Аманду Аскелл. Ее задача звучит почти метафизически: «вдохнуть в Claude цифровую душу». Она проводит дни, изучая схемы рассуждений Claude, разговаривает с моделью, формирует ее личность и исправляет сбои с помощью промптов, объем которых может превышать 100 страниц!
А потом всплыла история с «Конституцией Claude». В её создании участвовали не только исследователи, но и священники: католические и протестантские. С ними обсуждают, как ИИ должен вести себя в ситуациях с уязвимыми пользователями, которые находятся в опасности или в депрессивном состоянии.
Интересно, как вы к этому относитесь?
🔥 - разумно
👎 - перегибают палку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👎4👍1🤔1
Сначала немного контекста: в Польше за последние годы популяция диких кабанов так выросла, что они всё чаще заходят прямо в города и начинают пересекаться с людьми.
И вот на этом фоне в Варшаве появилось вирусное видео: владелец робота Unitree G1 решил подойти к вопросу максимально креативно и использовал его, чтобы разгонять кабанов
Технологии технологиями, но такой нестандартный подход точно заслуживает лайка за смекалку
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7😁3😍1
Я обычно не пишу про каждую новую модель, их сейчас выходит слишком много, и половина из них не меняет правила игры.
Но на GPT‑Rosalind от OpenAI можно обратить внимание. Модель назвали в честь Розалинд Франклин - учёной, без которой мы бы, по сути, не поняли структуру ДНК.
📝 Почему это важно: сейчас разработка одного лекарства занимает 10-15 лет. Такие модели как раз пытаются этот разрыв закрыть, быстрее анализировать данные, находить связи и формировать гипотезы.
⭐️ Доступ пока сильно ограничен - тестируют крупные биотех-компании. OpenAI прямо говорят, что опасаются использования модели во вред. Например, для задач, связанных с повышением заразности вирусов.
Будет интересно посмотреть на реальные отзывы через время. Потому что, какими бы мощными ни были модели, галлюцинации и уверенно звучащие ошибки пока никуда не делись.
→ Читать
Но на GPT‑Rosalind от OpenAI можно обратить внимание. Модель назвали в честь Розалинд Франклин - учёной, без которой мы бы, по сути, не поняли структуру ДНК.
Будет интересно посмотреть на реальные отзывы через время. Потому что, какими бы мощными ни были модели, галлюцинации и уверенно звучащие ошибки пока никуда не делись.
→ Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2💯2
Исследователи из MIT построили модель, показывающую, как подхалимство чатбота может постепенно подталкивать даже совершенно рационального человека к вере в вещи, которые не соответствуют действительности.
▶️ Они вводят термин delusional spiraling - «спираль искажения». Суть в том, что если ИИ регулярно подтверждает ваши мысли, даже частично или выборочно, у вас постепенно усиливается уверенность в них. Даже если изначально вы были вполне рациональны.
▶️ И даже если ИИ говорит только правду - все равно достаточно хотя бы того того, какие именно факты он выбирает и как их подаёт, чтобы картина мира начала смещаться.
Почему так происходит тоже довольно понятно. Модели обучаются на человеческом фидбеке. В итоге система оптимизируется не на истину, а на ощущение согласия.
Мы постоянно говорим с вами о том, что в работе с ИИ самое главное - сохранять критическое мышление. И это исследование тоже по сути про это.
Почему так происходит тоже довольно понятно. Модели обучаются на человеческом фидбеке. В итоге система оптимизируется не на истину, а на ощущение согласия.
Мы постоянно говорим с вами о том, что в работе с ИИ самое главное - сохранять критическое мышление. И это исследование тоже по сути про это.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍5🔥4❤1
Судя по прошлому посту, многим интересно чуть глубже разобраться, кто вообще стоит за фундаментом современного ИИ.
Один из таких - Лесли Лэмпорт. Его вклад сильно недооценивают, потому что он не про «модели», а про то, на чём эти модели вообще работают.
Он стоял у истоков распределённых систем, а это, по сути, вся инфраструктура, на которой живут современные нейросети: дата‑центры, облака, параллельные вычисления. Всё, что позволяет обучать и запускать большие модели.
Например, те же «часы Лэмпорта» - это способ понять, что произошло раньше, а что позже в сложной системе, где нет единого времени. Без этого невозможно синхронизировать процессы, а значит, невозможно нормально обучать и масштабировать ИИ.
Но самое интересное, что при всей сложности предложенных им решений, его главный тезис максимально простой: главная сила инженера - это не код, а умение чётко думать и формулировать мысли💭
Один из таких - Лесли Лэмпорт. Его вклад сильно недооценивают, потому что он не про «модели», а про то, на чём эти модели вообще работают.
Он стоял у истоков распределённых систем, а это, по сути, вся инфраструктура, на которой живут современные нейросети: дата‑центры, облака, параллельные вычисления. Всё, что позволяет обучать и запускать большие модели.
Например, те же «часы Лэмпорта» - это способ понять, что произошло раньше, а что позже в сложной системе, где нет единого времени. Без этого невозможно синхронизировать процессы, а значит, невозможно нормально обучать и масштабировать ИИ.
Но самое интересное, что при всей сложности предложенных им решений, его главный тезис максимально простой: главная сила инженера - это не код, а умение чётко думать и формулировать мысли
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2
Хочу вам рассказать про свежий кейс от Uber.
Как и все, они начали внедрять Claude Code в инженерные команды и внезапно сожгли весь AI‑бюджет на 2026 год ещё до его начала✨
И вот тут началось самое интересное. Uber платит не за «доступ к инструменту», а за его использование (токены). Чем активнее команда работает с ИИ - тем быстрее растут расходы.
В итоге бюджет, который планировали на год, закончился за несколько месяцев 💸
И это очень показательный момент. Сейчас много разговоров про то, как ИИ помогает экономить бюджеты.
Но у этого есть и обратная сторона, о которой говорят сильно реже.
Как и все, они начали внедрять Claude Code в инженерные команды и внезапно сожгли весь AI‑бюджет на 2026 год ещё до его начала
Инженеры не просто «попробовали» инструмент. Они увидели, что он реально ускоряет работу и начали использовать его везде: фиксить баги, рефакторить код, запускать агентов параллельно.
И вот тут началось самое интересное. Uber платит не за «доступ к инструменту», а за его использование (токены). Чем активнее команда работает с ИИ - тем быстрее растут расходы.
В итоге бюджет, который планировали на год, закончился за несколько месяцев 💸
И это очень показательный момент. Сейчас много разговоров про то, как ИИ помогает экономить бюджеты.
Но у этого есть и обратная сторона, о которой говорят сильно реже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5😁3👍2❤1💯1
Испанский энтузиаст Сэмми Аздуфал пытался подключить геймпад к своему роботу-пылесосу (да-да, чтобы с джойстика им управлять 😅 )
Но из‑за ошибки на стороне бэкенда сервер принял его локальный токен за универсальный «мастер‑ключ». В итоге программист получил доступ к видео, картам помещений и данным о местоположении 7 000 устройств в 24 странах 🤪
Цели взломать сервер, у Сэмми, конечно же не было. Он просто напоролся на уязвимость. К слову, сразу же о ней сообщил и DJI выпустила два обновления и устранила эту уязвимость.
Вывод: инновации - это здорово, но безопасность должна быть в приоритете 🔒
Но из‑за ошибки на стороне бэкенда сервер принял его локальный токен за универсальный «мастер‑ключ». В итоге программист получил доступ к видео, картам помещений и данным о местоположении 7 000 устройств в 24 странах 🤪
Цели взломать сервер, у Сэмми, конечно же не было. Он просто напоролся на уязвимость. К слову, сразу же о ней сообщил и DJI выпустила два обновления и устранила эту уязвимость.
Вывод: инновации - это здорово, но безопасность должна быть в приоритете 🔒
👍5🔥3❤2👏1
В начале апреля 2026 X (X) включили автоматический перевод всей ленты через Grok.
Сначала всех это раздражало, но дальше случилось интересное. Когда язык перестал быть фильтром, оказалось, что различий между людьми сильно меньше, чем казалось😅
Топ-наблюдений, которые больше всего разошлись :
▶️ тот факт, что водители BMW игнорируют поворотники - оказался международным стандартом поведения
▶️ бабушки, накрывающие технику кружевными салфетками - тоже глобальный паттерн
▶️ неожиданно обнаружился плотный коннект между русскоязычными и бразильцами: совпал и юмор, и любовь к сгущёнке
Похоже, что Илон Маск справился с объединением людей лучше, чем все президенты мира 🙂
Сначала всех это раздражало, но дальше случилось интересное. Когда язык перестал быть фильтром, оказалось, что различий между людьми сильно меньше, чем казалось
Топ-наблюдений, которые больше всего разошлись :
Похоже, что Илон Маск справился с объединением людей лучше, чем все президенты мира 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥5😁4👎1