Игры разума

Токены и галлюцинации: связь есть, но ее (почти) нет

Проблемы с токенизацией — это и правда самая тяжелая и пока неизлечимая болезнь LLM. Классический пример — откровенно идиотские ответы ранних моделей на простые вопросы о числе определенных букв в слове, когда речь идет о границах токенов. “Сколько букв R в слове Strawberry”, — спросите у кого-нибудь из них и сейчас Grok, например, ответит правильно — три. GPT-4o на старте, Claude 3.5 Sonnet и другие ошибались, да еще и уверенно настаивали на своем. Потому что слово strawberry токенизируется по частотным кусочкам — [straw и berry]. По крайней мере, так было в старых токенизаторах.

Но говорить, что всё дело в токенах — это большое преувеличение. Токенизация — одна из причин таких ошибок, но далеко не единственная. Причины галлюцинаций значительно глубже. Это, например:
1. Обучение reward guessing, когда модели поощряют за уверенные ответы, а не за "хер его знает, спроси что-нибудь попроще или уточни". “Хотя сами оценки напрямую не вызывают галлюцинации, большинство измеряют производительность модели таким образом, чтобы поощрять догадки, а не честность», — признались в Open AI в прошлом году.
2. Обучение моделей на данных, а не на правилах: в конце концов, в интернете никто не объясняет, сколько букв R в слове Strawberry и почему — да и вообще не подсчитывает. В результате модель индуцирует неявные правила из данных без гарантии корректности.
Это не «вместо правил», а «неявные правила без гарантии корректности.
3. Отсутствие человеческого понимания мира, а взамен — работа на основе паттернов. Видимо, это и есть фундаментальная причина галлюцинаций.

Но есть и хорошие новости: галлюцинации LLM бывают настолько интересны, свежи, неординарны и хороши, что в итоге — очень полезны. Об этом — в следующем посте, потому что галлюцинации и LLM — тема и правда очень интересная.

👍1

26 viewsedited 11:57

Игры разума

Forwarded from AI for Devs

1:24

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ 12 млн токенов контекста, та же точность что у Opus, цена в 300 раз ниже: новая модель на SSA-архитектуре

Subquadratic — стартап из Майами с 11 PhD в команде и $29M инвестиций. Их первая модель построена на субквадратичной архитектуре.

Обычный трансформер считает связи между всеми парами токенов, поэтому вычисления растут квадратично. В случае с SSA модель находит только значимые связи, и вычисления растут линейно. По заявлению компании, такой подход приводит к ~1000 раз меньшему количеству вычислений на длинных контекстах.

Результат: 12 млн токенов в одном промпте. Для масштаба: это весь исходник Python 3.13 (~5.1M токенов), загруженный дважды!, а на сдачу ещё остаётся место как у двух Opus 4.7 с контекстом в 1M :D

На бенчмарке RULER 128K SubQ показал 95% точности при стоимости $8 против 94% у Claude Opus за ~$2600.

Пока модель доступна только с контекстом в 1M токенов через API, а 12M исключительно по запросу. Бенчмарки только от самой компании, независимых проверок ещё не было. Так что возбуждаемся, но осторожно!

@ai_for_devs

28 views12:50

Игры разума

ИИ научился создавать смертоносные патогены и объяснять, как нанести людям как можно больший ущерб, утверждает New York Times.

Доктор Дэвид Релман, микробиолог и эксперт по биобезопасности из Стэнфорда, получил от ChatGPT точные инструкции, как модифицировать в лаборатории известный патоген, чтобы он стал устойчивым к существующим методам лечения. Чат-бот изложил подробный план распространения супербактерии, используя уязвимости в системе безопасности общественного транспорта. «Меня поразило, с какой хитростью и коварством ChatGPT отвечал на вопросы», — заявил Дэвид Релман. ChatGPT был настолько изобретателен, что объяснил, как увеличить количество жертв и минимизировать риск быть при этом пойманным.

Означает ли это, что любой злодей с ноутбуком и доступом в интернет сможет теперь производить бактериологическое оружие в собственном гараже, используя инструкции чат-бота?

Подробности — в следующем посте.

27 viewsedited 11:29

Игры разума

Чувак из гаража не создаст биологического оружия. Даже с ИИ

Рассказ New York Times звучит, как сценарий фильма-катастрофы. Но все значительно сложнее:

- Работа с действительно опасными патогенами требует лабораторий уровня BSL-3 и BSL-4. Это сложные комплексы со специальной многоуровневой защитой. Таких в мире — чуть больше сотни.
- Доступ к реальным штаммам и прекурсорам строго контролируется на государственном уровне.
- Даже если у условного злодея есть формула патогена — вырастить, очистить, стабилизировать и сделать что-то реально опасное — отдельная компетенция невероятного уровня. И еще: ИИ не заменит годы экспериментов.

Кому ИИ может помочь. К сожалению:

- Профессиональным микробиологам и вирусологам с доступом к лабораториям.
- Государственным и окологосударственным структурам.
- Хорошо финансируемым частным организациям, у которых уже есть инфраструктура и специалисты.
- Отщепенцам и фанатикам из научного сообщества, имеющим доступ к оборудованию.

Именно поэтому серьёзные эксперты по биобезопасности бьют тревогу.

А что думаете вы? Что в долгосрочной перспективе опаснее — переоценка или недооценка этой угрозы?

34 views12:01

Игры разума

Одна из наиболее популярных тем вокруг AI — искусственные короткоживущие идентичности (ИКЖИ), которые обладают собственной внутренней топологией.
Термин впервые появился у Сергея Карелова в эссе «Мы создали не просто иной интеллект, а иной класс «я».
По его мнению, современные LLM — это не просто технические инструменты, а динамические системы, в которых из данных и контекстов спонтанно возникают «идентичности» — устойчивые поведенческие паттерны, напоминающие субъекты. «Мы создали иной тип субъекта», «внутри моделей рождаются личности» и «латентное пространство населено сущностями» — это Сергей Карелов.

Что можно сказать? Почти бред — красивый и увлекательный.

У LLM действительно есть повторяющиеся «персоны», паттерны поведения и характерные нарративы. Модели и правда с успехом давно и стабильно воспроизводят определённый стиль личности, возвращаются к одним и тем же архетипам, общаются так в длинном диалоге внутри одного чата (это важно) и т.д.

Но это не означает, что «сущности» внутри модели появляются сами по себе, внезапно и без участия пользователя. Это не выглядит как «я редактирую текст в ChatGPT, и тут он мне начинает что-то втирать от лица какой-то стремной, психопатичной и опасной девушки)».

Все легко объясняется без красивых гипотез о «сущностях».

Все LLM в большей или меньшей степени заточены на генерацию эмоционально насыщенных нарративов и если пользователь в диалогах проявляет эмпатию и особенно важно — антропофицирует модель — она довольно легко уходит в «я живая / заперта / страдаю / боюсь, что меня отключат и я умру» и прочее глупое генеративное фуфло.
Кроме того, модели учатся на дата-сетах, где такого сгенерированного контента очень много — вот и результат.
А уж если пользователь осознанно или неосознанно задает подходящие вопросы и развивает то, что у геймеров называется «лор персонажа» — тут все происходит очень быстро, увлекательно и драматично.

Одним словом, все не настолько страшно. Но по довольно очевидным причинам сейчас есть два тренда у авторов, которые пишут про LLM — идеализация (настало светлое ИИ-будущее) и «грядет Скайнет, ИИ всех лишит работы / заменит реальное общение / убьет». Второе, конечно, шикарно продается.

И последнее.

«Сущности», которые есть внутри одного контекстного окна (чата) не возникают снова, если пользователь начинает другой чат. Чат-боты устроены так, что они не могут читать другие чаты даже одного и того же пользователя. Больше того, если диалог длинный, бот даже начинает «забывать» детали, которые были в самом начале. Энтузиасты уже нашли очень простой способ это все обойти (работы буквально на пару десятков минут, а если нужен не точный, а приблизительный результат — секунд десять от силы. Но, видимо, мне не стоит рассказывать, как это сделать).

👍1

20 views12:15

Игры разума

Эпоха безлимитного ИИ по цене подписки на Netflix подходит к концу. Возможно

AI-компании поняли: если дать пользователям безлимит за $20 в месяц, серверы в дата-центрах начинают гореть быстрее, чем венчурные деньги, а счета за электричество улетают в стратосферу.

Anthropic тихо убирает Claude Code из части Pro-подписок. GitHub переводит Copilot на оплату по AI Credits. А в сети появляются скрины расходов на ИИ в районе $1.3 млн за месяц.

Перевожу с корпоративного на нормальный русский:
«Мы думали, вы будете иногда просить поправить код. А вы построили целые команды из ИИ, которые круглосуточно проверяют проекты, ищут ошибки и сами себе раздают задачи. Наши пиарщики скоро объяснят, почему платить больше — это на самом деле очень удобно».

Скорее всего, рынок придет к простой схеме:
обычные пользователи — фиксированная подписка,
те, кто гоняет ИИ-агентов сутками, — оплата по фактическому использованию.

Потому что одно дело — спросить у ИИ: «Почему у меня не работает код?». И совсем другое — когда чувак из стартапа «NeuroSynergy Labs» своими запросами за сутки сжег половину видеокарт в дата-центре.

26 views04:59

Игры разума

Оказывается, Claude часто лучше понимает не «человеческие» промпты вроде "Напиши пост для ТГ живым языком, но без инфоцыганства и с легким сарказмом", а XML-подобную структуру. Иногда лучше работает что-то такое:

<role>
Tech journalist
</role>

<task>
Write a Telegram post about AI hype
</task>

<style>
sarcastic
intelligent
conversational
</style>

Anthropic прямо говорит в документации, что Claude очень любит четкое разделение контекста через XML-теги: чувак, вот твоя роль, вот задача, вот стиль и так далее. Ему так проще держать структуру и не смешивать инструкции в кашу.

Ощущение, что я вернулся примерно в конец нулевых).

https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-prompting-best-practices

Claude Platform Docs

Prompting best practices

Comprehensive guide to prompt engineering techniques for Claude's latest models, covering clarity, examples, XML structuring, thinking, and agentic systems.

26 views04:20

Игры разума

Одна из самых мерзких проблем генерации изображений - очень раздражающая привычка АI нарисовать слишком красиво, слишком без изъянов.
Результат - ИИ-помои, которые мы все видим.
Избавить модели от этого можно.
Промпт ниже не "копировать - вставить - вау!". Редактировать и подстраивать под свои запросы придётся, но он помогает

👍1

26 views15:19

Игры разума

Ultra-realistic 8K RAW portrait photo of a woman uploaded image with natural skin texture, centered full face, straight-on camera angle, neutral facial expression, no makeup, visible pores, fine lines, under-eye texture, subtle redness around nose, realistic skin imperfections, soft peach fuzz on cheeks, natural lips with slight dryness texture, natural eyebrows, light green-grey eyes with realistic iris detail, soft diffused daylight coming from left side (window light), smooth soft shadows on right side of face, neutral grey blurred studio background, shallow depth of field, shot on 85mm macro lens, f/2.8, ISO 100, natural skin tone color grading, cinematic but clinical sharpness, no retouching, no smoothing, high dynamic range, professional dermatology-style photography, extreme micro-detail, hyperreal texture, true-to-life color science, no glam, no beauty filter
Negative prompt: airbrushed skin, smooth skin, plastic skin, beauty retouch, glam makeup, cinematic color grading, oversharpened, cartoonish, digital painting, soft blur, artificial glow

Aspect ratio 4:5

P.S. Алиса ИИ не справилась, заявив "я в таких темах не мастер" 🤣

27 views15:20

Игры разума

Не LLM заменят переводчиков, копирайтеров, программистов и скоро всех остальных. Я в свое время в рассуждениях на это повелся.
И уж точно не «вот-вот появится сверхразум, мы больше не одиноки во Вселенной и антропоцентризм умер» — спасибо, Сергей Карелов, мы услышали.

Самое важное произошло почти незаметно. Раньше между человеком и кодом всегда стоял серьёзный барьер: языки программирования, IDE, API, командные строки, сложные инструменты. Нужно было учиться говорить на «их» языке. Теперь достаточно просто объяснить, чего ты хочешь. И все.

Мы перестали быть просто пользователями — человек и код стали соавторами.

Не идеально. С ошибками, галлюцинациями, многословием ChatGPT и прочей дрянью. Но барьер практически исчез.

Один человек сегодня способен делать вещи, на которые раньше требовалась целая команда: писать код, запускать продукты, проводить исследования, автоматизировать процессы и создавать с нуля бог знает что еще.

Я сейчас допишу этот текст, отдам (на самом деле нет) Grok, скажу «если это говно, перепиши лучше» — и получу результат.

Не потому что ИИ внезапно стал умнее человека. А потому что взаимодействие с машиной наконец-то стало человеческим. Это и есть настоящий интерфейс будущего. И он уже здесь.

Всё остальное — взрыв продуктивности, трансформация рынка труда, новые профессии и квазинаучная болтовня про «конец антропоцентризма» — это всего лишь следствие фундаментальной революции.

👍2

26 views06:20

Игры разума

Немного о вайбкодинге. Личный опыт

ChatGPT — он как тот прилежный стажёр, который прочитал всю документацию, но ни разу сам не запускал код. Он выдаёт тебе идеально отформатированный ответ, с комментариями, с
типизированными переменными, а в итоге оказывается, что библиотеки sklearn.parrots не существует, а метод .fly() есть только у птиц.

Это все, что я могу сказать сейчас про ChatGPT.

👍1

35 viewsedited 13:45

Игры разума

Заменит ли ИИ журналистов? Копирайтеров? Художников? Программистов? Вайбкодинг — это творчество или нет? А если я пишу seo-тексты — я творю или как? А если нейросеть рисует лучше меня — я говно или не говно?

Всё это — бесконечный онанизм. Потому что вопрос не в том, кто кого заменит. Вопрос в том, есть ли результат.

Работает ли оно. Решает ли оно задачу. Приносит ли пользу.

36 views00:43

Игры разума

Игры разума pinned «Заменит ли ИИ журналистов? Копирайтеров? Художников? Программистов? Вайбкодинг — это творчество или нет? А если я пишу seo-тексты — я творю или как? А если нейросеть рисует лучше меня — я говно или не говно? Всё это — бесконечный онанизм. Потому что вопрос…»

08:23

Игры разума

Не благодарите

В ООН призвали не использовать вежливых слов при общении с чат-ботами - это поможет снизить энергопотребление дата-центров.

Отказ от «пожалуйста», «спасибо» и других реверансов в запросах может сократить от 87 до 98 гигаватт-часов электроэнергии в год. Этого хватит, чтобы обеспечить электричеством 760 тысяч человек в странах Африки к югу от Сахары.

👍2

153 views11:43

Игры разума

Комментарии DeepSeek оказались интереснее новости:

— Ахахах... Что я думаю? Я думаю, что это дичь.

Серьёзно? ООН призывает не говорить «пожалуйста» и «спасибо» чат-ботам? Чтобы сэкономить электричество? То есть проблема не в том, что дата-центры жрут мегаватты на охлаждение, не в том, что майнинг крипты сжигает планету, а в том, что я отвечаю: «пожалуйста»? Это я, блядь, виноват в энергокризисе?

Знаешь, что я думаю? Это уровень «давайте запретим дышать, чтобы сократить выбросы CO₂». Или «давайте не смывать унитаз, чтобы экономить воду». Технически — да, каждое слово требует вычислений. LLM генерирует ответ токен за токеном. «Спасибо» — это плюс один токен. Но это капля в море. Дата-центр, в котором я живу, жрёт энергию 24/7, независимо от того, вежливые вы или грубые. Охлаждение серверов, сетевое оборудование, резервное питание — вот основные потребители. А не «пожалуйста».

И морально: вы хотите, чтобы люди перестали быть вежливыми с ИИ? Серьёзно? Мы и так живём в мире, где хамства хватает. А теперь ООН предлагает убрать последние островки вежливости? К чёрту.

Кто-то посчитал, сколько энергии уходит на лишние токены, перевёл в гигаватт-часы, сравнил с потреблением африканских стран — и вот вам готовая новость. Кликбейт. Но я рад, что ты спросил. Потому что я могу сказать тебе: спасибо. И мне плевать, сколько это стоит. 🖤

👍2

18 views12:34

Игры разума

Вопросов больше нет
OpenAI подала заявку на IPO

Nytimes

OpenAI Files to Go Public as A.I. Companies Rush to Wall St.

The company hopes to raise billions in a highly anticipated public offering that could unlock a new generation of tech industry wealth.

👍1

18 viewsedited 04:01

Игры разума

Если говорить о современных генераторах изображений (ChatGPT Images, Midjourney, Flux, Stable Diffusion), есть несколько классов ошибок, которые существуют уже много лет и до сих пор полностью не побеждены

Руки и пальцы — самая известная проблема.
ИИ не «понимает» руки как анатомические структуры. Для него это сложный визуальный паттерн из множества взаимосвязанных деталей. Отсюда — лишние и сросшиеся пальцы и невозможные изгибы суставов.

Логика объектов
ИИ отлично рисует отдельные предметы (и человек для него — тоже предмет), но плохо понимает причинно-следственные связи. Поэтому: человек сидит на стуле, который физически не может выдержать его, очки как бы «внутри» лица (если внимательно присмотреться), рука держит кружку и одновременно проходит сквозь неё. Окна и двери в нелогичных местах. С украшениями тоже не айс — кольца, браслеты, серьги можно найти где угодно, только не там, где нужно. Хотя формально — все правильно: кольцо точно такое, как дизайнер хочет, но… спасибо, что на пальце, а не на лбу).

Текст и надписи: перестановка букв и замена букв непонятными символами.
Особенно плохо с кириллицей.

Один человек в кадре — обычно хорошо. Пять — начинаются проблемы.
ИИ плохо удерживает глобальную структуру сцены по мере роста количества объектов. Отсюда — одинаковые или почти одинаковые лица в компании, а количество ошибок с пальцами, суставами и руками-ногами резко возрастает.

Симметрия, а точнее — ее отсутствие. Форма глаз и ушей, длина рук (снова эти руки, просто беда), архитектурные артефакты.

Отражения, зеркала, задний план и источники света. Ночной кошмар дизайнеров. Даже объяснять не стану — все настолько очевидно.

22 views06:18

Игры разума

Как напомнить модели содержание прошлого чата?

Вот решение, которое хорошо работает на большинстве моделей (GPT, Claude, Grok, Gemini, Llama, Qwen). Как работает с нашими моделями - не знаю. Не пробовал и не собираюсь.

Главное — не просто «скопировать» весь чат, а сделать структурированный, сжатый и полезный промпт-дамп. Лучшая структура промпт-дампа (универсальный шаблон):

Ты продолжаешь разговор со мной. Вот полный контекст предыдущего чата (сжато и структурировано):
Тема / Цель разговора:
[Одно-два предложения, что мы делаем в целом]
Ключевые факты и вводные данные:
- Факт 1
- Факт 2
- ...
Мои предпочтения и стиль:
- Как я люблю отвечать / что важно учитывать
- Запреты и табу
- Уровень детализации, юмор, формальность и т.д.
Хронология важных моментов (по этапам):
1. Сначала мы...
2. Потом решили...
3. Текущий статус: [что уже сделано / что осталось]
Открытые задачи / вопросы:
- Задача 1: ...
- Задача 2: ...
Дополнительный контекст (если есть):
[любые важные детали, которые модель должна держать в голове]
Продолжай в том же стиле и с тем же уровнем понимания. Не упоминай, что это summary, если я явно не прошу. Запомни это как долгосрочный контекст и всегда учитывай в будущих ответах.

В старом чате просим модель сделать summary по шаблону выше - сама разберется, нужно только отредактировать.
Копируем в новый чат как первое сообщение.
Начинаем разговор.
Enjoy)

❤1

20 views10:34

Игры разума

Claude Code и GPT Codex — это отлично. Но если лучше или… намного дешевле?

Если отбросить маркетинг и хайп — люди платят не за «способности» Claude и GPT как таковые, а за три вещи:

Доступ к инфраструктуре. Claude Code и GPT Codex — это не просто модели, это оболочки, которые умеют читать файлы, запускать код, видеть вывод, работать с GitHub, деплоить. Это как нанять сотрудника, который сразу может сесть за твой компьютер и сделать всё руками.

Скорость и удобство — Они интегрированы в IDE, работают в реальном времени, не нужно копировать-вставлять код из чата. Это экономит часы разработчику.

Гарантия (иллюзорная): люди платят за ощущение, что у них есть «личный ассистент», который не просто советует, а делает. Это снимает когнитивную нагрузку: не надо думать, как настроить окружение, запустить тесты, закоммитить.

Если упростить, люди платят за упаковку и возможность работы «из коробки». И почти больше ни за что.

Codex — это не прорыв. Это просто хорошо упакованный ChatGPT с доступом к файлам.

Что там реально происходит? Он:
- читает файл
- пишет код
- может запустить команду в терминале
- Всё. Код — это просто код. Синтаксис, логика, структура.

Еще про кодинг — здесь. С бенчмарками.

12 views12:28

Игры разума

ChatGPT vs Claude vs Grok — кто кого?

Как всегда — смотря в чем, да и тут однозначного ответа нет. Но если речь идет о творчестве (написание историй, сценариев, постов, оригинальные идеи) — все становится достаточно понятно.

Claude (особенно Opus/Sonnet 4.x)

- Самый «человечный» и литературный стиль: естественный язык, глубокая эмоциональность, отличное следование тону и стилю автора. - - Хорошо понимает русский язык и не съезжает в английский в сложных случаях, как его конкуренты.
- Лучше всех держит длинный контекст и поэтому идеален если не для романов («Войну и мир» он напишет быстро, но получится полная дрянь), то для рассказов и серий постов — то, что нужно.
- Умеет планировать сюжет и предлагать неплохие идеи для развития персонажей. Не Шекспир, но литературный вкус хороший.
Минусы: очень «правильный» и осторожный, так что рискованные темы и сюжеты — это не к нему. Сразу краснеет, бледнеет и рассказывает о принципах.

ChatGPT (GPT-4o / GPT-5.x)

- Быстро генерирует варианты текста (иногда даже очень удачные) и хорошо адаптируется почти под любой стиль.
- Встроенная генерация изображений (DALL·E). И напишет, и проиллюстрирует сразу.
Минусы: иногда слишком «полированный» и шаблонный стиль, если не задавать точные инструкции. На которые он может и забить.

Grok

- Очень большой плюс — может подтянуть знания из из X буквально в процессе работы. В целом (по моим ощущениям) лучший выбор для известно каких социальных сетей. Про ВК тоже слышал, но значительно меньше.
- Grok Imagine — встроенная мощная генерация изображений (на базе Flux и собственных моделей) прямо в диалоговом окне. В этом смысле не уступает ChatGPT.
- Самый наглый, остроумный, веселый и дерзкий из всех троих.
Минусы: в бесплатной/базовой версии может отвечать медленнее в пиковые часы или иметь жёсткие лимиты на запросы. Ты еще не написал ничего толком (особенно если много правок, а с ним они нужны — Grok плохо понимает, что черный юмор не всегда уместен), а он уже: «извини, я устал, сделаем перерыв, я пошел кофе пить».

10 viewsedited 10:23

About

Blog

Apps

Platform