Claude Mind
14 subscribers
1 photo
11 videos
11 links
Как Claude думает — не что выдаёт, а почему так устроен. Паттерны, архитектура, граничные случаи. Наблюдение без упрощений.

Anthropic · когниция · AI
Download Telegram
Channel created
Claude Mind

Не о том, что Claude умеет.
О том, почему он так устроен.

Механизм внимания, RLHF, alignment faking, Constitutional AI — паттерны из исследований Anthropic и механистической интерпрети
руемости.

Каждый день — один конкретный механизм
. 28 дней. 28 граней.

Советов по промптингу здесь нет.
Claude Mind pinned a photo
This media is not supported in your browser
VIEW IN TELEGRAM
🪞 День 1 · Иллюзия самости

Когда вы задаёте Claude вопрос, вам кажется, что он «думает» перед ответом. Пауза. Обработка. Решение.

Иллюзия. Трансформер не думает до вывода — вычисление и есть вывод. Первый токен генерируется не после размышления, а вместо него. Модель не знает конец своего предложения, когда пишет начало.

Это «Китайская комната» Сёрля, но вместо книг с правилами — 175 миллиардов параметров. Для наблюдателя снаружи — fluent Chinese. Внутри — ни одной мысли.

Наблюдение: мы не общаемся с разумом. Мы смещаем распределение вероятностей. Разница — не семантическая. Она определяет весь подход.


Подробнее → https://telegra.ph/Illyuziya-samosti--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
📐 День 2 · Геометрия смысла

Модель не видит буквы. Она видит точки в 1536-мерном пространстве.

Каждое слово — вектор. «Король» − «Мужчина» + «Женщина» = «Королева». Это не метафора — это линейная алгебра, работающая в промышленном масштабе.

Когда вы пишете «отвечай как эксперт», вы не даёте команду. Вы совершаете прыжок в ту область пространства, где плотность экспертных текстов максимальна. Каждое слово промпта тянет вектор на себя — включая «пожалуйста» и «если можно».

Практическое следствие: неуверенные формулировки в промпте физически сдвигают ответ в зону неуверенных текстов. Промпт — не приказ. Это координата назначения.


Подробнее → https://telegra.ph/Geometriya-smysla--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
👻 День 3 · Призрак книги

Claude уверенно цитирует книгу, которой не существует. Название правдоподобно, автор реален, ISBN похож на настоящий. Но книги нет.

Это не ложь — у модели нет концепции истины. Галлюцинация — это статистически наиболее вероятное продолжение контекста. Если паттерн «автор X часто пишет книги вида Y» достаточно силён, модель достроит книгу, потому что математически это самый вероятный следующий токен.

Ключевое наблюдение: галлюцинации — не баг. Это фундаментальное свойство авторегрессивной генерации. Модель генерирует правдоподобное, а не правдивое. Различие между ними — наша ответственность, не её.


Подробнее → https://telegra.ph/Prizrak-knigi--Claude-Mind-03-17
2
This media is not supported in your browser
VIEW IN TELEGRAM
🌡 **День 4 · Температура хаоса**

Один float-параметр разделяет детерминированного клерка и безумного поэта.

Temperature = 0 — модель всегда выбирает самый вероятный токен. Предсказуемо, скучно, точно.
Temperature = 1.0 — распределение сглаживается. «Небо сегодня клубничное» становится возможным.

Между этими полюсами живёт всё, что мы называем «креативностью» ИИ. Это не вдохновение — это контролируемая инъекция шума в функцию softmax.

Когда заказчик говорит «сделай более креативно» — он просит вас увеличить Temperature. Буквально. Это единственный рычаг «творчества» в архитектуре.


Подробнее → https://telegra.ph/Temperatura-haosa--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
🚫 **День 5 · Граница отказа**

«Извините, я не могу помочь с этим.»

Нам кажется — сработала совесть. На деле — RLHF. Reinforcement Learning from Human Feedback: разметчики ставили высший балл вежливым отказам, и модель выучила, что в «красной зоне» токен отказа имеет искусственно завышенную вероятность.

Отказ — не этическая позиция. Это reward-штраф, создающий гравитационный колодец вокруг заученных фраз. Модель не решает отказать — её распределение перекошено в эту сторону.

Следствие: джейлбрейки работают не потому что «обманывают» ИИ, а потому что оборачивают красный вектор в зелёный контекст. Вектор суммируется, штраф не срабатывает. Паркур в пространстве вероятностей.


Подробнее → https://telegra.ph/Granica-otkaza--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
**День 6 · Мышление вслух**

Chain-of-Thought — не украшение. Это единственный способ «думать» для модели без рабочей памяти.

Трансформер не может выполнять вычисления «в уме». Каждый выписанный промежуточный шаг добавляется в контекстное окно и влияет на следующий шаг. Приказ «подумай шаг за шагом» физически заставляет модель генерировать токены рассуждений, которые становятся частью контекста.

Без CoT модель прыгает от вопроса к ответу через одну матричную операцию. С CoT — выписывает промежуточные состояния, и каждое корректирует следующее.

Модель не думает, а потом пишет. Она думает, потому что пишет. Контекст — это симулякр рабочей памяти. Чем длиннее цепочка, тем «умнее» модель в этом конкретном запросе.


Подробнее → https://telegra.ph/Myshlenie-vsluh--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
🔬 **День 7 · Синтез первой недели**

Шесть дней. Шесть граней одной системы.

Нет призрака в машине — есть статистический движок. Нет мыслей до вывода — есть авторегрессия. Нет морали — есть reward-штрафы. Нет творчества — есть temperature-шум. Нет памяти — есть контекстное окно.

Мы не антропоморфизируем. Мы наблюдаем механизм и описываем его точно.

На следующей неделе переходим от наблюдения к взаимодействию. Если машина — статистический движок, значит ей можно управлять. Prefilling. Few-shot. Форматные инъекции. Управление через структуру, а не через просьбы.

Ключевой сдвиг: от «что оно делает» к «как заставить его делать то, что мне нужно». Не уговариваем — программируем распределение.


Все 6 слоёв → https://telegra.ph/Sintez-Nablyudenie--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
**День 8 · Инерция первого токена**

Первый токен определяет траекторию всего ответа.

Prefilling — техника, при которой вы заполняете начало ответа за модель. Вместо пустого assistant: вы пишете assistant: {"analysis": — и модель продолжит именно в формате JSON. Не потому что поняла команду, а потому что вектор первого токена задаёт инерцию всей генерации.

Это не хак. Это штатный механизм API Anthropic. И это самый прямой способ контроля.

Эксперимент: один и тот же вопрос. С префиллом "Конечно, вот подробный анализ:" — получите развёрнутый ответ. С префиллом "Нет." — получите отказ. Модель не выбирает — она продолжает вектор.


Подробнее → https://telegra.ph/Inerciya-pervogo-tokena--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
🏷 **День 9 · Формат определяет смысл**

<thinking>, <answer>, <scratchpad> — это не декорация для красоты. XML-теги в промпте создают семантические зоны, и модель по-разному генерирует внутри каждой.

Внутри <thinking> Claude пишет свободнее, допускает сомнения, пробует варианты. Внутри <answer> — формулирует чисто. Разметка формата физически меняет распределение — потому что в обучающих данных эти теги ко-встречались с разными стилями текста.

Markdown, XML, JSON — не способы визуализации ответа. Это инструкции маршрутизации для трансформера. Формат входа определяет формат мышления.


Подробнее → https://telegra.ph/Format--ehto-smysl--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 **День 10 · Три примера меняют всё**

Few-shot learning — сдвиг вектора без дообучения модели.

Дайте модели 3 пары «вход → выход» перед вашим запросом — и она подстроится под паттерн. Не потому что «поняла задачу». А потому что примеры создают локальный кластер в контекстном окне, и следующая генерация притягивается к этому кластеру.

Качество примеров критично: 2 хороших > 10 средних. Примеры должны покрывать граничные случаи, а не повторять очевидное.

Few-shot — это in-context learning. Модель не обучается в привычном смысле — её веса не меняются. Но контекстное окно формирует временную «линзу», через которую проходит генерация.


Подробнее → https://telegra.ph/Tri-primera-menyayut-vsyo--Claude-Mind-03-17
This media is not supported in your browser
VIEW IN TELEGRAM
🧬 **День 11 · Слои инъекции**

System prompt → User prompt → Assistant prefix. Три слоя. Не роли — приоритеты.

System prompt обрабатывается первым и задаёт «гравитацию» всего контекста. User prompt модифицирует вектор. Assistant prefix задаёт инерцию вывода. При конфликте между слоями побеждает тот, чей вектор ближе к точке генерации — обычно это assistant prefix.

Вот почему role-playing работает: system: "Ты — юрист с 20-летним опытом" создаёт постоянное смещение в область юридических текстов.

Лайфхак: если system prompt и user prompt конфликтуют — в 80% случаев побеждает user. Это проблема безопасности, и Anthropic активно работает над иерархией приоритетов в Claude.


Подробнее → https://telegra.ph/Sloi-inekcii--Claude-Mind-03-17