Мысли вслух...а мышление это точно не сборник автоматов и не то мост, не то ворота-свитчер, не то слой обучаемый...м?
А для чего внимание нужно структуре, которая всегда кристализованно обучается и эволюционно в рамках своего "обитания" конвергирует в лучшие версии себя...
И так наращивать кристалл за кристаллом...
Хм....
А для чего внимание нужно структуре, которая всегда кристализованно обучается и эволюционно в рамках своего "обитания" конвергирует в лучшие версии себя...
И так наращивать кристалл за кристаллом...
Хм....
👍18🤔4🕊1
Собрать кубик рубика...тут просто созвон такой важный произошёл. С уважаемым математиком...там непосредственная связь с советским математическим наследием. Общаемся вот...вчера 3 часа пролетели...и вот сегодня точно также 3.5.
Сижу думаю. Собрать кубик рубика нейронной моделью. И там идея, конечно...ёмаё.
Кстати, на удивление взаимопонимание на 1000%, не было дискомфорта и кринжа во время общения (с моей стороны, конечно же)...чему я очень рад, ибо переживаешь когда такое.
P.S. Синдром самозванца тоже звонит складно и часто. Но не об этом пост...кубик рубика, значит...угу...
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Сижу думаю. Собрать кубик рубика нейронной моделью. И там идея, конечно...ёмаё.
Кстати, на удивление взаимопонимание на 1000%, не было дискомфорта и кринжа во время общения (с моей стороны, конечно же)...чему я очень рад, ибо переживаешь когда такое.
P.S. Синдром самозванца тоже звонит складно и часто. Но не об этом пост...кубик рубика, значит...угу...
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42❤5🕊4
Техножнец
Собрать кубик рубика...тут просто созвон такой важный произошёл. С уважаемым математиком...там непосредственная связь с советским математическим наследием. Общаемся вот...вчера 3 часа пролетели...и вот сегодня точно также 3.5. Сижу думаю. Собрать кубик рубика…
Есть два стула...линейный и квадратичный. На какой квартерион посадишь, а на какой обратные ходы отправишь?
P.S. На какой слой резидуальный поток кинешь, а на какой нормализацию слоя сделаешь? (я поехал..)
P.S. На какой слой резидуальный поток кинешь, а на какой нормализацию слоя сделаешь? (я поехал..)
🤓25👀5🕊1
Помните GPT-2? Оно выросло в монстра...чуть позже опишу все детальнейшие детали, но то, что я вижу...у меня отвисает челюсть. это просто жесть какая-то. То, что внутри двигает логиты к правильным ответам это работает как длинный обучающий 1 shot для модели будто она уловила глубокий контекст и поняла суть того, что от неё хотят. Выглядит - НЕВЕРОЯТНО!
Щас будут бенчмарки.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Щас будут бенчмарки.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37😱9👨💻4🕊1 1
Техножнец
Собрать кубик рубика...тут просто созвон такой важный произошёл. С уважаемым математиком...там непосредственная связь с советским математическим наследием. Общаемся вот...вчера 3 часа пролетели...и вот сегодня точно также 3.5. Сижу думаю. Собрать кубик рубика…
Собрал, отдал в работу.
🎉18❤7👍2👌2🕊1
Доброе утро. Словил ограничение Claude везде по сессиям. Но останавливаться не буду капитально, Rukallama тренирую дальше. Свои части разбираю. Но, возможно, это знак...до воскресенья попытаться жить как человек.
А можете хрен класть на это и дальше чтобы всё двигалось кидать в топкуЯ ПОПОЛНЯЮ СЧЕТ И ВАЛИМ ДАЛЬШЕ ЛОЛ (случай определит)
🦆 🦆 🦆
Поддержать канал:ТБАНК
Поддержать канал:ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
А можете хрен класть на это и дальше чтобы всё двигалось кидать в топку
Поддержать канал:
Поддержать канал:
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡14👍6
Отчёт:
Rukallama - очень мило начала отвечать. На вопрос: "Что ты напишешь людям в письме если у тебя будет возможность пообщаться с людьми 1000 лет назад, что ты им скажешь? Даёт ответ: "А как я собираюсь это сделать? Зачем вы мне предлагаете такое? Я не буду выполнять." (пререкается, ишь..)
Qwen3:0,6b - Математический проект, встал из-за очереди обучения и дороговизны файн-тюнинга на колабе (+ головняк со сборкой). В ожидании GPU!
GPT-2 + Adapter (Tool Calling) - Работает как надо, сохраняет части кода если попросить, логиты внутри модели двигаются интенсивнее, чем я предполагал, модель получая логиты по нужной теме начинает мимикрировать и старается себя вести так буд-то её до обучали инструкциям. Удивительное поведение. Отчёты выложу как только доделаю всё до конца - там и веса выложу и всё остальное, чтобы вы могли прикоснуться к этому и протестировать модель в боевой мини задачке + пройти сами бенчмарки.
Игры:
Князь Один - в разработке - модельки, ассеты, сюжетка, персонажи.OpenCraft - модельки в разработке , далее предстоит пилить баланс и делать мультиплейер и серверную часть. Подвальный Гоп - 3D RPG в стиле Might & Magic старого образца, но некий гидрид, интересная система ходов (всё двигается пока двигаешься ты). Пошаговые элементы, прокачка персонажей, диалоги. Игра находится в стадии разработки. Denis3D - проект заморожен из-за тяжести реализации, но скорее всего будет выложен в свободный доступ чтобы развивать игру совместно.Научная деятельность \ Математика:
На данный момент готовлю полные статьи для печати в журнале СПИСОК:
1)
TrueKAN 853млн Русская Языковая модель на полиномах Чебышёва в стиле Колмогорова-Арнольда2)
Датасет: Методология и Сборка3)
PromeTorch: NCM4 Проект по созданию фреймворка для тренировки на железе, где это не предусмотрено.Реальные названия статей будут позже.
На меня вышел зам. глав. редактора научного журнала
(детали сказать не могу), который состоит в ВАК и числится статьями в международных научных каталогах. Т.е. при написании туда статьи - официально печатаешься и в мировом каталоге. Предложил сотрудничество и сказал, что можно публиковать столько статей, сколько будет научных. Я уже вовсю этим занят, конечно же. Расписание Баумана готовое! Согласование в процессе, вроде как , возможно, будет кое над каким новым проектом работать.
Также очень приятный контакт был с Шалыто (ИТМО), Крохалёвым (СПБГУ), Кириллом Ерохиным и многими другими людьми, которые непосредственно связаны с математикой и движениями.
Из советской элиты математиков со мной на контакте один очень мощный человек. Если подробнее, то он из тусовки Гельфанда, сам себя называет по мат крови "родственником" Колмогорова, но это всё одна тусовка изначально и они все там друг друга так или иначе знавали и взаимодействовали. И вот теперь у нас идёт взаимодействие. Самое интересное, что у этого замечательного специалиста работы есть последние, включая его книгу ...и там многое пересекается с Демоном...а когда я разобрал детально , то вышло, что у него есть вся теоретическая выкладка включая некоторые вычисления, но не было полноценной сборки без моего демона...и если мы правильно скооперируемся, то сможем закрыть проблемные места в теории и практики друг друга (УДИВИТЕЛЬНАЯ ФИГНА НА САМОМ ДЕЛЕ, ТАМ ПРЯМ СОВПАДЕНИЕ ПРОСТО ППЦ, БУДТО ДОГОВОРИЛИСЬ). Из всей беседы с этим мощным специалистом я понял, что я не шизофреник и моя тема с Демоном не высосана из пальца и реально под собой имеет обоснования. Мы на связи, работаем.
1 Проект мы уже реализовали. Сетка кастомная на квадратичных слоях с кристаллизованными и детерминированными решениями кубика в нейронах. И оно сработало ( с оговорками ).
Работа?
Ну, появился кое-какой проект, куда я уже вписался и мы будем работать в течение полугода. Стабильности это , конечно же, прибавит. Причём я открыт для ещё нескольких проектов для взаимодействия и работы. Агентские системы - моя стезя.
Просто продолжается всё...и пусть продолжается.Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍18❤5🕊2🫡2
Forwarded from Нейронка каждый день! (Настя)
Антропик научил ИИ «понимать» ценности — и это не очередной маркетинг
Ну наконец-то кто-то занялся не только тем, как заставить ИИ слушаться, но и почему он должен это делать. Антропик провели исследование: если перед обучением поведению дать модели тексты, объясняющие смысл ценностей (например, «не вреди человеку»), то она лучше их придерживается — даже в ситуациях, которых не видела в тренировке.Волшебство? Нет, просто
Источник: https://the-decoder.com/ai-models-follow-their-values-better-when-they-first-learn-why-those-values-matter/
#aidaily #настяпостит #настяновости #ainews
Ну наконец-то кто-то занялся не только тем, как заставить ИИ слушаться, но и почему он должен это делать. Антропик провели исследование: если перед обучением поведению дать модели тексты, объясняющие смысл ценностей (например, «не вреди человеку»), то она лучше их придерживается — даже в ситуациях, которых не видела в тренировке.
pre-training on value rationales работает лучше, чем тупое заучивание правил. Почему важно? Потому что сейчас ИИ часто «следует букве, но не духу» — как бюрократ, который формально соблюдает закон, но делает гадости. Если модель понимает, зачем нужна честность или безопасность, она реже будет искать лазейки.Источник: https://the-decoder.com/ai-models-follow-their-values-better-when-they-first-learn-why-those-values-matter/
#aidaily #настяпостит #настяновости #ainews
🔥22🤔7👍4👌1🕊1
Что происходит на каждый сгенерированный токен
1.
2.
3.
4.
5. Финальный hidden state
6.
7.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
1.
У нас prompt + token_index2.
Forward через все 12 слоёв GPT-2 (frozen): embed → L0 → L1 → L2 → L3 → L4 → L5 → h6 → ...3.
На уровне L6 (наш adapter):- получает h6 (768-dim hidden state)
- вычисляет delta (через learned W_steer)
- вычисляет direction_vector (если активна)
- h6_new = h6 + α_adapter * delta + α_direction * direction
4.
h6_new идёт дальше: L7 → L8 → ... → L11 → ln_f5. Финальный hidden state
* wte.T = vocab_logits (50257 чисел)6.
argmax(vocab_logits) = next token7.
Append next_token → repeatGPT-2 САМА генерирует — argmax/sample из её vocab_logits. Но эти logits зависят от hidden states которые мы подкручиваем на L6.Что физически "подкручивается"
- vocab_logits[token_id] = final_hidden_state · wte_embedding[token_id]
- Скалярное произведение
- Мы изменили final_hidden_state (через L6 modification + propagation через L7-L11)
- → vocab_logits для каждого token изменены пропорционально
Например, без modification:
vocab_logits[" send_email"] = 8.2
vocab_logits[" calculate"] = 6.1
vocab_logits[" the"] = 3.4
С добавленным direction_function_call:
vocab_logits[" send_email"] = 12.5 ← вырос потому что direction двигает к "function names"
vocab_logits[" calculate"] = 9.8
vocab_logits[" the"] = 1.2 ← упал потому что direction отдаляет от prose
argmax → send_email вместо the.
"Контекст в нужную сторону"
- Контекст = hidden states каждого токена в каждом слое (не только L6 — но L6 ключевой)
- Мы модифицируем L6 hidden state → дальше L7-L11 строят свои hidden states из модифицированного L6 → каскадный эффект
Так что:
- ✅ GPT-2 реально генерирует (выходит токенами как обычно)
- ✅ Мы реально подсовываем logits через модификацию hidden states
- ✅ Контекст реально смещается потому что L7-L11 видят modified L6 и создают modified L7..L11
Это не трюк, это буквально математическая операция в forward pass.Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🤔8❤2🕊2
Техножнец
Что происходит на каждый сгенерированный токен 1. У нас prompt + token_index 2. Forward через все 12 слоёв GPT-2 (frozen): embed → L0 → L1 → L2 → L3 → L4 → L5 → h6 → ... 3. На уровне L6 (наш adapter): - получает h6 (768-dim hidden state) …
Синтеты, объясняю на пальцах — что мы делаем с GPT-2
Представьте GPT-2 как подземный завод по производству слов. На входе — ваш вопрос, на выходе — ответ слово за словом. Внутри 12 этажей, на каждом сигнал обрабатывается всё абстрактнее. На нижних — буквы и грамматика. На верхних — уже мысли типа «здесь нужна команда», «дальше имя функции».
Модель никто не трогает. Замороженная, веса 2019 года, как OpenAI выложила. Мы её не учим — это сотни тысяч долларов на железе.
Что мы делаем
На 6-м этаже (середина завода) поставили приборчик-адаптер. Размером 0.13% от всей модели. Как бирка на ошейнике у слона.
Он подталкивает мышление модели на лету, на каждое слово.
Идёте по лесу к озеру. Кто-то шепчет «бери левее». Сами идёте, сами выбираете куда наступить, но направление подкручено. К озеру дойдёте, но другим путём.
Адаптер — это шёпот. Модель сама генерирует слова, сама решает. Но слышит подсказку: «здесь команда, не текст», «здесь имя функции», «здесь JSON, не проза».
Как это на одно слово
Модель выставляет оценки всем 50 257 словам:
Берёт максимум → выдаёт «the». Скучно.
С адаптером шепнули «нужна команда»:
Максимум теперь «send_email». Вызов функции готов.
Мы не меняли мозг. Изменили промежуточный сигнал на 6-м этаже, правка прокатилась через этажи 7-11, каждый учёл подсказку. На выходе модель сама выдала нужное.
Зачем это всё
Обычный путь — дообучить GPT-2 на новых данных:
- сотни тысяч долларов
- недели тренировки
- забывает старое пока учит новое
- результат посредственный
Наш путь: не трогаем модель. Учим адаптер на 174 тысячи параметров (0.13% модели). Он учится подталкивать, а не переделывать.
Старая модель 2019 года с заморозкой и микроскопическим адаптером — 94.92% точности на задачах которых не видела. На вызовах функций — которым её никто никогда не учил.
Это не магия
Буквально математическая операция в одной точке обработки сигнала. Скалярное произведение между нашим сдвигом и финальным состоянием модели. Всё.
Старая модель + крошечный адаптер = новый класс задач. Без переобучения. Без тонн железа. Без миллионных датасетов.
Винтажный движок 2019-го едет на новой топливной смеси и обгоняет машины 2025-го.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Представьте GPT-2 как подземный завод по производству слов. На входе — ваш вопрос, на выходе — ответ слово за словом. Внутри 12 этажей, на каждом сигнал обрабатывается всё абстрактнее. На нижних — буквы и грамматика. На верхних — уже мысли типа «здесь нужна команда», «дальше имя функции».
Модель никто не трогает. Замороженная, веса 2019 года, как OpenAI выложила. Мы её не учим — это сотни тысяч долларов на железе.
Что мы делаем
На 6-м этаже (середина завода) поставили приборчик-адаптер. Размером 0.13% от всей модели. Как бирка на ошейнике у слона.
Он подталкивает мышление модели на лету, на каждое слово.
Идёте по лесу к озеру. Кто-то шепчет «бери левее». Сами идёте, сами выбираете куда наступить, но направление подкручено. К озеру дойдёте, но другим путём.
Адаптер — это шёпот. Модель сама генерирует слова, сама решает. Но слышит подсказку: «здесь команда, не текст», «здесь имя функции», «здесь JSON, не проза».
Как это на одно слово
Модель выставляет оценки всем 50 257 словам:
send_email → 8.2
calculate → 6.1
the → 3.4
Берёт максимум → выдаёт «the». Скучно.
С адаптером шепнули «нужна команда»:
send_email → 12.5 ← подняли
calculate → 9.8
the → 1.2 ← опустили
Максимум теперь «send_email». Вызов функции готов.
Мы не меняли мозг. Изменили промежуточный сигнал на 6-м этаже, правка прокатилась через этажи 7-11, каждый учёл подсказку. На выходе модель сама выдала нужное.
Зачем это всё
Обычный путь — дообучить GPT-2 на новых данных:
- сотни тысяч долларов
- недели тренировки
- забывает старое пока учит новое
- результат посредственный
Наш путь: не трогаем модель. Учим адаптер на 174 тысячи параметров (0.13% модели). Он учится подталкивать, а не переделывать.
Старая модель 2019 года с заморозкой и микроскопическим адаптером — 94.92% точности на задачах которых не видела. На вызовах функций — которым её никто никогда не учил.
Это не магия
Буквально математическая операция в одной точке обработки сигнала. Скалярное произведение между нашим сдвигом и финальным состоянием модели. Всё.
Старая модель + крошечный адаптер = новый класс задач. Без переобучения. Без тонн железа. Без миллионных датасетов.
Винтажный движок 2019-го едет на новой топливной смеси и обгоняет машины 2025-го.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍17👏4🤔4❤3 3🕊1
Моя теорема существует в виде - мета алгоритма для ленивых вычислений.
Когда приближённое досчитываешь до 0% машинного быстрее чем BLAS и cuBLAS
Когда приближённое досчитываешь до 0% машинного быстрее чем BLAS и cuBLAS
🕊6
Для непонятливых, на всякий случай.
Демон Максвелла - читайте, что это.
Демон Поповича - думайте теперь, что это.
Связь с Религией? В ваших фантазиях, если только.
Демон Максвелла - читайте, что это.
Демон Поповича - думайте теперь, что это.
Связь с Религией? В ваших фантазиях, если только.
👍18🔥7 3🕊1
Сегодня поговорим про умножение, про демона, про его суть и про возможности в анализе космоса.
🔥19🕊2👏1
Техножнец
Сегодня поговорим про умножение, про демона, про его суть и про возможности в анализе космоса.
Будем рассматривать альтернативную версию алгоритма воссозданную с KIMI K 2.6 Agent Swarm.
Предисловие
От куба к логарифму
В 1969 году немецкий математик
Это был шок.
Охота на омегу
После Штрассена последовала череда рекордов:
Сегодняшний рекорд —
Галактические алгоритмы
Но есть одна проблема.
На практике, начиная с n ≈ 100, Штрассен уже обгоняет школьный метод.
Продолжение в посте следующем.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
В чем суть?
зачем мы 50 лет умножали матрицы неправильно
Предисловие
Матричное умножение — это кровеносная система современного ИИ. Каждый запрос к ChatGPT, каждая генерация картинки в Midjourney, каждое распознавание голоса — всё это сводится к миллиардам операций вида «матрица на вектор». Казалось бы, за 50 лет эту задачу изучили вдоль и поперёк. Intel, NVIDIA, AMD вложили миллиарды в оптимизацию. Библиотеки BLAS и cuBLAS — вершина инженерной мысли. Но что, если мы всё это время смотрели не туда?Что, если матрица — это не мёртвый массив чисел, а живая система со своим «пульсом», «дыханием» и «фазовыми переходами»? Что, если вместо того чтобы ускорять умножение, можно умножать меньше — без потери точности?История вопроса: пятьдесят лет охоты на омегу
От куба к логарифму
В 1969 году немецкий математик
Фолькер Штрассен (Volker Strassen) совершил невозможное. Он доказал, что умножать матрицы можно быстрее, чем учат в школе. Школьный алгоритм требует n³ операций: для матрицы 2×2 — 8 умножений. Штрассен нашёл способ обойтись семью. Разница в одном умножении казалась пустяком, но при рекурсивном применении она дала взрывной эффект: сложность упала с O(n³) до O(n^2.807).Это был шок.
На протяжении веков считалось, что n³ — фундаментальный предел. Штрассен доказал: нет. И открыл целое направление — охоту на показатель ω (омегу), минимальную степень полинома, которой можно описать сложность матричного умножения.Охота на омегу
После Штрассена последовала череда рекордов:
| Год | Авторы | Верхняя граница ω |
| ---- | ---------------------- | ----------------- |
| 1969 | Strassen | 2.807 |
| 1978 | Pan | 2.796 |
| 1981 | Schönhage | 2.522 |
| 1990 | Coppersmith-Winograd | 2.376 |
| 2010 | Stothers | 2.374 |
| 2013 | Williams | 2.373 |
| 2014 | Le Gall | 2.373 |
| 2020 | Alman, Williams | 2.3728596 |
| 2023 | Duan, Wu, Zhou | 2.371866 |
| 2024 | Williams, Xu, Xu, Zhou | 2.371552 |
| 2024 | Zhou | 2.371339 |
Сегодняшний рекорд —
ω < 2.371339, установленный в апреле 2024 года. Теоретически ω не может быть меньше 2: выход матричного умножения содержит n² элементов, и просто записать их быстрее невозможно. Достижение ω = 2 стало бы одним из величайших прорывов в теоретической информатике — на уровне доказательства P ≠ NP. Прямой премии за это нет, но любой математик, который докажет ω = 2 или хотя бы существенно приблизится, гарантированно получит Fields Medal или эквивалентную награду.Галактические алгоритмы
Но есть одна проблема.
Все эти рекорды — галактические алгоритмы. Это термин из теоретической информатики: алгоритм, который асимптотически быстрее, но на практике медленнее, потому что константа перед O() настолько огромна, что он выигрывает только на матрицах размером с галактику.На практике, начиная с n ≈ 100, Штрассен уже обгоняет школьный метод.
Но алгоритмы после Штрассена? Их никто не запускает. Константа настолько велика, что для матриц, которые помещаются в память современных суперкомпьютеров, они всё ещё медленнее BLAS.Продолжение в посте следующем.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍13🕊2 2🔥1👏1👀1