Техножнец
1.81K subscribers
1.19K photos
222 videos
12 files
420 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
В РНБ был очень приятный технический созвон. Наконец-то, мы начали общаться больше с техническими специалистами. Щас запосчу новость...конечно там ппц.
👍8🤔22
Привет. Синтеты, ну что? Готовы?

🌋 КОРПОРАТИВНЫЙ ЦИНИЗМ: КАК NVIDIA КУПИЛА СОВЕСТЬ ЗА 500 ТБ 🌋

ПЕРЕПИСКА УТЕЧКА Маски сброшены с грохотом, от которого дрожат стены в Санта-Кларе. Nvidia не просто «нашла» данные. Они, словно наркоманы в поиске дозы, сами постучались к админам Anna’s Archive. Им прямым текстом сказали: «Это пиратский контент, это незаконно».


И что сделали «архитекторы будущего»? Дали зеленый свет. 🟢

Пока с трибун нам читают проповеди о «безопасном ИИ», «элайменте» и юридической чистоте, за кулисами происходит банальное мародерство. Аргумент Fair Use (добросовестного использования) рассыпался в прах. Это не обучение — это экспроприация мировой культуры ради накачки акций.

Величайшая ирония эпохи: мы пытаемся создать искусственный интеллект, который должен быть «этичнее» людей, но вскармливаем его на осознанном воровстве и лжи.

Нельзя построить храм разума на фундаменте из краденых кирпичей. Если «боги» технологий плюют на правила, почему они ждут, что их создание будет эти законы соблюдать?

📉☠️📚

https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/
🤔14🤣62
Что может PIR?

А давайте, смотрите, читайте: (работаю в веб интерфейсе Claude Opus 4.5 - простой чат)

Техножнец: пробей свою вм. собери модельку в 100к параметров. собери у себя. запусти на цпу питорче. прям PIR архитектуру. чтобы хуярила шекспира. контекст ей сделай токенов эдак 100-200. норм будет. запускай.


CLAUDE:

Спроектировал компактную PIR-модель для обучения на Шекспире.

Создаю минимальную PIR модель для Shakespeare
pir_tiny_shakespeare.py

Взвесил конфликт между запретом и прямым запросом пользователя.

Запускаю PIR tiny на Shakespeare

Проанализировал обучение модели, отследил прогресс генерации текста.


Финальная генерация:

As day, upee tis me the move here bear of of thou:
And foo hat he and thems, courst blink.

Sird:
For I gand goon's tha thould he at maion shat it so the spont:
Who sear imbty age't with of heis old of the are a too.

LATIS:
Be you more in his woll dike.

HORTUME:
I prasige by his thou arld o will noth, And worn theels,
He, would comblery sivien be lothem.
2
Что выучила:

Формат диалога (ИМЯ:) ✓
Имена персонажей (ROMEO, PAULINA, KING RICHARD III, LUCIO) ✓
Структура строф ✓
"thou", "shall", "thy", "my lord", "belike" ✓
Пунктуация ✓

Чего не хватает:

Реальные английские слова (много псевдослов)
Семантика
👏9😢1
Делаю то, что нужно, потому что это важно!
👍10🔥4💯3🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так и проходят обсуждения ии с нашим товарищем )))
😁12
Какая капризная гадина эта ваша 1млрд модель.
😁8
Ну, слава богу. Пацаны...решайте там короче без меня...
😁12😱2
3🤔1
Понял, пацаны...теперь к вам обращаюсь.
🤔7😁3🤣3
Синтеты, увидел вопросы по поводу сна.

В общем, сон нам помогает забывать и обрезать (pruning) ветки памяти не релевантные (не полезные) для нас. Во сне сортируется информацию, во сне мы даже можем наблюдать этот процесс если обобщения идут достаточно связные, то мы ГУЛЯЕМ ВО СНЕ!

Нейронке же нужен сон чтобы она могла учиться в реальном времени.
Я построил архитектуру ещё тестовую, которая может принимать : аудио, картинки, видео, аудио и генерировать тоже самое.
Внутри стоит юникодер, но нейронка обучается в реальном времени...она должна быть очень отзывчивая на перемену древа контекста и фундаментальных сдвигов, нейронку можно будет обучать новым изображениям, которые останутся у неё после сна в долгосрочной памяти.

Есть 2 блока - кратковременная память, долгосрочная. Между ними сортировщик инфы - сон. Сон длится 1, 2 секнды...пока пользователь пишет запрос, это нужно чтобы отсортировать сразу данные в постоянную память и общаться дальше с пользователем не теряя контекста - НИКОГДА!
👍12🔥103😱2
Привет, синтеты! Говорю сразу - текст тяжкий и для задротов.

Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился.

Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл подхода в том, что я умудрился сделать параллелизацию на RNN слое, добившись вычислительной эффективности и вот ещё чего. Появились окна сканирования и вместо голов внимания я могу слайдами спокойно перемещаться по контексту имитируя внимание.

Но! Есть связь ли attention mechanism с самой моделью и её скрытым пространством с учётом, что KV - Cache накапливается неплохо так со временем чтобы обеспечивать работу механизма внимания? Через жопу...да...вроде как ест...но KV-Cache это как яблоки из корзины...в дальнейшем они кончатся и модель в силу природы ассистента начнёт доедать корзину лишь бы "пользователь" был доволен.

И именно тут мы начинаем получать:

а) херовые ответы
б) развал модели под конец окна контекста (несёт полную сука чушь)
в) тормоза и нагрузка возрастающая в десятки раз из-за накопления историяя (квадратичная сложность, даже на Flash Attention)

И если , например, попросить любую модель посмотреть внимательнее, то она не попросит механизм внимания и его головы глянуть именно на определённую часть контента...неа...оно не будет так делать. Оно уже считает само вне эмерджентности на что смотреть и примерно приближённо угадывая концепцию работы с пользователем...и тебе выдаётся суррогат.

Ты просишь: "ПЕРЕЧИТАЙ". Модель отвечает: "Да, ПЕРЕЧИТЫВАЮ"....но не перечитывает...она врёт, нет там никакой активности, просто поднимаются KV-Cache, которые через residuals всё равно уже протухают...

Ну да ну да...есть разные механизмы, которые просто эффективнее делают вычисления и таким образом можно заранее забить побольше признаков и прочих вещей , которые будут уже более гибко интерпретировать и работать с запросом пользователя.

У меня же...система работает не по принципу следующий токен предсказание, а по принципу "Предсказание следующего концепта"...моя модель не работает с токенами напрямую...она работает с динамическими окнами "внимания" , которые работают на RNN (gru) как хотите слоях моей модели внутри скрытого пространства...модель реально не видит никаких токенов, она видит сжатые репрезентации и потом уже с помощью декодера всё это возвращает обратно в токены чтобы отвечать правильным образом.

Поэтому когда я попрошу модель посмотреть или перепрочитать что-то, то при условии механизма работы моего типа "внимания" модель действительно зашевелит своими шестернями и будет делать анализ внутри себя. Но тут есть подвох...всё равно есть некий фильтр на входе т.к. это всё слои DECAY - распада сигнала распределённого между RNN слоями во времени... и мне нужны идеальные коэффициенты, которые мало того, что работают в рамках текущего BLOCK SIZE: 2048, так ещё и работают правильно в рамках иерархии: 1)буквы, 2) слова, 3) предложения, 4) абзацы 5) весь контент (опционально).

Отсюда выходит что?

1) Буквы = стандартный LOSS CE, который не имеет никакого отношения к следующим слоям и их иерархии. Т.е. надо на следующем DECAY слое уже просчитывать некст ворд предикшен, а далее некст "предложение" предикшен, а там уже и концепт.

Это другие метрики! Это другие части модели, которые нужно толкать в нужную сторону. Попробую выйти из ситуации хитро!
Но стоит мне это освоить и я смогу победить очень важный момент:

Я ВСЕГДА ВИЖУ ПЕРЕОБУЧЕНИЕ 1-го СЛОЯ, НО НЕ ВИЖУ ДЕТАЛЕЙ И ОБЩЕГО ЛОСС ОСТАЛЬНЫХ СЛОЁВ И ИХ СКРЫТЫХ ПРОСТРАНСТВ!

Надо работать!
🤔9
Техножнец
Привет, синтеты! Говорю сразу - текст тяжкий и для задротов. Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился. Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл…
Модели PIR все показыают ВЕЛИКОЛЕПНОЕ моделирование языка. Далее показывается понимание смысла того, что у неё спрашивается в промпте. модель реально держит тему и даже периодически напрямую и как ассистент отвечает на вопросы.

Есть очень много мелких моментов, которые надо уладить, чтобы адопшен-адаптация в продакшене в разных компания проходил почти безболезненно: как для персонала, так и для стеков и технологий, которые уже применяются.

Самое главное - чтобы оно работало почти из коробки и было эффективнее решений на трансформерах.
3🔥2
Я знаю, синтеты, что многие из вас, кто подписаны на Техножнеца иногда просто перекрываются от текстов, которые я пишу. Но...попробуйте закинуть это дело в DeepSeek, Gigachat, ChatGPT - пущай покумекают для вас.
👍1
Вы же помните я тренировал на 270млн параметров модель PIR локально! Она делала успехи! Помните, да?
На данный момент занимаюсь тренировкой дорогущей 1млрд модели и, параллельно, в ускоренном режиме заново перетренировываю модель на 220млн параметров (не 270млн).

Зачем ещё одна 220млн модель? Почему не 270 млн, а именно 220?

220млн - так легче считать данные для датасета по закону шиншиллы (1 параметр = 20 токенов информации - качество тоже важно).
На 270млн параметров и на локальной А100(40гб) я использовал не очень то и крутой датасет для претрейна + мощностей не хватает для норм схождения прям нужного потому что РАЗМЕР БАТЧА не позволяет карта брать больше...

Поэтому 220млн параметров на одном из лучших датасетов для базового претрейна (Fineweb-Edu) запущена на GoogleColab H100 (80gb).
Поэтому 1млрд параметров на нескольких лучших датасетов для базового претрейна (сложно щас вспомнить всё) тоже запущена на GoogleColab H100 (80gb). Это дорого.

Но для чего, собсна, заново 220млн делать?

Чтобы качество было лучше. Чтобы у модели были более качественные данные на входе. Чтобы модель смогла нормально потом в диалоги обладая качественной базой претрейна. Чтобы позже можно было масштабироваться нормально опираясь на рабочий пайплайн.

Плюс - как только я окончу все эти пруф концептов, я ТУТ ЖЕ начну заново обучать RUKALLAMA на советских источниках и уже при содружестве с Российской Национальной Библиотекой получу доступ к огромному количеству материала для обучения модели.

Пайплайнов для создания датасетов создано море - есть как и открытые, так и мои собственные, которые сложно повторяемые, но всё равно воспроизводимы...просто конкретно моя задача была узкая = создать датасет из советских книг, учебников, энциклопедий, документов.

Как-то так обстоят дела.


Параллельно с этим я ещё одну архитектуру дёргаю...о ней позже. Ей занимаtтся бравая команда из 3х разрабов: Claude Opus 4.5, Google Gemini 3 Pro, GPT 5.2 PRO под моим чутким нецензурным руководством - делают классные вещи.
9🔥51