🚀 TrueKAN / RealKAN — архитектурный апдейт
Переработал ядро. Коротко о главном: (кратко для всех)
Итого: быстрее MLP, выразительнее Linear, меньше памяти.
Скоро больше деталей 👀
TL;DR: Храним "сжатую версию" матрицы из двух кусков. Результат тот же, памяти меньше.
Переработал ядро. Коротко о главном: (кратко для всех)
⚡️ Скорость
Полностью переехал с B-spline на полиномы Чебышёва. Рекурсия в один FMA, всё в регистрах GPU. Результат — 18x быстрее при том же качестве.
🗜 Память
Low-rank факторизация параметров. Сжатие в 14x без потери выразительности.
🧠 Multi-Head
Batched подход — все головы одним вызовом вместо отдельных kernel launch. 4.6x speedup.
🎯 KAN в Attention
KAN теперь не только в FFN, но и в attention проекциях. Обучаемые нелинейные трансформации дают более выразительные паттерны. -4.5% loss vs линейный вариант.
🏗 MoE
Sparse mixture of experts — больше параметров при меньшем compute.
Итого: быстрее MLP, выразительнее Linear, меньше памяти.
Скоро больше деталей 👀
🗜 Low-rank — объяснение на пальцах
Проблема: матрица 1000×1000 = миллион параметров. Жрёт память.
Решение: разбить на две маленькие.
Вместо:
A = [1000 × 1000] = 1 000 000 параметров
Храним:
U = [1000 × r]
V = [r × 1000]
Где r — маленькое число. U × V даёт ту же большую матрицу, но хранить в разы меньше.
Почему работает?
Большинство матриц в нейросетях избыточны — много повторяющихся паттернов. Как JPEG сжимает фото, потому что соседние пиксели похожи.
TL;DR: Храним "сжатую версию" матрицы из двух кусков. Результат тот же, памяти меньше.
🔥18🤯1 1
Техножнец
TL;DR: Храним "сжатую версию" матрицы из двух кусков. Результат тот же, памяти меньше.
Подкидываю вам идеи, синтеты...
🔥7🤯2
🏛 Последний этап проекта поисковика на основе ИИ для РНБ!
Сложные сценарии с поиском документов:
8 блоков, 45 тестов, ~60-90 минут
📊 BLOCK A: Статистика фонда (11 тестов)
🔥 Финишная прямая! лол...в работе агента. Дальше дыры по каталогизации с РНБ базой данных, но это уже не так сложно.
Сложные сценарии с поиском документов:
8 блоков, 45 тестов, ~60-90 минут
📊 BLOCK A: Статистика фонда (11 тестов)
count_documents по 10 темам: история, физика, математика, экономика, философия, биология, информатика, педагогика, юриспруденция, медицина
A.11: Сравнение количеств между темами
🔍 BLOCK B: Поиск с глубокой валидацией (8 тестов)
Проверка structure источников (title, file_rel, excerpt)
Междисциплинарный поиск (медицина+информатика, экономика+математика)
Сравнение Pro vs Quick mode
📄 BLOCK C: PDF операции (8 тестов)
read_pdf_pages, summarize_document, list_document_info, search_in_document
Чтение конкретных страниц, суммаризация, метаданные
⚖️ BLOCK D: Сравнение и анализ (6 тестов)
compare_documents по методам, результатам, новизне, целям
Обзор нескольких документов, общие выводы
📈 BLOCK E: Диаграммы (5 тестов)
Mermaid через запрос, график распределения, action WebSocket
🧪 BLOCK F: Workflow исследователя (15 шагов)
Поиск → Count → Чтение → Суммаризация → Метаданные → Поиск внутри → Сравнение → Смена темы → Диаграмма → Итоги
🧬 BLOCK G: Мульти-тематический поиск (10 шагов)
Биоинформатика → Медицинская информатика → Пересечение → Сравнение → Итоги
⚡️ BLOCK H: Сравнение режимов (5 тестов)
Pro vs Quick: скорость, качество, глубина
🔥 Финишная прямая! лол...в работе агента. Дальше дыры по каталогизации с РНБ базой данных, но это уже не так сложно.
🔥14
Техножнец
🏛 Последний этап проекта поисковика на основе ИИ для РНБ! Сложные сценарии с поиском документов: 8 блоков, 45 тестов, ~60-90 минут 📊 BLOCK A: Статистика фонда (11 тестов) count_documents по 10 темам: история, физика, математика, экономика, философия, биология…
RNBLEXITY V2 — MEGA Test Suite (45 scenarios, 8 blocks)
========================================================
Block A: Статистика фонда — count_documents по 10 темам
Block B: Поиск с глубокой валидацией источников
Block C: PDF операции — read, summarize, info, search_in_doc
Block D: Сравнение и анализ документов
Block E: Диаграммы и визуализация
Block F: Workflow исследователя (15 шагов)
========================================================
Block A: Статистика фонда — count_documents по 10 темам
Block B: Поиск с глубокой валидацией источников
Block C: PDF операции — read, summarize, info, search_in_doc
Block D: Сравнение и анализ документов
Block E: Диаграммы и визуализация
Block F: Workflow исследователя (15 шагов)
🔥 PromeTorch: Deep Learning Framework с нуля
Сегодня починил критический баг в GPU backward pass и достиг 97.17% точности на MNIST — практически как PyTorch!
Что это?
Цифры
Следующий шаг — оптимизатор, который побьёт Adam.
Сегодня починил критический баг в GPU backward pass и достиг 97.17% точности на MNIST — практически как PyTorch!
Что это?
Полноценный DL фреймворк на C++/CUDA:
🧠 Autograd
⚡️ CUDA на GPU
🔷 Intel MKL на CPU
🎯 Свои оптимизаторы
Баг дня
GPU застрял на 75%, CPU давал 97%.
Причина: tensor.t() менял strides, но не копировал данные. GPU читал память в неправильном порядке.
Решение: одна строчка — .contiguous()
Результат: 75% → 97.17% 🚀
Цифры
PyTorch PromeTorch
Accuracy 97.97% 97.17%
Время 13s 24s
Следующий шаг — оптимизатор, который побьёт Adam.
Зачем?
🔧 Контроль над каждым байтом
📚 Понять DL изнутри
🧪 Свобода экспериментов
✨ Кайф от создания своего
👏10❤2 2❤🔥1
Уважаемые, я тут не шутками занимаюсь, если что.
Месяцами провожу тяжелейшие исследования. Раскалываю своё понимание вопроса и делаю это максимально долго, нудно, муторно и детально. Даёт ли это свои плоды? Сами подумайте...следующий пост, вам о многом расскажет.
Месяцами провожу тяжелейшие исследования. Раскалываю своё понимание вопроса и делаю это максимально долго, нудно, муторно и детально. Даёт ли это свои плоды? Сами подумайте...следующий пост, вам о многом расскажет.
🤝13
🔬 TrueKAN: Первая реализация Kolmogorov-Arnold Network быстрее MLP
Все существующие реализации KAN медленнее MLP в 1.5-30 раз. Это главная причина почему KAN остаются академической игрушкой — красивая теория, непрактичная скорость.
Мой - TrueKAN решает эту проблему.
Что это значит
Что под капотом
Настоящий KAN: learnable φ на каждом ребре графа, не "FastKAN" который по сути MLP с хитрой активацией
Chebyshev polynomial basis вместо B-splines
Low-rank factorization коэффициентов
Fused CUDA kernels: базис считается в регистрах, один проход по памяти
Детали реализации опубликую вместе с кодом.
KAN обещали interpretability + accuracy + efficiency. Первые два уже доказаны в литературе. Efficiency был blocker. Если TrueKAN воспроизводится — это убирает последний барьер для практического применения KAN в продакшене.
Бенчмарки сравнения взяты из github.com/Jerry-Master/KAN-benchmarking — те же условия, те же метрики.
Яндекс, Сбербанк - привет.
Все существующие реализации KAN медленнее MLP в 1.5-30 раз. Это главная причина почему KAN остаются академической игрушкой — красивая теория, непрактичная скорость.
Мой - TrueKAN решает эту проблему.
Бенчмарки (GPU, batch=100, dim=1000)
Данные из github.com/Jerry-Master/KAN-benchmarking и arXiv:
Original KAN — 30x медленнее MLP
EfficientKAN — 9.7x медленнее
Fast-KAN — 2.9x медленнее
ChebyKAN — 2.1x медленнее
SineKAN — 1.78x медленнее (лучший в литературе)
Наши результаты:
TrueKAN R=8 — 0.92x (на 8% быстрее MLP)
TrueKAN dim=2048 — 0.42x (в 2.4x быстрее MLP, training mode)
Что это значит
KAN математически мощнее MLP — это следует из теоремы Колмогорова-Арнольда. На сложных осциллирующих функциях (sin(20x)·cos(15y)) MLP даёт R² = 33%. TrueKAN даёт R² = 99.77% при 21x меньшем количестве параметров.
Проблема была в реализации, не в архитектуре.
Что под капотом
Настоящий KAN: learnable φ на каждом ребре графа, не "FastKAN" который по сути MLP с хитрой активацией
Chebyshev polynomial basis вместо B-splines
Low-rank factorization коэффициентов
Fused CUDA kernels: базис считается в регистрах, один проход по памяти
Детали реализации опубликую вместе с кодом.
Статус
✅ Inference быстрее MLP
✅ Training на паритете/быстрее на больших размерностях
✅ Интеграция в LLM (RealKANGPT, loss curves есть)
⏳ Ablation studies для статьи
⏳ Код — скоро в открытом доступе
Почему это важно
KAN обещали interpretability + accuracy + efficiency. Первые два уже доказаны в литературе. Efficiency был blocker. Если TrueKAN воспроизводится — это убирает последний барьер для практического применения KAN в продакшене.
Бенчмарки сравнения взяты из github.com/Jerry-Master/KAN-benchmarking — те же условия, те же метрики.
Яндекс, Сбербанк - привет.
⚡19👍7🔥1
Техножнец
У меня два варианта быстрых. Я просто выбрал Чебышева...но... Кто знает...может Фурье тоже не промах... Мне как-то к нашему душа больше лежит...всего один WIN...и сразу к этим...к басурманам...наши лучше.
но...сукан...мало того, что он эффективнее т.к. выиграл...хоть и 1 раз...так он, сук, в 1,64 раза быстрее...на огромных инференсах это кость в горле и осознанный bottleneck (бутылочное горлышко)!!!!
Грёбаные рассчёты...ломают всю парадигму и привязку к нашему)))))))))
Грёбаные рассчёты...ломают всю парадигму и привязку к нашему)))))))))
❤4
По сути научный прорыв...Российские Институты...где вы? Как связаться с Курчатовским ? Есть контакты? Го.
👏23👍8🎉2😁1🤯1🥴1
Объединил своих 5 идей по поводу обучения без обратной пропагации. Это п***ц...если получится, то это пролёт в другое пространство.
🔥26👍7❤2🤯2
По РНБ работа кипит! Если раньше из тестов было завалено больше половины, то теперь всего 2%!
Сделал компактинг, длинную память. Работают сложные поиски и компиляции выводов модели с разными уточнениями.
Следующий шаг протестировать кодера, который делает диаграммы и ограничить ему инструкциями и алгоритмами эксплойты.
Далее уже можно отдавать на тесты!
Сделал компактинг, длинную память. Работают сложные поиски и компиляции выводов модели с разными уточнениями.
Следующий шаг протестировать кодера, который делает диаграммы и ограничить ему инструкциями и алгоритмами эксплойты.
Далее уже можно отдавать на тесты!
👍15🔥6🤝3👌1
Привет, синтеты!
Вот итоги:
Модель готова к тренировке:
Следующий шаг — запуск полноценной тренировки на A100.
На фоне сверхвыполненного плана по ускорению и подтверждению научного прорыва в области KAN архитектур, пришло осознание о замене и апгрейде токенизатора.
Вот итоги:
TrueKAN — научный прорыв подтверждён:
- Теорема Колмогорова-Арнольда (1957) впервые работает быстрее MLP
- 0.92x от скорости MLP на inference (на 8% быстрее!)
- 99.98% R² на высокочастотных функциях (MLP даёт 0.15%)
- CUDA-оптимизированные ядра с Chebyshev полиномами
- Все ablation studies пройдены и задокументированы
RUKANIZER_100K_V3 — лучший русский токенизатор:
- 100% reconstruction (ruGPT3 — 97.6%, ruBERT — 33%)
- 4.33 chars/token компрессия (на 10% лучше Сбера)
- Побеждает 14 токенизаторов: ruGPT3, ruBERT, mGPT, FRED_T5, Saiga
- №1 в 8 из 9 доменов (наука, новости, код, литература...)
- Обучен на 11.7 GB русского текста
Модель готова к тренировке:
- ~222M параметров
- 100K словарь
- 53.8M токенов в датасете
- Verified pattern: LayerNorm + Chebyshev + CUDA + JIT
Статистика разработки:
- 133 теста написано и выполнено
- 31 бенчмарк с сохранёнными результатами
- 6 инфографик для визуализации
Следующий шаг — запуск полноценной тренировки на A100.
Держу в курсе.
1🔥22❤5🎉2👍1😁1👌1
Техножнец
Привет, синтеты! На фоне сверхвыполненного плана по ускорению и подтверждению научного прорыва в области KAN архитектур, пришло осознание о замене и апгрейде токенизатора. Вот итоги: TrueKAN — научный прорыв подтверждён: - Теорема Колмогорова-Арнольда…
TrueKAN — почему это важно?
Представьте, что все автомобили в мире ездят максимум 100 км/ч. Так устроены двигатели — физический предел. И вдруг кто-то собирает машину, которая едет 108 км/ч. Причём не на секретном топливе, а на том же бензине.
Так вот: с 1957 года существует математическая теорема (Колмогорова-Арнольда), которая обещает более умные нейросети. Но все реализации были в 2-30 раз медленнее обычных. Красиво на бумаге — бесполезно на практике.
TrueKAN — первая реализация, которая работает быстрее стандарта. Теперь эту математику можно использовать в реальных продуктах.
RUKANIZER — зачем новый токенизатор?
Токенизатор — это как нейросеть "читает" текст. Она не видит буквы, она видит кусочки слов (токены).
Проблема: большинство токенизаторов сделаны для английского. Русское слово "переподготовка" они режут на 5-6 кусков, а английское "retraining" — на 2. Из-за этого русский текст обрабатывается медленнее и хуже.
RUKANIZER обучен на русском языке. Он режет русские слова умнее — в среднем 4.3 буквы на токен (у Сбера — 3.9). Меньше токенов = быстрее работает = дешевле считать.
Что в итоге?
Собираю русскоязычную нейросеть нового поколения:
Архитектура быстрее и умнее стандартной (TrueKAN)
Понимание русского языка лучше существующих решений (RUKANIZER)
222 миллиона параметров — достаточно для полезной работы
Следующий шаг — запустить обучение и посмотреть, как она заговорит.
🔥22⚡5❤3👍2🤓1