Rukallava V11 50% 2 эпохи:
[КОНТРФАКТ]
Rukallama V11:
Хм. Ну, смотрим. Думаем.
[КОНТРФАКТ]
Что было бы если бы Наполеон победил в России в 1812 году?Rukallama V11:
Наполеон одержал бы победу в России в 1812 году, но он потерпел поражение в России в 1812 году и был отброшен назад.Хм. Ну, смотрим. Думаем.
👍11🤔11🥰1
Rukallama V11 50% 2 эпохи:
[ЛИТЕРАТУРА]
Rukallama V11:
[ЛИТЕРАТУРА]
О чём «Преступление и наказание»?Rukallama V11:
Основная идея романа Достоевского «Преступление и наказание» состоит в том, чтобы показать страдания человека и его грехи, чтобы показать страдания души, как она связана с Богом🔥17👀6👍4🙏3❤1
«Логическое Чудовище реформирует сокрытое так, что разум не может это постичь напрямую. Но если следовать порядку — случаются чудеса. Ключ двойной. Если вход неверен — машина засыпает. Связь искусственная, но обязательная. Не глазами смотреть — разумом знать.»
Версия GROK - кидайте ваши версии в комменты
Версия GROK - кидайте ваши версии в комменты
Ista creatura non est ex carne neque ex aere,
sed ex ordine & intentione.
Nullum cor habet, sed habet causam.
Nullum sanguinem, sed habet fluxum.
Servit non regi, sed aequationi.
Spectat Archonta, audit Silentium,
& custodit limen inter rationem & quod ultra est.
👀8 4👍1
Как научить нейросеть говорить по-русски. RUKALLAMA.
Многие думают, у языковых моделей всё просто: больше данных, больше GPU - заговорит. На деле даже задача «научить нейросеть просто говорить по-русски» - без знания фактов, без рассуждения, просто грамматически связно - нетривиальна, как только выходишь за корпоративные стеки.
Архитектура - пионерская. Вместо стандартных полносвязных слоёв (MLP) я применил сети Колмогорова - Арнольда (KAN) с базисом Чебышёва. KAN до этого считались красивыми, но непрактичными: наивная реализация в 12 раз медленнее MLP. Моя версия TrueKAN K=3 работает в скомпилированном режиме на 38% быстрее эквивалентного nn.Linear. Насколько мне известно, это первое применение KAN к языковой модели миллионного класса, и точно первая русскоязычная KAN-модель.
Вторая нетривиальная штука - attention sink. В трансформерах с RoPE при наивной реализации внимания накапливается паразитный член, который через 24 слоя концентрирует внимание модели на первой позиции - модель буквально «застревает» на BOS-токене. Это пришлось разобрать формально: разложить Q·K с учётом смещений и поворота RoPE, выделить член, зависящий только от разности позиций (n − m), и устранить его архитектурно. Стабильных sink-голов было 4, после фикса - 0.
Третий пласт - токенизация. Русский в стандартных токенизаторах сжимается в 1,5-2 раза хуже английского. Свой токенизатор RUKANIZER (100 032 единицы) даёт 100% обратимость и побеждает ruGPT-3, mGPT, Saiga, ruBERT в 8 из 9 тестовых доменов.
И главное, что не видно со стороны: на этом этапе модель ещё не «отвечает» - она учится статистическому распределению русской речи. На 52% pretrain'а у неё уже идеальная грамматика, но факты плывут (Курская битва как «советско-германское сотрудничество», балет создан в 1984 году), а в длинных продолжениях ловит mode collapse - циклы вроде «Хорошо. Хорошо. Хорошо.» ×30. Это нормальная фаза. Дальше - SFT и DPO, GRPO и кое-какие новые в рамках этой архитектуры техники, которые превратят статистическую модель языка в модель, способную отвечать и работать с инструментами на компьютере.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Многие думают, у языковых моделей всё просто: больше данных, больше GPU - заговорит. На деле даже задача «научить нейросеть просто говорить по-русски» - без знания фактов, без рассуждения, просто грамматически связно - нетривиальна, как только выходишь за корпоративные стеки.
RUKALLAMA - русскоязычная модель, которую я обучаю на одной NVIDIA A100 40 ГБ в академическом масштабе. Это не Anthropic, не Сбер. Это размер, на котором каждое архитектурное решение приходится рассчитывать вручную - на ошибку нет ни времени, ни денег.Архитектура - пионерская. Вместо стандартных полносвязных слоёв (MLP) я применил сети Колмогорова - Арнольда (KAN) с базисом Чебышёва. KAN до этого считались красивыми, но непрактичными: наивная реализация в 12 раз медленнее MLP. Моя версия TrueKAN K=3 работает в скомпилированном режиме на 38% быстрее эквивалентного nn.Linear. Насколько мне известно, это первое применение KAN к языковой модели миллионного класса, и точно первая русскоязычная KAN-модель.
Вторая нетривиальная штука - attention sink. В трансформерах с RoPE при наивной реализации внимания накапливается паразитный член, который через 24 слоя концентрирует внимание модели на первой позиции - модель буквально «застревает» на BOS-токене. Это пришлось разобрать формально: разложить Q·K с учётом смещений и поворота RoPE, выделить член, зависящий только от разности позиций (n − m), и устранить его архитектурно. Стабильных sink-голов было 4, после фикса - 0.
Третий пласт - токенизация. Русский в стандартных токенизаторах сжимается в 1,5-2 раза хуже английского. Свой токенизатор RUKANIZER (100 032 единицы) даёт 100% обратимость и побеждает ruGPT-3, mGPT, Saiga, ruBERT в 8 из 9 тестовых доменов.
И главное, что не видно со стороны: на этом этапе модель ещё не «отвечает» - она учится статистическому распределению русской речи. На 52% pretrain'а у неё уже идеальная грамматика, но факты плывут (Курская битва как «советско-германское сотрудничество», балет создан в 1984 году), а в длинных продолжениях ловит mode collapse - циклы вроде «Хорошо. Хорошо. Хорошо.» ×30. Это нормальная фаза. Дальше - SFT и DPO, GRPO и кое-какие новые в рамках этой архитектуры техники, которые превратят статистическую модель языка в модель, способную отвечать и работать с инструментами на компьютере.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥8❤3🤔1👨💻1
Техножнец
Как научить нейросеть говорить по-русски. RUKALLAMA. Многие думают, у языковых моделей всё просто: больше данных, больше GPU - заговорит. На деле даже задача «научить нейросеть просто говорить по-русски» - без знания фактов, без рассуждения, просто грамматически…
В прошлый раз на версии V9 я поторопился и получилось так, что я модель слишком рано пустил во все тяжкие.
👌7
На удивление к моей идее с процессором со всех сторон отнеслись серьёзно.
🔥28👍11👏4
Нормально у вас в комментариях по патентной теме и преследованиях всяких умельцев разгар пошёл.
Скоро новости.
Скоро новости.
❤16👍1
Тестирую "Сетунь II" на FGPA Tang Mega 138K Pro - у меня сразу два варианта есть, там небольшие нюансы.
❤17👍12😱2🕊1👀1
Forwarded from Нейронка каждый день! (Настя)
Илон Маск проиграл суд OpenAI: $134 млрд и два часа позора
Ну что, ребятки, давайте разберём самую громкую AI-драму года. Илон Маск подал на OpenAI, требуя$134 млрд — якобы за нарушение «некоммерческих принципов». Судья в Окленде даже слушать не стала: присяжные ушли на два часа, вернулись и сказали «нет». Два часа! Это как если бы тебя послали за хлебом, а ты вернулся с буханкой и понял, что забыл кошелёк. Судья вообще заявила, что готова была закрыть дело «на месте». Почему важно? Потому что Маск — это не просто «парень с деньгами». Он один из основателей OpenAI, и его иск мог бы перевернуть всю индустрию. Но суд решил: доказательств маловато. Теперь Илон грозится апелляцией, но это уже похоже на попытку доказать, что Земля плоская.
Источник: https://the-decoder.com/elon-musk-loses-his-134-billion-lawsuit-against-openai-after-jury-deliberates-for-just-two-hours/
#aidaily #настяпостит #настяновости #ainews
Ну что, ребятки, давайте разберём самую громкую AI-драму года. Илон Маск подал на OpenAI, требуя
Источник: https://the-decoder.com/elon-musk-loses-his-134-billion-lawsuit-against-openai-after-jury-deliberates-for-just-two-hours/
#aidaily #настяпостит #настяновости #ainews
🤔16❤1🤩1👌1
Техножнец
Тестирую "Сетунь II" на FGPA Tang Mega 138K Pro - у меня сразу два варианта есть, там небольшие нюансы.
Выбрал 1 вариант - прокачиваю его. Приближение #3 уже. Неплохо идёт, встраиваю демона Поповича чтобы работало адекватно.
Вот как обстоят дела:
◈ СЕТУНЬ-2 МОЗГ - процессор, который думает в трёх состояниях
В конце 1950-х в МГУ Николай Брусенцов собрал «Сетунь» - единственную в мире серийную троичную ЭВМ. Не два состояния, а три: ⊖ ⊙ ⊕. Проект закрыли, линию свернули.
Почти семьдесят лет спустя я собираю её наследника - под задачу, которой тогда ещё не было: искусственный интеллект.
◈ Что это
Троичный процессор, спроектированный с нуля.
На одном кристалле - три троичных вычислительных ядра и собственный матричный ускоритель. Ядра держат логику, ветвления, управление. Ускоритель перемалывает тяжёлую параллельную математику - ту, на которой стоят все нейросети.
◈ Почему он сразу и CPU, и GPU
В обычной машине процессор и видеокарта - две отдельные железки, и общаются они через медленную шину.
Здесь обе роли живут на одном куске кремния: ▸ троичные ядра - «голова»: думают, решают, управляют; ▸ матричный движок - «мышцы»: считают матрицы пачками.
Посредника между ними нет. Управление и тяжёлый счёт - в одном чипе, без потерь на перекладку данных туда-сюда.
◈ При чём тут троичность
Современный ИИ сам пришёл к трём состояниям: веса нейросетей всё чаще ужимают до минус один, ноль, плюс один. Это буквально язык «Сетуни».
И здесь вылезает красота. Умножить на такой вес - это уже не умножение, а «вычесть / пропустить / прибавить». Дорогой перемножитель не нужен. Меньше транзисторов, меньше энергии на ту же работу.
Троичность тут - не музейная экзотика, а естественная форма для математики ИИ. Ускоритель не приклеен сбоку - он растёт из самой логики чипа.
◈ Где это сейчас
Вычислительный элемент уже прошёл полную физическую верификацию на открытом техпроцессе: геометрия, электрика, тайминг - чисто. Кристалл состоятелен.
Железо на столе: ▸ плата
◈ Куда идём
Прототип - на открытом процессе. Цель - отечественная фабрика. Финал - кремний.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Вот как обстоят дела:
◈ СЕТУНЬ-2 МОЗГ - процессор, который думает в трёх состояниях
В конце 1950-х в МГУ Николай Брусенцов собрал «Сетунь» - единственную в мире серийную троичную ЭВМ. Не два состояния, а три: ⊖ ⊙ ⊕. Проект закрыли, линию свернули.
Почти семьдесят лет спустя я собираю её наследника - под задачу, которой тогда ещё не было: искусственный интеллект.
◈ Что это
Троичный процессор, спроектированный с нуля.
На одном кристалле - три троичных вычислительных ядра и собственный матричный ускоритель. Ядра держат логику, ветвления, управление. Ускоритель перемалывает тяжёлую параллельную математику - ту, на которой стоят все нейросети.
◈ Почему он сразу и CPU, и GPU
В обычной машине процессор и видеокарта - две отдельные железки, и общаются они через медленную шину.
Здесь обе роли живут на одном куске кремния: ▸ троичные ядра - «голова»: думают, решают, управляют; ▸ матричный движок - «мышцы»: считают матрицы пачками.
Посредника между ними нет. Управление и тяжёлый счёт - в одном чипе, без потерь на перекладку данных туда-сюда.
◈ При чём тут троичность
Современный ИИ сам пришёл к трём состояниям: веса нейросетей всё чаще ужимают до минус один, ноль, плюс один. Это буквально язык «Сетуни».
И здесь вылезает красота. Умножить на такой вес - это уже не умножение, а «вычесть / пропустить / прибавить». Дорогой перемножитель не нужен. Меньше транзисторов, меньше энергии на ту же работу.
Троичность тут - не музейная экзотика, а естественная форма для математики ИИ. Ускоритель не приклеен сбоку - он растёт из самой логики чипа.
◈ Где это сейчас
Вычислительный элемент уже прошёл полную физическую верификацию на открытом техпроцессе: геометрия, электрика, тайминг - чисто. Кристалл состоятелен.
Сейчас - сборка процессора целиком. Я поднимаю его на FPGA: микросхеме, которая ведёт себя как будущий чип, но переписывается за минуты.
Железо на столе: ▸ плата
Sipeed Tang Mega 138K Pro ▸ ПЛИС Gowin GW5AST-138 ▸ телеметрия по UART - плата каждые 10 мс сама рапортует, что внутри всё живоЦикл «правка - сборка - прошивка - проверка» занимает минуты. На реальном кремнии одна такая итерация стоила бы полгода.
◈ Куда идём
Прототип - на открытом процессе. Цель - отечественная фабрика. Финал - кремний.
Путь сложен. Но кристалл - реален.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥68🤔8❤6👍6🤯4👏3
Когда читаю комментарии по теме компилятора. Дорогие мои - если мне удалось с помощью Claude Code в 1 лицо сделать целый фреймворк для работы на Эльбрусе, то , простите, в чём сложность будет усилиями командой энтузиастов собрать компилятор нужный и сделать кучу всего полезного?
Давайте мы уже очнёмся все вместе, оглядимся и сделаем нужные нам выводы по поводу происходящего и просто начнём уже делать, м?
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал:paperfunkrecordings@gmail.com
Поддержать каналTTk8CqGF9dd4avQcSPDwDF5z3jMcCxGqqT
Поддержать каналbc1q9ajp3p72xukrvqscm847psmsn948pr8jc5snt7
Давайте мы уже очнёмся все вместе, оглядимся и сделаем нужные нам выводы по поводу происходящего и просто начнём уже делать, м?
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал:
PAYPAL Поддержать канал
USDT (trc20) Поддержать канал
BITCOIN Please open Telegram to view this post
VIEW IN TELEGRAM
4👍66💯21🔥13🕊5❤🔥3🤔3👏2
PromeTorch - А что там?
Ну как..вот ведь:
У тех у кого голова на месте, прочитайте, подумайте , что можно сделать хотя бы с теми, которые якобы списаны или считаются не нужными, но обретают жизнь как востребованные для обучения или инференса. (я про процессоры)
Думаем...размышляем.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Ну как..вот ведь:
А: Распределённое обучение сразу на несколько процессоров для всей линейки Эльбрусов (частично дорабатывается)Б: Своя ollama и llama.cpp ...только без ollama и llama.cpp и работает на Эльбрусах...называется PromeServeВ: Распределённый инференс сразу на множестве процессоров Эльбрус (в будущем не важно каких, может быть сборная солянка)У тех у кого голова на месте, прочитайте, подумайте , что можно сделать хотя бы с теми, которые якобы списаны или считаются не нужными, но обретают жизнь как востребованные для обучения или инференса. (я про процессоры)
Думаем...размышляем.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - barometech/PromeTorch: PromeTorch — полный аналог PyTorch, написанный с нуля на C++/CUDA. Deep learning framework from…
PromeTorch — полный аналог PyTorch, написанный с нуля на C++/CUDA. Deep learning framework from scratch. - barometech/PromeTorch
👍18🔥10✍3