Sparse Hash AI

Напоминаю, что у канала есть группа для обсуждений.

137 views21:06

Зародыши мозга в лаборатории проявили спонтанную согласованную активность

У мини-мозга (органоида) зарегистрирована ритмическая электрическая активность.

———

Этой весной из нейронов со стохастическими бинарными синапсами я собрал свой искусственный мини-брэйн, и он так же, спустя некоторое время, затраченное на формирование связей, продемонстрировал ритмическую активность как и его биологический прототип. Причём путём тюнинга можно добиться практически меандра с крутыми фронтами.

Модель представляет собой полносвязную однослойную сеть. Коннектом самостоятельно формируется благодаря спонтанной активности нейронов.

Судя по карте весов, в сети самоорганизуется небольшая группа нейронов, берущих на себя функцию хабов, с которыми имеют слабые связи остальные нейроны.

142 views20:27

Sparse Hash AI

Forwarded from Алексей

Встретился мне в каком-то научпоп фильме эксперимент про иерархию. Стайным животным важно понимать своё и чужое место в иерархии. Эксперимент был, если не ошибаюсь, с гусями, которым демонстрировали разноцветные карточки. Левая половина карточки была закрашена в один цвет, правая в другой. Цвета соответствовали цифрам от 1 до 9 (или больше). Цветовое кодирование выбрано видимо для того, чтобы не обучать их ещё распознаванию чисел.

Обучали гусей поощрением едой при демонстрации и, соответственно, выборе гусем карточки, на которой правое число больше левого. А тестировали их на полном наборе. Через какое-то время гуси начинали выбирать верные карточки чаще случайного выбора. То есть, демонстрировали понимание, что 5 больше 1 и т.п.

Я смоделировал такой механизм. Причём он получился элементарным.

Понятно, что у нас есть две сущности с неким взаимоотношением. Можем представить каждую карточку уникальной парой чисел: 1-2. Соберём из тестового набора направленный граф, где вершинам соответствует числа, а ребро указывает на правое число в паре.

Поиск ответа для пары чисел [A, B], упорядоченной по возрастанию - это поиск пути в графе из вершины A в вершину B. Если путь найден, то порядок верный. That's all, folks!

Результаты

Набор из 10 элементов/чисел. Полное число комбинаций = 100; число комбинаций (a < b) = 45.
1) Доля обучающей выборки 25%. Среднее число попаданий 72%
2) Доля обучающей выборки 50%. Среднее число попаданий 88%

Подобный результат гуси и демонстрировали.

Далее я поиграл с количеством объектов и размером обучающей выборки. Перейду к самому интересному.

Набор из 1000 элементов/чисел. Полное число комбинаций = 1000000; число комбинаций (a < b) = 499500.
Доля обучающей выборки 10%. Среднее число попаданий 97%

Чем больше элементов в иерархии, тем точнее результат и тем меньше требуется обучающая выборка (в процентном отношении).

На один элемент из этого примера выходит примерно по 50 связей. То есть, связность вершин друг с другом довольно низкая, 50 / 1000 = 0.05. Но этого достаточно, чтобы связями сшить куски чего-то заранее неизвестной природы в некий континуум, пространство и затем находить в нём путь.

Для оптимизации поиска пути я применил ранее описанный алгоритм волны. "Глубина" распространения волны поиска оказалась менее 10 переходов. То есть, волна возбуждения прокатывается по цепочке длиной менее 10 вершин/нейронов, чтобы успеть найти путь, или затухнуть, если путь не найден. Такая короткая цепочка нейронов для поиска ответа среди 1000 элементов хорошо соответствует факту о небольшой длине нейронной цепи от сенсорных нейронов до моторных.

Так как элементы/вершины - это абстракция, можно получить такой же обучающий набор (и результаты) для других применений. Если привязать к текущим координатам направления взгляда бинаризованные векторы его смены (влево/вправо и вверх/вниз) в следующую позицию, то просто подвигав глазами десятки тысяч раз, получим две обучающие выборки, аналогичные из примера выше. Один граф станет выдавать пространственное отношение любых двух участков поля зрения по оси X, другой - по оси Y.

185 views21:40

Sparse Hash AI

Forwarded from Алексей

Автоматическое разбиение потока слов на слоги частично биоподобным образом

Первичные сенсорные области кодируют пары сигналов: текущий и предыдущий.
* см. ортогональное кодирование сенсорных сигналов

Аналогичным образом разделяем входной поток символов на пересекающиеся пары, и формируем из них поток биграмм.

'пыхтелка'

Входной поток символов:

[п, ы, х, т, е, л, к, а]

Выходной поток биграмм:

[пы, ых, хт, те, ел, лк, ка]

Слоги же представляют из себя непересекающиеся последовательности различной длины 2-4.

Собираем статистику по встречаемости каждой биграммы в корпусе текста.

пы       14
 ых      31
  хт     3
   те    219
    ел   236
     лк  29
      ка 584

Каждый символ присутствует в двух соседних биграммах потока. Относим символ к биграмме с большей встречаемостью.

п*
 ых
  **
   т*
    ел
     **
      ка

В результате некоторые биграммы оказываются 'пустыми', на их месте делаем вставку разделителя. После этого сливаем оставшиеся биграммы в выходной поток слогов.

пых
   тел
      ка

'пых-тел-ка'

Биграммы можно дополнять триграммами, но из-за более низкой частотности их влияние незначительно.

пы       14
 ых      31
  хт     3
   те    219
    ел   236
     лк  29
      ка 584
пых      1
 ыхт     2
  хте    1
   тел   48
    елк  9
     лка 8

#syllables

138 views00:40

Sparse Hash AI

Forwarded from Алексей

Модель переноса воспоминаний из рабочей памяти в долговременную

Telegraph

Модель переноса воспоминаний из рабочей памяти в долговременную

Две сети Сеть рабочей памяти и сеть долговременной памяти. Сети связаны друг с другом в одну комплексную сеть. Долговременная память может представлять из себя большую глубокую сеть, обучаемую обратным распространением ошибки. Рабочая память – однослойная…

118 views13:52

Sparse Hash AI

Global BP
https://telegra.ph/Global-BP-01-09

Telegraph

Global BP

Новая сеть. Назвал её условно Global BP.

163 views16:23

Sparse Hash AI

Forwarded from Data Secrets

Итак, разбор статьи про xLSTM уже можно найти на нашем сайте! В тексте вы найдете:

➡️ Пошаговое объяснение того, как работает ванильная LSTM. Разберетесь, даже если вы ничего не слышали про эту архитектуру до этого.

➡️ Структурированный разбор каждого улучшения, которое предложили ученые в xLSTM.

➡️ Множество схем и примеров.

➡️ Сравнение xLSTM с трансформерами.

➡️ Рассуждение на тему "имеют ли xLSTM шансы стать будущим LLM?"

Сохраняйте и читайте, не пожалеете: https://datasecrets.ru/articles/10

Please open Telegram to view this post

VIEW IN TELEGRAM

datasecrets.ru

Погружение в xLSTM – обновленную LSTM, которая может оказаться заменой трансформера | Data Secrets

Исследователи, которые в 1997 году изобрели архитектуру LSTM, спустя 27 лет выпустили «обновление». Разбираемся, как это работает, и почему может стать прорывом для больших языковых моделей.

33 views12:18

Sparse Hash AI

Quadruped
https://www.shadertoy.com/view/4cKXzm

Shadertoy

Build shaders, share them, and learn from the best community.

59 views13:13

Sparse Hash AI

Forwarded from Sber AI

Чем заменить Chain-of-Thought?

Исследователи из Нью-Йоркского университета рассмотрели в новой статье, могут ли языковые модели использовать в процессе рассуждений вместо известной техники промптинга цепочки повторяющихся одинаковых символов (“...”).

Chain-of-Thought — популярный способ повысить качество сгенерированных текстов (вместо того, чтобы отвечать сразу, модель просят давать комментарии по ходу решения задачи). Считается, что такой подход позволяет приблизить процесс её “мышления” к человеческому.

Что предположили авторы работы?

🤹 В некоторых случаях модели генерируют промежуточные токены между вопросом и окончательным ответом не для того, чтобы рассуждать, а с целью проведения вычислений, которые нужны ей для ответа на вопрос 🤓

🤹 Получается, во время “рассуждений” модели может использоваться и последовательность повторяющихся символов (filling tokens).

А в некоторых задачах такие токены могут оказаться даже предпочтительнее, чем генерация рассуждений, похожих на человеческие. В качестве доказательства этого тезиса приводятся два датасета 3SUM и 2SUM-Transform, содержащие задачи по нахождению трёх и двух чисел, дающих в сумме ноль, соответственно.

Для экспериментов брали модель Llama-34M*. У неё не получилось решить эти задачи без посторонней помощи, но использование filling tokens (в качестве промежуточных, сгенерированных между вопросом и финальным ответом модели) повысило точность до 94% (2SUM-Transform) и 100% (3SUM). Более того, промежуточные токены становились тем важнее, чем выше была сложность заданий.

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение New York University

Please open Telegram to view this post

VIEW IN TELEGRAM

29 views14:52

Sparse Hash AI

Forwarded from Sber AI

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Продолжаем изучать пользу, которую приносит нам 3D Gaussian Splatting. Этот метод генерации решил проблемы и длительного рендеринга, и обучения этому моделей 💥

Но есть нюансы ☺️

Результат всё же зависит от входной картинки. В тех случаях, когда ~~снято на тапок~~ изображение размыто или к движениям камеры есть претензии (они слишком резкие или трясущиеся 🤬), ту же нечёткость, плохое воссоздание деталей, скачки и потряхивания мы получим и на выходе.

Появилось решение. Нейросеть Deblur-GS из размытого “гуляющего” изображения делает “конфетку” 🎂

Стабилизирует видео, а объектам придаёт чёткие границы. Качество картинки значительно улучшается, движения становятся плавнее.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

33 views15:46

Sparse Hash AI

TKAN: Temporal Kolmogorov-Arnold Networks
https://arxiv.org/abs/2405.07344

Inspired by the Kolmogorov-Arnold Networks (KANs) a promising alternatives to MultiLayer Perceptrons (MLPs), we proposed a new neural networks architecture inspired by KAN and the LSTM, the Temporal Kolomogorov-Arnold Networks (TKANs). TKANs combined the strenght of both networks, it is composed of Recurring Kolmogorov-Arnold Networks (RKANs) Layers embedding memory management.

42 views16:04

Sparse Hash AI

Full causal self-attention layer in O(NlogN) computation steps and O(logN) time rather than O(N^2) computation steps and O(1) time, with a big caveat, but hope for the future.
https://www.reddit.com/r/MachineLearning/comments/1cri6h6/d_full_causal_selfattention_layer_in_onlogn/

- Автор утверждает, что разработал метод расчета полного causal self-attention слоя за O(N) шагов вычислений и время O(logN), что является значительным улучшением по сравнению с традиционными O(N^2) шагами вычислений.

- Метод включает в себя использование техники параллельного сканирования для вычисления базисных функций ряда Тейлора, которые затем используются для вычисления числителя и знаменателя softmax-активации полного causal self-attention слоя.

- В настоящее время этот метод неэффективен и непрактичен, но автор надеется, что он вдохновит на дальнейшие исследования по поиску более эффективных альтернатив.

45 views16:22

Sparse Hash AI

Convolutional Kolmogorov-Arnold Network (CKAN)

Convolutional-KANs: This project extends the idea of the innovative architecture of Kolmogorov-Arnold Networks (KAN) to the Convolutional Layers, changing the classic linear transformation of the convolution to learnable non linear activations in each pixel.

https://github.com/AntonioTepsich/Convolutional-KANs

40 views16:44

Sparse Hash AI

Forwarded from Новости нейронаук и нейротехнологий

Нейронауки в Science и Nature. Выпуск 286: не всякий сон влияет на контакты между нейронами

Согласно гипотезе синаптического гомеостаза, синапсы – контакты между нервными клетками – увеличиваются в количестве во время бодрствования и устраняются во время сна. Исследователи из Университетского колледжа Лондона выяснили, что таким эффектом обладает только сон «высокого давления», который случается после длительного бодрствования. Причем величина эффекта «синаптических потерь» зависит от подтипа нейронов. Подробности работы опубликованы в журнале Nature.

Читать дальше:
https://neuronovosti.ru/nejronauki-v-science-i-nature-vypusk-286-ne-vsyakij-son-vliyaet-na-kontakty-mezhdu-nejronami/

37 views16:15

Sparse Hash AI

Memory Mosaics
https://arxiv.org/abs/2405.06394

Memory Mosaics — это сеть ассоциативных воспоминаний, работающих совместно для решения интересующей задачи прогнозирования. Подобно трансформаторам, Memory Mosaics обладает композиционными способностями и возможностями контекстного обучения. В отличие от трансформаторов, Memory Mosaics реализует эти возможности сравнительно прозрачным образом. Мы демонстрируем эти возможности на игрушечных примерах, а также показываем, что Memory Mosaics работает так же или даже лучше, чем трансформеры, в задачах моделирования языка среднего масштаба.

Ключевые моменты:

- Производительность: Memory Mosaics соответствует или превосходит трансформеры в задачах языкового моделирования среднего масштаба.

- Прозрачность: в отличие от часто непрозрачной внутренней работы трансформеров, Memory Mosaics реализует свои возможности более интерпретируемыми средствами.

- Predictive Disentanglement Principle: этот принцип объясняет, как обучение разлагает задачи на независимо запоминаемые фрагменты, повышая эффективность и понимание.

Архитектура:

- Никакого позиционного кодирования не требуется.

- Блоки контекстной памяти заменяют традиционные головы внимания, предлагая новый подход к обработке последовательностей.

🔥1

78 views18:58

Sparse Hash AI

Forwarded from Блуждающий нерв

1:18

This media is not supported in your browser

VIEW IN TELEGRAM

Окно Эймса. Все знают комнату Эймса, а вот окно видели меньше. Хотя эта иллюзия не менее крута: реальный объект, без спецэффектов, просто крутится по часовой стрелке. Глаза смотрят, мозг конструирует гипотезы и не понимает, как такой объект возможен. И окончательно запутывается.

Когда много лет назад я выложил этот ролик в жж, некоторые сказали, что им все же удалось увидеть “истину”, мне же, как я ни старался, этого не удается до сих пор — восприятие все так же порабощает знание. Да, голос за кадром принадлежит Ричарду Грегори (Richard Gregory), выдающемуся когнитивному психологу ХХ века, одному из главных экспертов в области зрительного восприятия.

Окно Эймса отлично разобрал в своем видео блогер Veritasium, построив модели разных размеров (тот же ролик с русской озвучкой). И заодно — на днях в Frontiers вышла подборка статей “Будущее иллюзий восприятия: от феноменологии до нейронауки”, как раз в тему.

👍1

36 views11:20

Sparse Hash AI

а внутри у ней ~~неонка~~ Gradient Descent

Transformers learn in-context by gradient descent
https://arxiv.org/abs/2212.07677

краткое содержание с переводом по твиту:

Really fantastic paper for a new understanding of In-context Learning in Transformers

"Transformers learn in-context"

Контекстное обучение означает способность Трансформаторов адаптировать свои прогнозы на основе контекста, представленного во входной последовательности, без необходимости явной тонкой настройки или обновления параметров модели. Это позволяет Трансформаторам выполнять такие задачи, как пошаговое обучение, когда модель может учиться на небольшом количестве примеров, представленных во входном контексте.

Продолжение в комментах.

51 views18:31

Sparse Hash AI

1:58

Официальное заявление Скарлетт Йоханссон, в котором подробно описывается предполагаемое незаконное использование OpenAI ее голоса...

видео

37 views15:51

Sparse Hash AI

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
https://arxiv.org/abs/2405.12130

https://github.com/kongds/MoRA

36 views14:55

Sparse Hash AI

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning https://arxiv.org/abs/2405.12130 https://github.com/kongds/MoRA

твит

Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.

Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨

MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.

«MoRA: обновление высокого ранга для эффективной точной настройки параметров»

Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.

Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.

36 views14:56

About

Blog

Apps

Platform