the last neural cell
1.14K subscribers
91 photos
8 videos
14 files
116 links
we write about BCI, AI and brain research.

authors:
@kovalev_alvi - visual neural interfaces - UMH, Spain | CEO of ALVI Labs
@Altime - comp neuro phd @ GTC Tübingen

Our chat: @neural_cell_chat
Download Telegram
the last neural cell
Muscle-To-Motion Competition 2024 I’m happy to tell you about new competition! You've got 21 days to cook up the world's best prosthetic control system. This is the BCI competition, organized by ALVI Labs and BCI Initiative. Task: Predict finger movements…
Muscle-To-Motion Competition 2024: Final Week Countdown

Only 7 days remain in our prosthetic control system competition.

kaggle link: https://kaggle.com/c/bci-initiative-alvi-hci-challenge/overview

🔬 Challenge: Predict finger movements from EMG data
🏆 Impact: Your model will be tested on a real amputee
🚀 Leaderboard is tight!

Submissions close August 5th, 2024.
🔥5👻2🐳1
DeepPhase: periodic autoencoders for learning motion phase manifolds | 2022

Я сейчас занимаюсь LFP decomposition и наткнулся на старую, но интересную статью.

let's force model to learn periodic latents


Они получают компоненты с помощью свёрток(могут быть и RNN). Затем берут синусоиду и подгоняют ее под эти компоненты.

В конце, они проецируют эти синусы в пространство сигнала. Тоже свертками. И решают задачу реконструкции. Всё работает, потому что все операции дифференцируемые.

Зачем это нужно?

Чтобы понять внутреннюю структуру временных сигналов. Генерировать, интерполировать и так далее. Они применяли для движений. Я считаю что можно пробовать для других сигналов: EEG, LFP, ECoG.
Например, построить фазовые манифолды.

code

P. S. If you do not speak Russian, use the top "Translate to English" button.

#review
1🔥6👍5🦄1
🧬 Tasty AI papers | 01-31 July 2024

💎Vision models

Genie: Generative Interactive Environments

What: learn latent actions from videos (only) of games.
- predict future frames based on previous and latent actions.
- they trained actions to help model make transition between frames.
- just let’s AI model figures out commands by yourself.

SAM 2: Segment Anything in Images and Videos

What
: SAM now works well with videos.
- annotate big dataset of videos.
- add memory block to ensure temporal consistency of predicted mask.

💎 General

Mixture of A Million Experts

What: expand MoE for lots of experts.
- store low rank approx of experts.
- works better than dense FFN.

The Road Less Scheduled

What: propose schedule-free optimizer.
- one more thing that beats AdamW.
- easy to drop in your training pipeline.

🔘 Diffusion

Rolling Diffusion Models

What: incorporating temporal info in generative diffusion process for videos.
- let’s make denoising and predict next frames at the same time.
- hard math, but idea is interesting.

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

What: step into merging local and global planning.
Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories.


#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2🐳1
Tasty Neuro Papers | 01-31 July 2024

Brain decoding

🔘Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution

Кратко: pretrained transformer for spikes.

- Single-spike resolution, никакого rate coding.( На самом деле есть, но на маленьких бинах)
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.

🔘Semantic encoding during language comprehension at single-cell resolution

Кратко: Нашли нейроны, активирующиеся на конкретные значения слов во время речи.

- Реагируют на конкретные семантические категории слов (еда, животные и т.д.)
- Активность этих нейронов зависит от контекста предложения, а не просто от звучания слов
- Нейронная сеть может предсказать значение слова по активности этих клеток

Single-neuronal recordings were obtained from the prefrontal cortex of the language-dominant hemisphere in a region centred along the left posterior middle frontal gyrus
Мысли вслух. Скоро сделаем обзор на первую статьи(universal translator) и сравним с предыдущей "foundation" моделью POYO.
Мне лично нравится тенденция использовать все события(каждый спайк). Потому что при rate coding мы например имеем задержку и не можем некоторые быстро изменяющиеся вещи улавливать(саккады).

Соберите больше данных, а модель сама разберется -> пока что работает почти везде.

#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🕊1👻1
Geometric Machine Learning.

GREEN (Gabor Riemann EEG Net). Звучит мудрено, но идея простая: взяли обучаемые фильтры, добавили риманову геометрию и получили мощный инструмент для работы с ЭЭГ.
paper
code

Как это работает:

1. Пропускаем ЭЭГ через обучаемые фильтры. По факту свертки.
2. Смотрим, как каналы и частоты связаны. Строим ковариационную матрицу. (кстати, похоже на скоры в self-attention до софтмакса).
3. Потом идет магия с римановой геометрией. Фишка в том, что работают с целыми матрицами, а не векторами.

В итоге получаем крутые фичи для MLP, которые дают хорошие результаты.Интересно конечно попробовать сделать претрейн такой штуки с помощью contrastive learning. Может и получше потом задачи решать будет.

P.S. В сохраненках нашел статью про геометрию в ML с крутыми картинками:
Beyond Euclid: An Illustrated Guide to Modern Machine Learning with Geometric, Topological, and Algebraic Structures

Если работаете с нейроданными или просто любите ML - сохраните. Может пригодиться.

#review
3👍8🔥2👨‍💻2
Forwarded from Нейроинтерфейсы (Sergei Shishkin)
Сравнение разных преобразований:

Stefan Scholl. Fourier, Gabor, Morlet or Wigner: Comparison of Time-Frequency Transforms. arXiv, 17 Jan 2021, https://doi.org/10.48550/arXiv.2101.06707

В том числе красивые картинки:

a gallery of time-frequency representations of numerous signals from different fields of applications to allow for visual comparison
4👍2🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ИИ - это не только ценный смех, это еще и способ вернуть возможность говорить немым пациентам.

Говорить - это доводить до озвучки свои попытки в голове что-то сказать.

Если эксперимент удастся воспроизвести на более разнообразных текстовых данных, а не только для тех, что использовались в статье, то это (мне кажется) невыносимо круто, учитывая заявленную точность в 90% и выход на 97% после дотренировки.

Если на TLDR-пальцах:
Человеку имплантировали 4 электрода, которые регистрировали его нейроактивность. За 30-минут обучили ИИ превращать эти сигналы в текст. Текст озвучили с помощью text-2-speech. Это на словарном запасе 50 слов.
Но.
Потренировали еще полтора часа и вот уже словарный запас 125 000 слов (больше чем у любого школьника) и точность 90.2 процента.

Как тут не вспомнить про пластичность мозга, который может использовать новые сигналы взамен потерянных (кохлеарные имплантанты, писал тут 1 2 3), чтобы расшифровывать их в нужный канал восприятия (слух речь).
ИИ и есть эта пластичность в данном примере.

Для гиков.
Пациенту была проведена хирургическая имплантация четырех микроэлектродных массивов в левую прецентральную извилину, которые регистрировали нейронную активность с 256 внутрикорковых электродов. Такой нейропротез, декодировал его нейронную активность, когда он пытался говорить в условиях как заданной, так и неструктурированной беседы. Декодированные слова отображались на экране, а затем озвучивались с помощью text2speech. В первый день использования системы, после 30 минут попыток обучения речи, нейропротез достиг точности 99.6% при словарном запасе в 50 слов. На второй день объем возможного словарного запаса увеличился до 125 000 слов, и после 1.4 дополнительных часов обучения нейропротез достиг точности 90.2%. При дальнейшем обучении нейропротез сохранял точность 97.5% в течение восьми месяцев после хирургической имплантации. Участник использовал нейропротез для самостоятельного общения в течение более 248 часов. У человека с ALS и тяжелой дизартрией внутрикорковый речевой нейропротез достиг уровня производительности, пригодного для восстановления естественного общения, после короткого периода обучения.

Когда Маск сделает свою иголочку доступной на уровне амбулаторного укола в голову для всех, можно будет набирать текстовые сообщения молча. Нет, общаться с chatGPT молча. А еще круче - тихие Zoom-коллы. Все сидят в наушниках и молчат.

Если вы думаете, что все это шуточки, поглядите видео:
https://www.youtube.com/watch?v=thPhBDVSxz0

Немного не по себе после просмотра.
https://pubmed.ncbi.nlm.nih.gov/38645254/

А, самое значимое, код есть на Гитхабе.

@cgevent
👍4🔥3
Transformers for brain decoding | foundational models

Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.

🔘 POYO-1: A Unified, Scalable Framework for Neural Population Decoding
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.

🔘Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор

🔘Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.

Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.

Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.

Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)

Just my thought

Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)

P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)


#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥8👏3🤔2
Paper 01 | Transformers for brain decoding

POYO-1: A Unified, Scalable Framework for Neural Population Decoding

POYO: supervised, multi-session, multi-subject, multi-task transformer. У них было несколько обезьян, которых они просили решать простые двигательные задачи.
In total, we aggregated 178 sessions worth of data, spanning 29,453 units from the primary motor (M1), premotor (PMd), and primary somatosensory (S1) regions in the cortex of 9 nonhuman primates


paper
amazing visualization ❤️

Как это работает.


Для такого разнообразного датасета, обычно берут регрессии или rnn и учат их отдельно под каждое животное и даже под каждую сессию. А они решили пойти дальше. Мол у нас есть трансформер. Давайте в него все это запихнем и посмотрим, что получится. Но если тупо запихнуть то и получится тупо. Поэтому они и тут пошли дальше. Обычная практика взять спайки, посчитать их количество в маленьких окошках (пример 20ms) и работать с rate coding.

Авторы отказались от этого и работают со спайками напрямую. У нас есть спайки нейронов в разный момент времени. ВОТ ЭТО И БУДЕТ НАШ ТОКЕН. Каждый токен имеет инфу о времени и о нейроне (1 или 10 это же большая разница). Короче, сколько спайков было, столько токенов и получили.

Так, а что если мы записали много нейронов? Или они сильно спайкуют в какой-то момент. Тут на сцену выходит perceiver. Короче это такая архитектура, которая помогает уменьшить количество токенов до нужного нам. Например, хотим чтобы было 256.

Как работает? Да через learnable queries. Берем 256 learnable queries. закидываем в cross attention. Токены из мозга - key and values. То есть мы как бы нанизываем наше множество спайков на 256 векторов. То есть такой smart merging. Дальше работаем с latents. Идея не новая, но топ.

Ну а дальше все просто. Self attention на этих latent vectors. А затем ещё раз делают этот финт ушами и нанизывают эти 256 вектора на векторы какой-то задачи с time. Там их например может быть 25. или наоборот 1000. Любое число. И получаем предсказание. Затем лоссы считаем и радуемся жизни.

Я бы расширил идею и сделал бы pretrain. Они учили эту модель в supervised режиме, то есть всегда был таргет. А что если бы собрать раз в 10 больше сырых данных без учителя. И сделать претрейн такой штуки. Мы могли бы тоже попробовать что-то типа MAE восстанавливать пропущенные токены. Интересно получилось бы улучшить или нет?
Как это работает.

Обязательно посмотрите их визуализации. Они очень хорошие. Они очень основательно заебались потрудились.

#review
1👍10❤‍🔥32
Paper 02 | Transformers for brain decoding

Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity.

Кратко: применили MAE к нейронным спайкам, добавили инфу о сессии и subject. Получили продвинутый нейродекодер.
paper

Как это работает.
1. Разделение мозговой активности на 20мс интервалы. По сути, rate coding.
2. Группировка нейронов в "патчи", аналогично пикселям в vision-трансформерах.
3. Добавление информации о субъекте и сессии. Контекст играет ключевую роль.
4. Pretrain с помощью MAE.

My thought: Кажется надо как-то адаптивно разные каналы объединять. А то они просто конкатенацию сделали. Тут Perciever выглядит promising.

P.S. MAE претрейн реально работает! Пробовали для ЭМГ. Кстати если докидывать информацию о человеке, то тоже начинает лучше работать.

#review
🔥3👍21🥰1
Paper 03 | Transformers for brain decoding

Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution

Кратко: улучшили претрейн на нейро данных, изменив маскирование.
paper

Какие данные используют.
- Для записи данных использовали Neuropixels. Поставили его на несколько регионов, и просили 48 животных совершать разные задачи.
- Области: secondary visual areas, hippocampus, and thalamus

Как работает модель.
- Используют rate coding и модели NDT-1 and NDT-2
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.

Понятным языком. Они посмотрели как работает NDT-2 и решили что можно не совсем рандомно маскировать области, а как-то более осмысленно. Поэтому и придумали разные схемы маскирования. Там и будущее предсказывать и другие области и пропущенные нейроны. Плюс к тому, для каждого типа маскирования у нас свой токен-подсказака, которую они использовали для того, чтобы MAE лучше восстанавливал.

По итогу стало лучше, иначе статьи бы не было.

Мои мысли. Проведя небольшие параллели с прошлыми работами, то это такой микс POYO and NDT. В POYO решались разные supervised задачи, которые кодировались токенами. Вот они эту штуку адаптировали для unmasked задачи. Так и в качестве архитектуры использовали NDT.

По мне подход интересный, но не сильно прорывной. На мой взгляд предсказания будущего само по себе сложная задача и её может быть достаточно. Но могу и ошибаться конечно - надо проверять.
Сложный вопрос про токенизацию: как её делать? Представьте что у нас не 100 нейронов а 1000 или 10000 вот как с этим работать?

Что вы думаете о всех этих моделях? Давайте обсуждать.

#review
3🔥21
Tasty AI Papers | 01-31 August 2024

Robotics.

🔘Body Transformer: Leveraging Robot Embodiment for Policy Learning

what: one transformer to control whole body.
- propose Body Transformer (BoT)
- vanilla transformer with special attention mask, which reflects interconnection of the different body parts.

🔘CrossFormer Scaling Cross-Embodied Learning for Manipulation, Navigation, Locomotion, and Aviation

what: One transformer that can control various robot types.
- trained on 900K trajectories from 20 different robots.
- matches or beats specialized algorithms for each robot type.
- works on arms, wheeled bots, quadrupeds, and even drones.

Diffusion + AR Transformers

🟢Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

what: merge AR decoder with vanilla diffusion.
- train model with two objectives: causal language loss + diffusion objective
- deal with discrete and continuous in the same model.

🟡 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

what: propose diffusion for discrete distribution
- beats other diffusion approach for text generation
- outperforms gpt-2.

🟡Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

what: combine AR transformer with MaskGIT.
- can generate image and understand them.
- text tokenization + image tokenization. Use MaskGIT losses for image tokens.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍2
Tasty Neuro Papers | 01 - 31 August 2024

Decoding.

🟢An Accurate and Rapidly Calibrating Speech Neuroprosthesis

what: best speech neuroprosthetics.
- 256 intracortical electrodes recording.
- Up to 90% accuracy on open large vocabular: 125k
- model pipeline:
Conv to extract features → RNN to predict phonemes→ LM to combine phonemes probs with RNN outs→ LLM for candidates.

🔘An instantaneous voice synthesis neuroprosthesis

what: directly predict voice from the brain
- speech prosthesis is on fire this month
- remove step with words prediction and predict voice directly
- use causal conv and transformers architecture.
- predict tokenized audio vectors.

🔘Population Transformer: Learning Population-level Representations of Intracranial Activity

what: one more transformer for intracranial neural activity.
- Extract embeddings from each electrode separately then merge them in BERT-like encoder
- propose losses for pretraining stage.

Stimulation

🔘Biomimetic stimulation patterns drive natural artificial touch percepts using intracorticalmicrostimulation in humans

what: explore different stimulation for touch sensation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍21
🍓Introducing OpenAI o1-preview

A new series of reasoning models for solving hard problems.

Blogpost
Очень наглядно: как мозг исцеляет сердце. По сути, на картинке прообраз медицины нового типа.

Мы видим сердца мышей спустя 15 дней после инфаркта. Те, что справа, сохранились гораздо лучше — сердечной ткани больше, фиброзной меньше. В чем дело? В том, что правым мышам ежедневно стимулировали участок мозга, дофаминовые нейроны вентральной области покрышки (VTA). Это снизило воспаление и усилило заживление в сердце. Это также повлияло на печень — она стала вырабатывать больше белка, который помогает формировать новые кровеносные сосуды в поврежденной сердечной ткани. Сердце никто не лечил, только активировали клетки в мозге.

🔗 Статья в Nature Cardiovascular Research (полный текст, через vpn)
🔗 Пресс-релиз

Конечно, мыши не люди, и об этом стоит помнить. Но основания для оптимизма есть, поскольку тут мы не упираемся в различия молекул, генов и проч. [Продолжение] 👇
10🤔4