Forwarded from All about AI, Web 3.0, BCI
⚡️❗️ Breaking Ground in BCI: Science (Neuralink's Competitor) Unveils Revolutionary Biohybrid Neural Technology
Science, a neurotechnology company founded by former Neuralink President Max Hodak, has revealed a revolutionary approach to brain-computer interfaces (BCIs) that could fundamentally transform how we interact with the human brain.
Unlike traditional BCIs, including those developed by Neuralink, Science's innovative biohybrid approach utilizes living neurons instead of conventional electrodes.
The company has developed a unique technology where specially engineered neurons, derived from stem cells, are integrated with electronics before being implanted into the brain. The key innovation lies in keeping the neuron cell bodies within the device while allowing their axons and dendrites to naturally grow into the brain tissue, forming new connections with existing neurons.
This breakthrough approach offers several revolutionary advantages:
1. Natural Integration:
- A single implant of one million neurons can create over a billion synaptic connections
- The device occupies less than a cubic millimeter
- Forms genuine chemical synapses with brain cells
2. Versatility:
- Capability to use various neuron types (dopaminergic, cholinergic, glutamatergic)
- Ability to stimulate the brain using natural neurotransmitters
- Superior signal quality with lower power consumption
3. Scalability Potential:
- Technology can be scaled to millions of neurons
- Theoretical bandwidth comparable to the corpus callosum (the structure connecting brain hemispheres)
The development team is addressing several technical challenges:
1. Immunological Compatibility:
- Need to create immune-invisible cells
- Current personalized cell creation process is costly ($1M+) and time-consuming (months)
2. Cell Viability:
- Neurons must survive glycemic shock
- Protection from hypoxia is essential
- Proper glial support required
- Cells must mature within an active electronic device
Science has already published their first paper demonstrating this technology's capabilities.
While their biohybrid approach is still in early development, its potential is immense. It could solve the fundamental limitations of traditional BCIs - brain tissue damage during electrode implantation and limited long-term stability.
This development represents a significant departure from conventional BCI approaches, including those of Neuralink and other competitors. While Neuralink has focused on developing advanced electrode arrays, Science's biohybrid approach could potentially offer a more natural and sustainable solution for brain-computer integration.
The implications of this breakthrough extend beyond just technological advancement. It opens new possibilities for treating neurological conditions, restoring lost brain functions, and creating more natural brain-computer interfaces. If the technical challenges can be overcome, this technology could form the foundation for the next generation of neuroprosthetics and therapeutic devices.
This innovation underscores the rapid advancement in neurotechnology, with companies like Science and Neuralink pushing the boundaries of what's possible in brain-computer interfacing. The competition between these companies, led by visionary entrepreneurs like Max Hodak, continues to drive innovation in this crucial field, potentially bringing us closer to a future where seamless brain-computer integration becomes a reality.
Science's approach represents not just an incremental improvement but a paradigm shift in how we think about brain-computer interfaces, potentially offering a more biocompatible and sustainable solution for long-term neural interfacing.
Science, a neurotechnology company founded by former Neuralink President Max Hodak, has revealed a revolutionary approach to brain-computer interfaces (BCIs) that could fundamentally transform how we interact with the human brain.
Unlike traditional BCIs, including those developed by Neuralink, Science's innovative biohybrid approach utilizes living neurons instead of conventional electrodes.
The company has developed a unique technology where specially engineered neurons, derived from stem cells, are integrated with electronics before being implanted into the brain. The key innovation lies in keeping the neuron cell bodies within the device while allowing their axons and dendrites to naturally grow into the brain tissue, forming new connections with existing neurons.
This breakthrough approach offers several revolutionary advantages:
1. Natural Integration:
- A single implant of one million neurons can create over a billion synaptic connections
- The device occupies less than a cubic millimeter
- Forms genuine chemical synapses with brain cells
2. Versatility:
- Capability to use various neuron types (dopaminergic, cholinergic, glutamatergic)
- Ability to stimulate the brain using natural neurotransmitters
- Superior signal quality with lower power consumption
3. Scalability Potential:
- Technology can be scaled to millions of neurons
- Theoretical bandwidth comparable to the corpus callosum (the structure connecting brain hemispheres)
The development team is addressing several technical challenges:
1. Immunological Compatibility:
- Need to create immune-invisible cells
- Current personalized cell creation process is costly ($1M+) and time-consuming (months)
2. Cell Viability:
- Neurons must survive glycemic shock
- Protection from hypoxia is essential
- Proper glial support required
- Cells must mature within an active electronic device
Science has already published their first paper demonstrating this technology's capabilities.
While their biohybrid approach is still in early development, its potential is immense. It could solve the fundamental limitations of traditional BCIs - brain tissue damage during electrode implantation and limited long-term stability.
This development represents a significant departure from conventional BCI approaches, including those of Neuralink and other competitors. While Neuralink has focused on developing advanced electrode arrays, Science's biohybrid approach could potentially offer a more natural and sustainable solution for brain-computer integration.
The implications of this breakthrough extend beyond just technological advancement. It opens new possibilities for treating neurological conditions, restoring lost brain functions, and creating more natural brain-computer interfaces. If the technical challenges can be overcome, this technology could form the foundation for the next generation of neuroprosthetics and therapeutic devices.
This innovation underscores the rapid advancement in neurotechnology, with companies like Science and Neuralink pushing the boundaries of what's possible in brain-computer interfacing. The competition between these companies, led by visionary entrepreneurs like Max Hodak, continues to drive innovation in this crucial field, potentially bringing us closer to a future where seamless brain-computer integration becomes a reality.
Science's approach represents not just an incremental improvement but a paradigm shift in how we think about brain-computer interfaces, potentially offering a more biocompatible and sustainable solution for long-term neural interfacing.
Science Corporation
Biohybrid neural interfaces: an old idea enabling a completely new space of possibilities | Science Corporation
Science Corporation is a clinical-stage medical technology company.
1🔥12❤3⚡2
Протезы отстают от роботизированных рук и что с этим сделать
Давайте поговорим про руки - и про настоящие, и про искусственные. Своими вы пользуетесь каждый день, даже не задумываясь. А вот искусственные... они уже на подходе, и прогресс в этой области реально впечатляет! Посмотрите последние видосы от Tesla и Figure - их робо-руки уже почти неотличимы от человеческих по ловкости.
Зачем это всё?
Весь наш мир заточен под руки - от дверных ручек до смартфонов. Поэтому роботам, которые должны помогать нам в быту, просто необходимо научиться работать в нашем рукоцентричном мире.
За последние два года роботы сделали огромный скачок в управлении. Это работает примерно следующим образом. Берём трансформер, скармливаем ему кучу видео с человеческими движениями и учим повторять. По сути, робот учится на примерах.
Что с протезами?
Вот тут начинается самое интересное (и грустное). Логично подумать, что протезы развиваются так же круто, как роботы, или даже круче. Но нет. К сожалению, протезирование сильно отстаёт, особенно в управлении.
Как это работает сейчас: на культю крепится протез, который считывает электрические сигналы с мышц. Человек сокращает мышцы и протез начинает двигаться. На данный момент, управление ограничивается небольшим набором жестов, между которыми можно переключаться. Как будто играешь в игру с двумя кнопками.
Есть, конечно, эксперименты с вживлением электродов - там результаты огонь! Но до рынка эти решения пока не дошли.
Что мы можем с этим сделать?
Хочется, чтобы разрыв между роботами и протезами не был таким большим. Я считаю, что этого можно достичь с помощью активного использования AI.
Что если человек с ампутацией мог управлять отдельными пальцами? Мог бы печатать на клавиатуре? А играть на пианино?
Давайте прикинем как это можно сделать. Для начала ограничимся управлением в VR, а затем уж будем переносить на протезы. Погнали.
Задача 1. Управление пальцами в VR
Augmented Mirror Hand (MIRANDA): Advanced Training System for New Generation Prosthesis
старый постер: link
новое видео: youtube
В прошлом году мы с командой ALVI Labs показали что с помощью мышечных сигналов(EMG), человек без руки может управлять отдельными пальцами в VR.
По сути, мы взяли технологии от роботов, добавили свои фишки, и оно заработало! (q-former pre-train for imitation learning and fast instant finetuning.)
Данный подход необходимо расширить и добавить информацию о положении руки, чтобы сделать модель более устойчивой.
Задача 2. Печать в VR
TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision
https://arxiv.org/abs/2410.05940
Авторы предлагают улучшенную систему отслеживания рук для набора текста. Они объединили hand tracking с трансформерами, которые умно собирают всю информацию, поступающую от VR-очков, и фиксируют момент касания поверхности. Затем эти символы обрабатываются языковой моделью, которая понимает структуру языка и не допускает глупых ошибок.
Они создали пайплайн, полностью заточенный под одну конкретную задачу — печать. И вот это самое интересное: они сосредоточились на одном сценарии и довели его до ума. Нам нужно применять такой же подход для различных сценариев управления протезами.
Задача 3 Игра на пианино в VR
A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands
https://rp1m.github.io/
Двигаемся к игре на инструменте. Здесь можно научить модель играть на пианино. Затем объединить её с мышечными сигналами от человека. Примерно таким же способом как сделано для печати.
Итак, эти статьи могут быть подспорьем в новых исследованиях в протезировании. А мы будем держать руку на пульсе и делиться с вами новостями.
Давайте начнем верить в невозможное и постоянно пробовать, ошибаться и ещё раз пробовать. Только так можно пробить ограничения в наших взглядах и сделать то, что сегодня кажется фантастикой.
Давайте поговорим про руки - и про настоящие, и про искусственные. Своими вы пользуетесь каждый день, даже не задумываясь. А вот искусственные... они уже на подходе, и прогресс в этой области реально впечатляет! Посмотрите последние видосы от Tesla и Figure - их робо-руки уже почти неотличимы от человеческих по ловкости.
Зачем это всё?
Весь наш мир заточен под руки - от дверных ручек до смартфонов. Поэтому роботам, которые должны помогать нам в быту, просто необходимо научиться работать в нашем рукоцентричном мире.
За последние два года роботы сделали огромный скачок в управлении. Это работает примерно следующим образом. Берём трансформер, скармливаем ему кучу видео с человеческими движениями и учим повторять. По сути, робот учится на примерах.
Что с протезами?
Вот тут начинается самое интересное (и грустное). Логично подумать, что протезы развиваются так же круто, как роботы, или даже круче. Но нет. К сожалению, протезирование сильно отстаёт, особенно в управлении.
Как это работает сейчас: на культю крепится протез, который считывает электрические сигналы с мышц. Человек сокращает мышцы и протез начинает двигаться. На данный момент, управление ограничивается небольшим набором жестов, между которыми можно переключаться. Как будто играешь в игру с двумя кнопками.
Есть, конечно, эксперименты с вживлением электродов - там результаты огонь! Но до рынка эти решения пока не дошли.
Что мы можем с этим сделать?
Хочется, чтобы разрыв между роботами и протезами не был таким большим. Я считаю, что этого можно достичь с помощью активного использования AI.
Что если человек с ампутацией мог управлять отдельными пальцами? Мог бы печатать на клавиатуре? А играть на пианино?
Давайте прикинем как это можно сделать. Для начала ограничимся управлением в VR, а затем уж будем переносить на протезы. Погнали.
Задача 1. Управление пальцами в VR
Augmented Mirror Hand (MIRANDA): Advanced Training System for New Generation Prosthesis
старый постер: link
новое видео: youtube
В прошлом году мы с командой ALVI Labs показали что с помощью мышечных сигналов(EMG), человек без руки может управлять отдельными пальцами в VR.
По сути, мы взяли технологии от роботов, добавили свои фишки, и оно заработало! (q-former pre-train for imitation learning and fast instant finetuning.)
Данный подход необходимо расширить и добавить информацию о положении руки, чтобы сделать модель более устойчивой.
Задача 2. Печать в VR
TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision
https://arxiv.org/abs/2410.05940
Авторы предлагают улучшенную систему отслеживания рук для набора текста. Они объединили hand tracking с трансформерами, которые умно собирают всю информацию, поступающую от VR-очков, и фиксируют момент касания поверхности. Затем эти символы обрабатываются языковой моделью, которая понимает структуру языка и не допускает глупых ошибок.
Они создали пайплайн, полностью заточенный под одну конкретную задачу — печать. И вот это самое интересное: они сосредоточились на одном сценарии и довели его до ума. Нам нужно применять такой же подход для различных сценариев управления протезами.
Задача 3 Игра на пианино в VR
A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands
https://rp1m.github.io/
Двигаемся к игре на инструменте. Здесь можно научить модель играть на пианино. Затем объединить её с мышечными сигналами от человека. Примерно таким же способом как сделано для печати.
Итак, эти статьи могут быть подспорьем в новых исследованиях в протезировании. А мы будем держать руку на пульсе и делиться с вами новостями.
Давайте начнем верить в невозможное и постоянно пробовать, ошибаться и ещё раз пробовать. Только так можно пробить ограничения в наших взглядах и сделать то, что сегодня кажется фантастикой.
This media is not supported in your browser
VIEW IN TELEGRAM
🔥8❤🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Optimus Hand by Tesla
Управляется человеком в режиме реального времени.
Теперь стало 22 степени свободы на руку и 3 на кисть.
Выглядит очень натурально.
Про руки отдельный пост, посмотрите, если ещё не видели
https://t.me/neural_cell/209
Управляется человеком в режиме реального времени.
Теперь стало 22 степени свободы на руку и 3 на кисть.
Выглядит очень натурально.
Про руки отдельный пост, посмотрите, если ещё не видели
https://t.me/neural_cell/209
🔥5👍1
Обладатели визуальных нейро имплантов почти не используют их в реальной жизни.
Исследователи провели интервью с 6 разработчиками и 6 пользователями имплантов Argus II и Orion. Кстати, хоть выборка кажется маленькой, это целых 1.5% всех пользователей Argus II в мире и 67% пользователей Orion. То есть данные довольно показательные.
Оказалось, что разработчики сильно завышают полезность этих устройств. В то время как сами пользователи говорят, что они неудобные, "плохие" и вообще почти бесполезны в реальной жизни.
Как это часто бывает реальность и ожидания сильно не бьются. Теперь перейдем собственно к ним.
Реальность:
1. Для повседневных задач практически не применяются
2. Большинство пользователей полагается на уже освоенные методы (приложения, трости, собаки-поводыри)
3. Некоторые пользователи вообще перестали использовать импланты, потому что без них быстрее справляются
4. Единственное частое применение - социальное взаимодействие (понять, что кто-то подошел или движется рядом)
Что реально хотят пользователи:
1. Улучшенное качество "зрения". Возможность читать текст, распозновать лица, цвета, глубина.
2. Интеграция с современными технологиями
3. Реальную независимость в повседневной жизни
Главный урок: как бы вы не были восхищены своими технологиями, нужно в первую очередь убедиться, что ваша разработка реально решает проблемы пользователей. Иначе рискуете заниматься хоть и благородным, но бесполезным делом. Это, конечно, не касается фундаментальных исследований - изучать работу мозга полезно в любом случае. Но создавать продукт, которым не пользуются - пустая трата ресурсов.
Статья с исследованием: Aligning Visual Prosthetic Development With Implantee Needs
Ну и напоследок привожу чуть больше информации. Мой братан Claude сделал короткое саммари статьи, чтобы сэкономить вам время
Исследователи провели интервью с 6 разработчиками и 6 пользователями имплантов Argus II и Orion. Кстати, хоть выборка кажется маленькой, это целых 1.5% всех пользователей Argus II в мире и 67% пользователей Orion. То есть данные довольно показательные.
Оказалось, что разработчики сильно завышают полезность этих устройств. В то время как сами пользователи говорят, что они неудобные, "плохие" и вообще почти бесполезны в реальной жизни.
Как это часто бывает реальность и ожидания сильно не бьются. Теперь перейдем собственно к ним.
Реальность:
1. Для повседневных задач практически не применяются
2. Большинство пользователей полагается на уже освоенные методы (приложения, трости, собаки-поводыри)
3. Некоторые пользователи вообще перестали использовать импланты, потому что без них быстрее справляются
4. Единственное частое применение - социальное взаимодействие (понять, что кто-то подошел или движется рядом)
Что реально хотят пользователи:
1. Улучшенное качество "зрения". Возможность читать текст, распозновать лица, цвета, глубина.
2. Интеграция с современными технологиями
3. Реальную независимость в повседневной жизни
Главный урок: как бы вы не были восхищены своими технологиями, нужно в первую очередь убедиться, что ваша разработка реально решает проблемы пользователей. Иначе рискуете заниматься хоть и благородным, но бесполезным делом. Это, конечно, не касается фундаментальных исследований - изучать работу мозга полезно в любом случае. Но создавать продукт, которым не пользуются - пустая трата ресурсов.
Статья с исследованием: Aligning Visual Prosthetic Development With Implantee Needs
Ну и напоследок привожу чуть больше информации. Мой братан Claude сделал короткое саммари статьи, чтобы сэкономить вам время
Текущие возможности протезов:
- Argus II: 60 электродов на сетчатке глаза, дает очень базовое "зрение" - пользователи видят вспышки света (фосфены)
- Базовая навигация: различение высококонтрастных объектов, определение направления движения
- Максимум - помощь в ориентации и обнаружении крупных объектов
- Разрешение очень низкое - нельзя читать текст или различать лица
Что мешает независимости:
1. Технические ограничения:
- Устройство требует внешнюю камеру на очках
- Нужен процессор, который носится на поясе
- Провода и кабели мешают движению
- Батарея требует частой подзарядки
2. Функциональные ограничения:
- Нельзя самостоятельно читать этикетки, ценники, документы
- Сложно различать цвета и мелкие детали
- Проблемы с определением глубины и расстояния
- Сложность использования в условиях низкого контраста
3. Практические проблемы:
- Устройство замедляет выполнение задач по сравнению с привычными методами
- Требуется помощь при настройке и обслуживании
- Ограниченная надежность системы
- Высокая зависимость от освещения
Чего хотят пользователи для большей независимости:
1. Технические улучшения:
- Беспроводные решения без внешних проводов
- Встроенная обработка сигнала без внешнего процессора
- Более длительная работа от батареи
2. Функциональные возможности:
- Распознавание текста и лиц
- Определение цветов и контраста
- Лучшее восприятие глубины
- Работа в различных условиях освещения
3. Интеграция:
- Связь со смартфоном и другими устройствами
- Голосовая обратная связь
- AI-помощник для распознавания объектов
- Автоматическая оптимизация настроек
Короче, сейчас эти протезы дают очень базовое "зрение", которое помогает только в простой навигации и социальном взаимодействии. Для реальной независимости нужен серьезный апгрейд как железа, так и софта, плюс нормальная интеграция с современными технологиями.
👍8🔥5❤3👏1
tasty_bci_nov_2024.png
2.9 MB
tasty neuro bci papers which i like in november of 2024
[1/3]
🔘 Speech motor cortex enables BCI cursor control and click
tl;dr: demonstrated that ventral motor cortex (typically used for speech) can enable high-performance cursor control
• rapid calibration (40 seconds) and accurate control (2.90 bits/sec) from vPCG neural signals
• all 4 arrays showed click-related activity, with best cursor control from dorsal 6v area
• system enabled real-world computer use including Netflix browsing and gaming
link: https://doi.org/10.1101/2024.11.12.623096
🔘 Optogenetic stimulation of a cortical biohybrid implant guides goal directed behavior
tl;dr: novel BCI approach using living neurons on brain surface instead of invasive electrodes
• achieves 50% neuron survival by avoiding vascular damage during implantation
• transplanted neurons naturally integrate and show spontaneous activity
• mice successfully detect optogenetic stimulation to perform reward task
link: https://www.biorxiv.org/content/10.1101/2024.11.22.624907v1
press: https://science.xyz/technologies/biohybrid/
my thought:
speech motor cortex enabling netflix browsing in 40 seconds of calibration? that's the kind of real-world usability we've been waiting for. not just lab demos, but actual everyday control.
the biohybrid approach is tackling the integration problem from a completely different angle. getting living neurons to interface with the brain might sound complex, but it could be the elegant solution we need.
Pretty exciting to see BCI tech moving from "can we do it?" to "how do we make it better?"
[1/3]
tl;dr: demonstrated that ventral motor cortex (typically used for speech) can enable high-performance cursor control
• rapid calibration (40 seconds) and accurate control (2.90 bits/sec) from vPCG neural signals
• all 4 arrays showed click-related activity, with best cursor control from dorsal 6v area
• system enabled real-world computer use including Netflix browsing and gaming
link: https://doi.org/10.1101/2024.11.12.623096
tl;dr: novel BCI approach using living neurons on brain surface instead of invasive electrodes
• achieves 50% neuron survival by avoiding vascular damage during implantation
• transplanted neurons naturally integrate and show spontaneous activity
• mice successfully detect optogenetic stimulation to perform reward task
link: https://www.biorxiv.org/content/10.1101/2024.11.22.624907v1
press: https://science.xyz/technologies/biohybrid/
my thought:
speech motor cortex enabling netflix browsing in 40 seconds of calibration? that's the kind of real-world usability we've been waiting for. not just lab demos, but actual everyday control.
the biohybrid approach is tackling the integration problem from a completely different angle. getting living neurons to interface with the brain might sound complex, but it could be the elegant solution we need.
Pretty exciting to see BCI tech moving from "can we do it?" to "how do we make it better?"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍3
Gemini 2.0 Flash Thinking Experimental
Очень интересно наблюдать за рассуждениями. Советую!
Пока что бесплатно.
https://aistudio.google.com/
Очень интересно наблюдать за рассуждениями. Советую!
Пока что бесплатно.
https://aistudio.google.com/
Google
Google AI Studio
The fastest path from prompt to production with Gemini
❤3 1
tasty-visial-bci-nov-2024.png
9 MB
tasty visual bci papers which i like in november of 2024
[2/3]
MonkeySee: decoding natural images straight from primate brain activity
tl;dr: CNN decoder reconstructs what a monkey sees from its brain signals in V1, V4, and IT areas.
• neural signals from 576 electrodes in V1/V4/IT areas record monkey's response to visual stimuli
• decoder architecture is essentially U-Net with additional learned Gaussian layer mapping electrode signals to 2D space
• model trained on 22,248 images from THINGS dataset achieves high correlation with ground truth
• results show hierarchical processing: V1 better at low-level features, IT at high-level semantics
link: https://openreview.net/forum?id=OWwdlxwnFN
Precise control of neural activity using dynamically optimized electrical stimulation
tl;dr: new optimization approach for neural implants that uses temporal and spatial separation for precise control of neural activity
• the array was placed on retinal ganglion cells (RGCs).
• developed greedy algorithm that selects optimal sequence of simple stimuli.
• uses temporal dithering and spatial multiplexing to avoid nonlinear electrode interactions
• improves visual stimulus reconstruction accuracy by 40% compared to existing methods
link: https://doi.org/10.7554/eLife.83424
my thoughts
The MonkeySee decoder effectively reconstructs images by mirroring how our brain processes information, from basic features in V1 to deeper meanings in IT. While not entirely novel, their experiments are well-designed, using multiple electrodes to cover various visual areas, which is impressive.
Conversely, the electrical stimulation projects are making significant strides, employing clever timing and placement strategies to enhance stimulation. They aim to reduce nonlinear responses by adjusting the timing of stimulation. Perhaps incorporating reinforcement learning could elevate this further?
[2/3]
MonkeySee: decoding natural images straight from primate brain activity
tl;dr: CNN decoder reconstructs what a monkey sees from its brain signals in V1, V4, and IT areas.
• neural signals from 576 electrodes in V1/V4/IT areas record monkey's response to visual stimuli
• decoder architecture is essentially U-Net with additional learned Gaussian layer mapping electrode signals to 2D space
• model trained on 22,248 images from THINGS dataset achieves high correlation with ground truth
• results show hierarchical processing: V1 better at low-level features, IT at high-level semantics
link: https://openreview.net/forum?id=OWwdlxwnFN
Precise control of neural activity using dynamically optimized electrical stimulation
tl;dr: new optimization approach for neural implants that uses temporal and spatial separation for precise control of neural activity
• the array was placed on retinal ganglion cells (RGCs).
• developed greedy algorithm that selects optimal sequence of simple stimuli.
• uses temporal dithering and spatial multiplexing to avoid nonlinear electrode interactions
• improves visual stimulus reconstruction accuracy by 40% compared to existing methods
link: https://doi.org/10.7554/eLife.83424
my thoughts
The MonkeySee decoder effectively reconstructs images by mirroring how our brain processes information, from basic features in V1 to deeper meanings in IT. While not entirely novel, their experiments are well-designed, using multiple electrodes to cover various visual areas, which is impressive.
Conversely, the electrical stimulation projects are making significant strides, employing clever timing and placement strategies to enhance stimulation. They aim to reduce nonlinear responses by adjusting the timing of stimulation. Perhaps incorporating reinforcement learning could elevate this further?
❤4🔥3👍2
transformer-november-2024.png
1.9 MB
tasty multimodal transformer papers which i like in november of 2024
[3/3]
Here, i prepare papers with the model which process text and image embeddings. In all papers, authors used simple decoder architecture and predict next token. They work differently with images: normalizing flows, rectified flow, just mse between next and current tokens.
Multimodal Autoregressive Pre-training of Large Vision Encoders
by Apple
tldr: simple yet effective multimodal transformer
• one simple decoder which predict next img patches and next token.
• can be used for image understanding, img caption.
• bettter than sota contrastive models (SigLIP) in multimodal image understanding.
link: https://arxiv.org/abs/2411.14402
JetFormer: An Autoregressive Generative Model of Raw Images and Text by DeepMind
tl;dr: use normalizing flow instead of vqvae for image embeddings.
- train from scratch to model text and raw pixels jointly
- transformer predicts distribution of next image latents, so we will could sample during inference.
- normalizing flow do not lose information so potentially this approach might be good for understandings and generation at the same time.
link: https://arxiv.org/abs/2411.19722?s=35
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation by DeepSeek
tl;dr: combine next text token prediction with flow matching.
• model easily understands image and text prompt
• generate image embeddings from noise embeds via flow matching.
• use differeng image embeddings for understanding and for generation.
- understanding: [image - caption] : generation: [prompt -image]
link: https://arxiv.org/abs/2411.07975
my thoughts
Check out this tech plot twist - like something from an action movie! All the top labs are simultaneously ditching CLIP with its contrastive learning and switching to pure autoregression. And it makes total sense - why have separate encoders for images and text when you can teach one model to do it all?
DeepMind really went for it here - they straight up put normalizing flow right into the core architecture. Meanwhile, DeepSeek took a different route - mixing flow matching with VQVAE to enhance features. Both approaches work, and that's amazing! Apple's keeping up too - they built a super simple decoder that predicts both tokens and patches, and it just works better than SigLIP.
You know what's really cool? We're watching a new generation of models being born - universal, powerful, yet elegantly simple. The old CLIP+VQVAE combos will soon be history.
[3/3]
Here, i prepare papers with the model which process text and image embeddings. In all papers, authors used simple decoder architecture and predict next token. They work differently with images: normalizing flows, rectified flow, just mse between next and current tokens.
Multimodal Autoregressive Pre-training of Large Vision Encoders
by Apple
tldr: simple yet effective multimodal transformer
• one simple decoder which predict next img patches and next token.
• can be used for image understanding, img caption.
• bettter than sota contrastive models (SigLIP) in multimodal image understanding.
link: https://arxiv.org/abs/2411.14402
JetFormer: An Autoregressive Generative Model of Raw Images and Text by DeepMind
tl;dr: use normalizing flow instead of vqvae for image embeddings.
- train from scratch to model text and raw pixels jointly
- transformer predicts distribution of next image latents, so we will could sample during inference.
- normalizing flow do not lose information so potentially this approach might be good for understandings and generation at the same time.
link: https://arxiv.org/abs/2411.19722?s=35
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation by DeepSeek
tl;dr: combine next text token prediction with flow matching.
• model easily understands image and text prompt
• generate image embeddings from noise embeds via flow matching.
• use differeng image embeddings for understanding and for generation.
- understanding: [image - caption] : generation: [prompt -image]
link: https://arxiv.org/abs/2411.07975
my thoughts
Check out this tech plot twist - like something from an action movie! All the top labs are simultaneously ditching CLIP with its contrastive learning and switching to pure autoregression. And it makes total sense - why have separate encoders for images and text when you can teach one model to do it all?
DeepMind really went for it here - they straight up put normalizing flow right into the core architecture. Meanwhile, DeepSeek took a different route - mixing flow matching with VQVAE to enhance features. Both approaches work, and that's amazing! Apple's keeping up too - they built a super simple decoder that predicts both tokens and patches, and it just works better than SigLIP.
You know what's really cool? We're watching a new generation of models being born - universal, powerful, yet elegantly simple. The old CLIP+VQVAE combos will soon be history.
❤4🔥3👍1
Forwarded from Агенты ИИ | AGI_and_RL
Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек
Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек
Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
arXiv.org
Reinforcement Learning: An Overview
This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...
1❤7
Мы очень рады, что нас становится больше🙏
Будем стараться, чтобы посты выходили регулярно. В следующем году будем чаще делиться нашими собственными исследованиями!
Дайджесты статей за декабрь будут совсем скоро! Там интересно!
P.S. Будем рады пообщаться. Напишите в комментариях - что нравится\не нравится, чего хочется видеть больше.
Будем стараться, чтобы посты выходили регулярно. В следующем году будем чаще делиться нашими собственными исследованиями!
Дайджесты статей за декабрь будут совсем скоро! Там интересно!
P.S. Будем рады пообщаться. Напишите в комментариях - что нравится\не нравится, чего хочется видеть больше.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7🤗3
2024-december-neuro.png
2 MB
tasty neuro papers | december 2024
1️⃣ MiSO: Optimizing brain stimulation to create neural population activity states
what: Closed-loop framework combining cross-session alignment, CNN predictions and online optimization to find optimal brain stimulation patterns
paper: https://openreview.net/pdf?id=Gb0mXhn5h3
2️⃣ Evoking stable and precise tactile sensations via multi-electrode intracortical microstimulation of the somatosensory cortex
what: multi electrode stimulation works better than single-electrode :)
paper: https://www.nature.com/articles/s41551-024-01299-z
3️⃣ Moving beyond the motor cortex: a brain-wide evaluation of target locations for intracranial speech neuroprostheses
what: collect large sEEG dataset and find out that we can use not only motor cortex for speech decoding.
- novel sEEG dataset covering 3249 electrodes across 30 participants, enabling brain-wide analysis
- strongest decoding in Heschl's gyrus, inferior insula, and (sub)central sulcus bilaterally
paper: https://www.biorxiv.org/content/10.1101/2024.11.29.626019v1
dataset: https://osf.io/ak3dp/
4️⃣ Brain-JEPA: Brain Dynamics Foundation Model with Gradient Positioning and Spatiotemporal Masking NeurIps 2024 Spotlight
what: new SOTA foundation model for fMRI data.
they used functional connectivity as additional information and smart masking during model training.
paper: https://arxiv.org/abs/2409.19407
code: https://github.com/Eric-LRL/Brain-JEPA
what: Closed-loop framework combining cross-session alignment, CNN predictions and online optimization to find optimal brain stimulation patterns
paper: https://openreview.net/pdf?id=Gb0mXhn5h3
what: multi electrode stimulation works better than single-electrode :)
paper: https://www.nature.com/articles/s41551-024-01299-z
what: collect large sEEG dataset and find out that we can use not only motor cortex for speech decoding.
- novel sEEG dataset covering 3249 electrodes across 30 participants, enabling brain-wide analysis
- strongest decoding in Heschl's gyrus, inferior insula, and (sub)central sulcus bilaterally
paper: https://www.biorxiv.org/content/10.1101/2024.11.29.626019v1
dataset: https://osf.io/ak3dp/
what: new SOTA foundation model for fMRI data.
they used functional connectivity as additional information and smart masking during model training.
paper: https://arxiv.org/abs/2409.19407
code: https://github.com/Eric-LRL/Brain-JEPA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👏2🤗2
2024-december-generative-.png
939.8 KB
tasty generative papers | december 2024
1️⃣ Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
tl;dr: train vae on text and learn field from text features into image features.
- directly map text into images (noise free)
- to extract text features, they adapt vae and map vae features into image features
paper: https://cross-flow.github.io/
2️⃣ Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
tl:dr: Uses video diffusion's hidden states as a policy's visual backbone to predict actions.
- two-stage approach: first fine-tune video prediction on manipulation data, then learn policy using the internal representations
- it uses embeddings for predicted(future) video frames
paper: https://video-prediction-policy.github.io/
my thoughts. I wanna hightligh the second paper. they use "world model" as feature extractor about future. It gives better results. wow in my view it's exciting. Maybe we underrate future modelling in brain signal analysis. I think we have to focus more on generative model for brain computer interfaces.
tl;dr: train vae on text and learn field from text features into image features.
- directly map text into images (noise free)
- to extract text features, they adapt vae and map vae features into image features
paper: https://cross-flow.github.io/
tl:dr: Uses video diffusion's hidden states as a policy's visual backbone to predict actions.
- two-stage approach: first fine-tune video prediction on manipulation data, then learn policy using the internal representations
- it uses embeddings for predicted(future) video frames
paper: https://video-prediction-policy.github.io/
my thoughts. I wanna hightligh the second paper. they use "world model" as feature extractor about future. It gives better results. wow in my view it's exciting. Maybe we underrate future modelling in brain signal analysis. I think we have to focus more on generative model for brain computer interfaces.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1👏1🤗1
2024-december-transformers.png
904.2 KB
tasty ai papers | december 2024
1️⃣ Byte Latent Transformer: Patches Scale Better Than Tokens
what: train llama on raw bytes without a fixed vocabulary.
- dynamically patches bytes usign local small encoder
- main decoder process these patch in AR setting
- local deocder makes next byte prediction.
paper: https://arxiv.org/abs/2412.09871
2️⃣ Large Concept Models: Language Modeling in a Sentence Representation Space
what: work with entire sentences as "concepts" through SONAR embeddings.
- quite similar with the first paper here, but it merges tokens into high dim embeddings
- working with sentence-level embeddings directly.
paper: https://arxiv.org/abs/2412.08821
3️⃣ GenCast predicts weather and the risks of extreme conditions with state-of-the-art accuracy
what: Created a diffusion model for probabilistic weather forecasting that generates 15-day predictions with 12-hour steps
how:
- It aggregates two previous timesteps to predict the next weather state
- Instead of directly sampling weather state, it generates residuals (differences) relative to the previous state.
- Артемий в канале AI для Всех сделал ревью на русском, почитайте.
paper: https://www.nature.com/articles/s41586-024-08252-9
my thoughts:
Looks like we're finally getting closer to how humans actually process language, not just crunching tokens like robots. Whether it's patching bytes or bundling tokens into sentence embeddings, this hierarchical approach seems to be the way forward.
GenCast - is just super interesting adoption of modern AI to real problems in natural science.
what: train llama on raw bytes without a fixed vocabulary.
- dynamically patches bytes usign local small encoder
- main decoder process these patch in AR setting
- local deocder makes next byte prediction.
paper: https://arxiv.org/abs/2412.09871
what: work with entire sentences as "concepts" through SONAR embeddings.
- quite similar with the first paper here, but it merges tokens into high dim embeddings
- working with sentence-level embeddings directly.
paper: https://arxiv.org/abs/2412.08821
what: Created a diffusion model for probabilistic weather forecasting that generates 15-day predictions with 12-hour steps
how:
- It aggregates two previous timesteps to predict the next weather state
- Instead of directly sampling weather state, it generates residuals (differences) relative to the previous state.
- Артемий в канале AI для Всех сделал ревью на русском, почитайте.
paper: https://www.nature.com/articles/s41586-024-08252-9
my thoughts:
Looks like we're finally getting closer to how humans actually process language, not just crunching tokens like robots. Whether it's patching bytes or bundling tokens into sentence embeddings, this hierarchical approach seems to be the way forward.
GenCast - is just super interesting adoption of modern AI to real problems in natural science.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3🤗2
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
Просматривая статьи на NeurIps 24, увидел очень знакомую задачу.
Предсказание фМРТ по ЭЭГ активности. Смысл в том, что давайте одновременно запишем ЭЭГ и фМРТ и попробуем предсказать активность fMRI. Полностью фмрт восстанавливать разумеется очень сложно, поэтому мы будем предсказывать активность каких-нибудь больших регионов (RoI).
Моя магистерская была на эту тему, мы вместе с науч. рук-ем(A.Е. Оссадчий) сделали auto encoder с интерпретируемым слоем. И оно даже работало, разумеется с большими разбросами, но выдавала явно не случайные сигналы. Подавались на NeurIps 22, однако нас не взяли. Причины ясны, статья была сыроватой, мало сравнений с другими подходами и ablation study.
В этом году нашлись люди, которые довели задачу до ума. Применили модные молодежные трансформеры и сложную интеграцию разных электродов. В результате провели много сравнений с baseline(приятно что с нами тоже сравнились). Четко все обрисовали и показали лучший результат. В общем, достойно на мой взгляд.
Авторам респект!
Ссылки:
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
paper 2024: https://arxiv.org/abs/2410.05341
fMRI from EEG is only Deep Learning away: the use of interpretable DL to unravel EEG-fMRI relationships(BEIRA)
our preprint 2022: https://arxiv.org/abs/2211.02024
Просматривая статьи на NeurIps 24, увидел очень знакомую задачу.
Предсказание фМРТ по ЭЭГ активности. Смысл в том, что давайте одновременно запишем ЭЭГ и фМРТ и попробуем предсказать активность fMRI. Полностью фмрт восстанавливать разумеется очень сложно, поэтому мы будем предсказывать активность каких-нибудь больших регионов (RoI).
Моя магистерская была на эту тему, мы вместе с науч. рук-ем(A.Е. Оссадчий) сделали auto encoder с интерпретируемым слоем. И оно даже работало, разумеется с большими разбросами, но выдавала явно не случайные сигналы. Подавались на NeurIps 22, однако нас не взяли. Причины ясны, статья была сыроватой, мало сравнений с другими подходами и ablation study.
В этом году нашлись люди, которые довели задачу до ума. Применили модные молодежные трансформеры и сложную интеграцию разных электродов. В результате провели много сравнений с baseline(приятно что с нами тоже сравнились). Четко все обрисовали и показали лучший результат. В общем, достойно на мой взгляд.
Авторам респект!
Ссылки:
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
paper 2024: https://arxiv.org/abs/2410.05341
fMRI from EEG is only Deep Learning away: the use of interpretable DL to unravel EEG-fMRI relationships(BEIRA)
our preprint 2022: https://arxiv.org/abs/2211.02024
❤5🔥5🤗2
EEG2Video
Статья на Neurips 2024
У меня первый вопрос - это они серьезно?
Я сторонник решать крутые и реально сложные задачи. Но камоон, какие видео из ЭЭГ сигналов.
Теперь к статье.
Данные:
20 субъектов
1400 видеоклипов из 40 концептов
Каждый клип 2 секунды, 24 FPS
Модель.
- диффузия на фичах из мозга + предсказание семантической информации.
Метрики:
- Заявленная top-1 accuracy для 40 классов (6.20%) слишком близка к случайному угадыванию (2.50%)
- SSIM 0.256 для реконструкции видео - это низко конечно.
- Бинарная классификация fast/slow (57.35%) едва превышает случайные 50%
Но несмотря на вопросы к метрикам, авторы провели большую работу и записали интересный датасет, который обещают выложить. Это круто!
Выговорился.
Статья на Neurips 2024
У меня первый вопрос - это они серьезно?
Я сторонник решать крутые и реально сложные задачи. Но камоон, какие видео из ЭЭГ сигналов.
ЭЭГ дает нам суммарную активность миллионов нейронов с крайне низким пространственным разрешением(32/64 электрода на голове), а для видео нужны мельчайшие детали. Поэтому даже теоретически из ЭЭГ можно выцепить только очень грубые характеристики типа "человек видит что-то яркое" или "что-то движется", но никак не конкретные детали изображения.
Теперь к статье.
Данные:
20 субъектов
1400 видеоклипов из 40 концептов
Каждый клип 2 секунды, 24 FPS
Модель.
- диффузия на фичах из мозга + предсказание семантической информации.
Метрики:
- Заявленная top-1 accuracy для 40 классов (6.20%) слишком близка к случайному угадыванию (2.50%)
- SSIM 0.256 для реконструкции видео - это низко конечно.
- Бинарная классификация fast/slow (57.35%) едва превышает случайные 50%
Но несмотря на вопросы к метрикам, авторы провели большую работу и записали интересный датасет, который обещают выложить. Это круто!
Выговорился.
Forwarded from Агенты ИИ | AGI_and_RL
Есть вот такая эксплорилка архива.
https://www.alphaxiv.org/explore
Что-то типа https://huggingface.co/papers
Показывает тренды папир на архиве
К статьям можно оставлять комменты, ставить 👍 (если зарегаться)
Еще есть сообщества по темам, где статьи собираются по тематике
https://www.alphaxiv.org/communities
Короче прикольно, я точно буду пользоваться
PS А в телеге есть https://t.me/researchim
https://www.alphaxiv.org/explore
Что-то типа https://huggingface.co/papers
Показывает тренды папир на архиве
К статьям можно оставлять комменты, ставить 👍 (если зарегаться)
Еще есть сообщества по темам, где статьи собираются по тематике
https://www.alphaxiv.org/communities
Короче прикольно, я точно буду пользоваться
PS А в телеге есть https://t.me/researchim
Я, кстати, начал пользоваться недавно scholar inbox. В принципе штука прикольная, есть смысл поделиться 😉
Как пользоваться
- Вбиваете туда 10+ релевантных статей
- Лайкаете/дизлайкаете статьи, предложенные алгоритмом для тьюнинга рекомендаций
- Настраиваете частоту апдейтов, фильтры при желании
И всё, ваш персональный дайджест готов! Будут парсить все виды "архивов" и присылать вам на почту подборки.
На скрине пример моей ежедневной подборки препринтов.
Как пользоваться
- Вбиваете туда 10+ релевантных статей
- Лайкаете/дизлайкаете статьи, предложенные алгоритмом для тьюнинга рекомендаций
- Настраиваете частоту апдейтов, фильтры при желании
И всё, ваш персональный дайджест готов! Будут парсить все виды "архивов" и присылать вам на почту подборки.
На скрине пример моей ежедневной подборки препринтов.