[1/4]
tasty diffusion papers - october 2024
Let's dive into video generation and "world models"
Diffusion for World Modeling: Visual Details Matter in Atari
what: DIAMOND: DIffusion As a Model Of eNvironment Dreams
- diffusion world model allows to train RL agent
- also you can play in the game.
- atari + CS GO
link: https://diamond-wm.github.io/
Oasis: A Universe in a Transformer
what: transform action into minecraft frames
- get latest N frames and action as input.
- DIT transformer generate next frame.
- Trained on Minecraft environment.
link: https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
MarDini: Masked Auto-Regressive Diffusion for Video Generation at Scale
what: video generator with two models.
- planning model: masked auto-regression works on low quality
- DM focuses on detailed spatial modelling.
- image-to-video, video interpolation
link: https://mardini-vidgen.github.io/
Pyramidal Flow Matching for Efficient Video Generative Modeling
what: pyramidal flow matching with DIT to generate videos model
- "first steps are usually very noisy and less informative" so we can start with low resolution scale and than increase it.
link: https://arxiv.org/abs/2410.05954
tasty diffusion papers - october 2024
Let's dive into video generation and "world models"
Diffusion for World Modeling: Visual Details Matter in Atari
what: DIAMOND: DIffusion As a Model Of eNvironment Dreams
- diffusion world model allows to train RL agent
- also you can play in the game.
- atari + CS GO
link: https://diamond-wm.github.io/
Oasis: A Universe in a Transformer
what: transform action into minecraft frames
- get latest N frames and action as input.
- DIT transformer generate next frame.
- Trained on Minecraft environment.
link: https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
MarDini: Masked Auto-Regressive Diffusion for Video Generation at Scale
what: video generator with two models.
- planning model: masked auto-regression works on low quality
- DM focuses on detailed spatial modelling.
- image-to-video, video interpolation
link: https://mardini-vidgen.github.io/
Pyramidal Flow Matching for Efficient Video Generative Modeling
what: pyramidal flow matching with DIT to generate videos model
- "first steps are usually very noisy and less informative" so we can start with low resolution scale and than increase it.
link: https://arxiv.org/abs/2410.05954
❤3🔥2👏2
transformers-october-2024.png
2 MB
tasty transformer papers | october 2024
[2/4]
Differential Transformer
what: small modification for self attention mechanism.
- focuses on the most important information, ignoring unnecessary details.
- it does this by subtracting one attention map from another to remove "noise."
link: https://arxiv.org/abs/2410.05258
Pixtral-12B
what: good multimodal model with simple arch.
- Vision Encoder with ROPE-2D: Handles any image resolution/aspect ratio natively.
- Break Tokens: Separates image rows for flexible aspect ratios.
- Sequence Packing: Batch-processes images with block-diagonal masks, no info “leaks.”
link: https://arxiv.org/abs/2410.07073
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
what: maskGIT with continual tokens.
- get vae with quantized loss but do not use quantization in decoder ( stable diffusion)
- propose BERT-like model to generate in random-order.
- ablation shows that bert-like better than gpt-like for images(tbh small improvements)
link: https://arxiv.org/abs/2410.13863
UniMTS: Unified Pre-training for Motion Time Series
what: one model to handle different device positions, orientations, and activity types.
- use graph convolution encoder to work with all devices
- contrastive learning with text from LLMs to “get” motion context.
- rotation-invariance: doesn’t care about device angle.
link: https://arxiv.org/abs/2410.19818
my thoughts
I'm really impressed with the Differential Transformer metrics. They made such a simple and clear modification. Basically, they let the neural network find not only the most similar tokens but also the irrelevant ones. Then they subtract one from the other to get exactly what's needed.
This approach could really boost brain signal processing. After all, brain activity contains lots of unnecessary information, and filtering it out would be super helpful. So it looks promising.
Mistral has really nailed how to build and explain models. Clear, brief, super understandable. They removed everything unnecessary, kept just what's needed, and got better results. The simpler, the better!
[2/4]
Differential Transformer
what: small modification for self attention mechanism.
- focuses on the most important information, ignoring unnecessary details.
- it does this by subtracting one attention map from another to remove "noise."
link: https://arxiv.org/abs/2410.05258
Pixtral-12B
what: good multimodal model with simple arch.
- Vision Encoder with ROPE-2D: Handles any image resolution/aspect ratio natively.
- Break Tokens: Separates image rows for flexible aspect ratios.
- Sequence Packing: Batch-processes images with block-diagonal masks, no info “leaks.”
link: https://arxiv.org/abs/2410.07073
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
what: maskGIT with continual tokens.
- get vae with quantized loss but do not use quantization in decoder ( stable diffusion)
- propose BERT-like model to generate in random-order.
- ablation shows that bert-like better than gpt-like for images(tbh small improvements)
link: https://arxiv.org/abs/2410.13863
UniMTS: Unified Pre-training for Motion Time Series
what: one model to handle different device positions, orientations, and activity types.
- use graph convolution encoder to work with all devices
- contrastive learning with text from LLMs to “get” motion context.
- rotation-invariance: doesn’t care about device angle.
link: https://arxiv.org/abs/2410.19818
my thoughts
I'm really impressed with the Differential Transformer metrics. They made such a simple and clear modification. Basically, they let the neural network find not only the most similar tokens but also the irrelevant ones. Then they subtract one from the other to get exactly what's needed.
This approach could really boost brain signal processing. After all, brain activity contains lots of unnecessary information, and filtering it out would be super helpful. So it looks promising.
Mistral has really nailed how to build and explain models. Clear, brief, super understandable. They removed everything unnecessary, kept just what's needed, and got better results. The simpler, the better!
🔥11❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
❤18🙏4😁1🤮1
neuro-october.png
4.6 MB
tasty neuro bci papers - october 2024
[3/4]
Synthetic touch for brain-controlled bionic hands: tactile edges and motion via patterned microstimulation of the human somatosensory cortex
what: complex touch sensations using patterned brain stimulation. Participants felt edges, shapes, and motion.
- Uses multiple electrodes firing in patterns in somatosensory cortex (S1)
- Creates edge and shape sensations
- Controls motion direction and speed
- Winner of BCI AWARD 2024
video: https://youtu.be/ipojAWqTxAA
Measuring instability in chronic human intracortical neural recordings towards stable, long-term brain-computer interfaces
what: metric to track distribution shift
- apply KL divergence for neural recording
- show that it's well correlated with decoder performance.
- good thing to track moment of recalibration.
link: https://www.nature.com/articles/s42003-024-06784-4
Accurate neural control of a hand prosthesis by posture-related activity in the primate grasping circuit
what: hand prosthetic control using neural posture signals instead of traditional velocity. Achieves precision grip control in macaques.
- Uses posture transitions vs standard velocity control
- Works with 3 brain areas (AIP, F5, M1)
- Matches natural hand control patterns
link: https://www.cell.com/neuron/abstract/S0896-6273(24)00688-3
my thoughts
Shift from "feeling dots" to "feeling objects" is amazing. That's like upgrading from morse code to actual writing for touch sensations. For sure, it's not perfect and we have to continue. In my view we should focus on "smart" stimulation. Which can use diverse feedback from participant. Maybe mix of RL and SFT.
Measuring changes in the neural recording is must have in any bci application. KL div is good starting point. however, plots show smooth performance degradation. So potentially we could capture this shift day by day and somehow fix it. For example, it's interesting to consider "stabilizer model" which should to match shifted data into original distribution. Flow matching, diffusion, or just AE with KL loss.
[3/4]
Synthetic touch for brain-controlled bionic hands: tactile edges and motion via patterned microstimulation of the human somatosensory cortex
what: complex touch sensations using patterned brain stimulation. Participants felt edges, shapes, and motion.
- Uses multiple electrodes firing in patterns in somatosensory cortex (S1)
- Creates edge and shape sensations
- Controls motion direction and speed
- Winner of BCI AWARD 2024
video: https://youtu.be/ipojAWqTxAA
Measuring instability in chronic human intracortical neural recordings towards stable, long-term brain-computer interfaces
what: metric to track distribution shift
- apply KL divergence for neural recording
- show that it's well correlated with decoder performance.
- good thing to track moment of recalibration.
link: https://www.nature.com/articles/s42003-024-06784-4
Accurate neural control of a hand prosthesis by posture-related activity in the primate grasping circuit
what: hand prosthetic control using neural posture signals instead of traditional velocity. Achieves precision grip control in macaques.
- Uses posture transitions vs standard velocity control
- Works with 3 brain areas (AIP, F5, M1)
- Matches natural hand control patterns
link: https://www.cell.com/neuron/abstract/S0896-6273(24)00688-3
my thoughts
Shift from "feeling dots" to "feeling objects" is amazing. That's like upgrading from morse code to actual writing for touch sensations. For sure, it's not perfect and we have to continue. In my view we should focus on "smart" stimulation. Which can use diverse feedback from participant. Maybe mix of RL and SFT.
Measuring changes in the neural recording is must have in any bci application. KL div is good starting point. however, plots show smooth performance degradation. So potentially we could capture this shift day by day and somehow fix it. For example, it's interesting to consider "stabilizer model" which should to match shifted data into original distribution. Flow matching, diffusion, or just AE with KL loss.
🔥6👍1
Forwarded from Блуждающий нерв
Ученые создали мышей с увеличенной корой мозга — грызуны активнее и общительнее обычных. На ранней стадии развития им ввели факторы Яманаки, и вырос мозг, где больше нейронов и глии. Тем же коктейлем подавили деградацию уже взрослых мышей-моделей болезни Альцгеймера, вероятно, усилив пролиферацию клеток.
По идее, клеточные технологии будущего позволят как управлять количеством клеток в том или ином органе, делая его крупнее или мельче, так и изменять клеточный состав органа/ткани, превращая один тип клеток в другой. Из недавнего: клетки крови человека перепрограммировали в клетки роговицы и нанесли тонким слоем на глаз слабовидящим людям. Другие ученые превращают раковые клетки в иммунные прямо внутри опухоли, тем самым “растворяя” ее. Или зрелые клетки возвращают в состояние эмбриональных зачатков конечностей, уже намек на запуск регенерации при травме, как у аксолотлей.
Пока все в стадии первых экспериментов, но такие работы множатся, и растет ощущение, что умение управлять судьбой клеток in vivo станет одной из ключевых технологий века. Овладев ею, можно не только лечить, заменять и омолаживать, но и создавать новые функции, перестаивая или проектируя ткани, органы и целые организмы. Масштаб влияния такой технологии оценить трудно — оно может быть колоссальным.
Вместо ‘химической фабрики’ живая клетка все больше видится универсальным ‘программируемым агентом’, идентичность которого можно пускать по любой из огромного пучка траекторий. И еще свежая работа: обучаться и помнить могут не только нейроны, но и прочие клетки, то есть некая “агентность/когнитивность” распределена по всем тканям.
Завершу фантазией автора вышедшего в Cell обзора особенностей нейробиологии мозга человека в свете эволюции. Подводя итог, он пишет, что на органоидах мы сможем направить развитие мозга человека по иным, не известным траекториям:
По идее, клеточные технологии будущего позволят как управлять количеством клеток в том или ином органе, делая его крупнее или мельче, так и изменять клеточный состав органа/ткани, превращая один тип клеток в другой. Из недавнего: клетки крови человека перепрограммировали в клетки роговицы и нанесли тонким слоем на глаз слабовидящим людям. Другие ученые превращают раковые клетки в иммунные прямо внутри опухоли, тем самым “растворяя” ее. Или зрелые клетки возвращают в состояние эмбриональных зачатков конечностей, уже намек на запуск регенерации при травме, как у аксолотлей.
Пока все в стадии первых экспериментов, но такие работы множатся, и растет ощущение, что умение управлять судьбой клеток in vivo станет одной из ключевых технологий века. Овладев ею, можно не только лечить, заменять и омолаживать, но и создавать новые функции, перестаивая или проектируя ткани, органы и целые организмы. Масштаб влияния такой технологии оценить трудно — оно может быть колоссальным.
Вместо ‘химической фабрики’ живая клетка все больше видится универсальным ‘программируемым агентом’, идентичность которого можно пускать по любой из огромного пучка траекторий. И еще свежая работа: обучаться и помнить могут не только нейроны, но и прочие клетки, то есть некая “агентность/когнитивность” распределена по всем тканям.
Завершу фантазией автора вышедшего в Cell обзора особенностей нейробиологии мозга человека в свете эволюции. Подводя итог, он пишет, что на органоидах мы сможем направить развитие мозга человека по иным, не известным траекториям:
“Продвигая эволюцию дальше, возможно, удастся открыть новые механизмы и даже сконструировать новые типы клеток для выполнения задач, которые пока не под силу человеческому мозгу”.
Cell Stem Cell
Expansion of the neocortex and protection from neurodegeneration by in vivo transient reprogramming
Shen and Zaballa et al. report on using Yamanaka factors (YFs) for partial reprogramming
in the mouse brain. During development, YF induction results in cortical expansion
and improved behavior. Similar induction at adult stages prevents the development
of…
in the mouse brain. During development, YF induction results in cortical expansion
and improved behavior. Similar induction at adult stages prevents the development
of…
👍5🔥1
Forwarded from All about AI, Web 3.0, BCI
⚡️❗️ Breaking Ground in BCI: Science (Neuralink's Competitor) Unveils Revolutionary Biohybrid Neural Technology
Science, a neurotechnology company founded by former Neuralink President Max Hodak, has revealed a revolutionary approach to brain-computer interfaces (BCIs) that could fundamentally transform how we interact with the human brain.
Unlike traditional BCIs, including those developed by Neuralink, Science's innovative biohybrid approach utilizes living neurons instead of conventional electrodes.
The company has developed a unique technology where specially engineered neurons, derived from stem cells, are integrated with electronics before being implanted into the brain. The key innovation lies in keeping the neuron cell bodies within the device while allowing their axons and dendrites to naturally grow into the brain tissue, forming new connections with existing neurons.
This breakthrough approach offers several revolutionary advantages:
1. Natural Integration:
- A single implant of one million neurons can create over a billion synaptic connections
- The device occupies less than a cubic millimeter
- Forms genuine chemical synapses with brain cells
2. Versatility:
- Capability to use various neuron types (dopaminergic, cholinergic, glutamatergic)
- Ability to stimulate the brain using natural neurotransmitters
- Superior signal quality with lower power consumption
3. Scalability Potential:
- Technology can be scaled to millions of neurons
- Theoretical bandwidth comparable to the corpus callosum (the structure connecting brain hemispheres)
The development team is addressing several technical challenges:
1. Immunological Compatibility:
- Need to create immune-invisible cells
- Current personalized cell creation process is costly ($1M+) and time-consuming (months)
2. Cell Viability:
- Neurons must survive glycemic shock
- Protection from hypoxia is essential
- Proper glial support required
- Cells must mature within an active electronic device
Science has already published their first paper demonstrating this technology's capabilities.
While their biohybrid approach is still in early development, its potential is immense. It could solve the fundamental limitations of traditional BCIs - brain tissue damage during electrode implantation and limited long-term stability.
This development represents a significant departure from conventional BCI approaches, including those of Neuralink and other competitors. While Neuralink has focused on developing advanced electrode arrays, Science's biohybrid approach could potentially offer a more natural and sustainable solution for brain-computer integration.
The implications of this breakthrough extend beyond just technological advancement. It opens new possibilities for treating neurological conditions, restoring lost brain functions, and creating more natural brain-computer interfaces. If the technical challenges can be overcome, this technology could form the foundation for the next generation of neuroprosthetics and therapeutic devices.
This innovation underscores the rapid advancement in neurotechnology, with companies like Science and Neuralink pushing the boundaries of what's possible in brain-computer interfacing. The competition between these companies, led by visionary entrepreneurs like Max Hodak, continues to drive innovation in this crucial field, potentially bringing us closer to a future where seamless brain-computer integration becomes a reality.
Science's approach represents not just an incremental improvement but a paradigm shift in how we think about brain-computer interfaces, potentially offering a more biocompatible and sustainable solution for long-term neural interfacing.
Science, a neurotechnology company founded by former Neuralink President Max Hodak, has revealed a revolutionary approach to brain-computer interfaces (BCIs) that could fundamentally transform how we interact with the human brain.
Unlike traditional BCIs, including those developed by Neuralink, Science's innovative biohybrid approach utilizes living neurons instead of conventional electrodes.
The company has developed a unique technology where specially engineered neurons, derived from stem cells, are integrated with electronics before being implanted into the brain. The key innovation lies in keeping the neuron cell bodies within the device while allowing their axons and dendrites to naturally grow into the brain tissue, forming new connections with existing neurons.
This breakthrough approach offers several revolutionary advantages:
1. Natural Integration:
- A single implant of one million neurons can create over a billion synaptic connections
- The device occupies less than a cubic millimeter
- Forms genuine chemical synapses with brain cells
2. Versatility:
- Capability to use various neuron types (dopaminergic, cholinergic, glutamatergic)
- Ability to stimulate the brain using natural neurotransmitters
- Superior signal quality with lower power consumption
3. Scalability Potential:
- Technology can be scaled to millions of neurons
- Theoretical bandwidth comparable to the corpus callosum (the structure connecting brain hemispheres)
The development team is addressing several technical challenges:
1. Immunological Compatibility:
- Need to create immune-invisible cells
- Current personalized cell creation process is costly ($1M+) and time-consuming (months)
2. Cell Viability:
- Neurons must survive glycemic shock
- Protection from hypoxia is essential
- Proper glial support required
- Cells must mature within an active electronic device
Science has already published their first paper demonstrating this technology's capabilities.
While their biohybrid approach is still in early development, its potential is immense. It could solve the fundamental limitations of traditional BCIs - brain tissue damage during electrode implantation and limited long-term stability.
This development represents a significant departure from conventional BCI approaches, including those of Neuralink and other competitors. While Neuralink has focused on developing advanced electrode arrays, Science's biohybrid approach could potentially offer a more natural and sustainable solution for brain-computer integration.
The implications of this breakthrough extend beyond just technological advancement. It opens new possibilities for treating neurological conditions, restoring lost brain functions, and creating more natural brain-computer interfaces. If the technical challenges can be overcome, this technology could form the foundation for the next generation of neuroprosthetics and therapeutic devices.
This innovation underscores the rapid advancement in neurotechnology, with companies like Science and Neuralink pushing the boundaries of what's possible in brain-computer interfacing. The competition between these companies, led by visionary entrepreneurs like Max Hodak, continues to drive innovation in this crucial field, potentially bringing us closer to a future where seamless brain-computer integration becomes a reality.
Science's approach represents not just an incremental improvement but a paradigm shift in how we think about brain-computer interfaces, potentially offering a more biocompatible and sustainable solution for long-term neural interfacing.
Science Corporation
Biohybrid neural interfaces: an old idea enabling a completely new space of possibilities | Science Corporation
Science Corporation is a clinical-stage medical technology company.
1🔥12❤3⚡2
Протезы отстают от роботизированных рук и что с этим сделать
Давайте поговорим про руки - и про настоящие, и про искусственные. Своими вы пользуетесь каждый день, даже не задумываясь. А вот искусственные... они уже на подходе, и прогресс в этой области реально впечатляет! Посмотрите последние видосы от Tesla и Figure - их робо-руки уже почти неотличимы от человеческих по ловкости.
Зачем это всё?
Весь наш мир заточен под руки - от дверных ручек до смартфонов. Поэтому роботам, которые должны помогать нам в быту, просто необходимо научиться работать в нашем рукоцентричном мире.
За последние два года роботы сделали огромный скачок в управлении. Это работает примерно следующим образом. Берём трансформер, скармливаем ему кучу видео с человеческими движениями и учим повторять. По сути, робот учится на примерах.
Что с протезами?
Вот тут начинается самое интересное (и грустное). Логично подумать, что протезы развиваются так же круто, как роботы, или даже круче. Но нет. К сожалению, протезирование сильно отстаёт, особенно в управлении.
Как это работает сейчас: на культю крепится протез, который считывает электрические сигналы с мышц. Человек сокращает мышцы и протез начинает двигаться. На данный момент, управление ограничивается небольшим набором жестов, между которыми можно переключаться. Как будто играешь в игру с двумя кнопками.
Есть, конечно, эксперименты с вживлением электродов - там результаты огонь! Но до рынка эти решения пока не дошли.
Что мы можем с этим сделать?
Хочется, чтобы разрыв между роботами и протезами не был таким большим. Я считаю, что этого можно достичь с помощью активного использования AI.
Что если человек с ампутацией мог управлять отдельными пальцами? Мог бы печатать на клавиатуре? А играть на пианино?
Давайте прикинем как это можно сделать. Для начала ограничимся управлением в VR, а затем уж будем переносить на протезы. Погнали.
Задача 1. Управление пальцами в VR
Augmented Mirror Hand (MIRANDA): Advanced Training System for New Generation Prosthesis
старый постер: link
новое видео: youtube
В прошлом году мы с командой ALVI Labs показали что с помощью мышечных сигналов(EMG), человек без руки может управлять отдельными пальцами в VR.
По сути, мы взяли технологии от роботов, добавили свои фишки, и оно заработало! (q-former pre-train for imitation learning and fast instant finetuning.)
Данный подход необходимо расширить и добавить информацию о положении руки, чтобы сделать модель более устойчивой.
Задача 2. Печать в VR
TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision
https://arxiv.org/abs/2410.05940
Авторы предлагают улучшенную систему отслеживания рук для набора текста. Они объединили hand tracking с трансформерами, которые умно собирают всю информацию, поступающую от VR-очков, и фиксируют момент касания поверхности. Затем эти символы обрабатываются языковой моделью, которая понимает структуру языка и не допускает глупых ошибок.
Они создали пайплайн, полностью заточенный под одну конкретную задачу — печать. И вот это самое интересное: они сосредоточились на одном сценарии и довели его до ума. Нам нужно применять такой же подход для различных сценариев управления протезами.
Задача 3 Игра на пианино в VR
A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands
https://rp1m.github.io/
Двигаемся к игре на инструменте. Здесь можно научить модель играть на пианино. Затем объединить её с мышечными сигналами от человека. Примерно таким же способом как сделано для печати.
Итак, эти статьи могут быть подспорьем в новых исследованиях в протезировании. А мы будем держать руку на пульсе и делиться с вами новостями.
Давайте начнем верить в невозможное и постоянно пробовать, ошибаться и ещё раз пробовать. Только так можно пробить ограничения в наших взглядах и сделать то, что сегодня кажется фантастикой.
Давайте поговорим про руки - и про настоящие, и про искусственные. Своими вы пользуетесь каждый день, даже не задумываясь. А вот искусственные... они уже на подходе, и прогресс в этой области реально впечатляет! Посмотрите последние видосы от Tesla и Figure - их робо-руки уже почти неотличимы от человеческих по ловкости.
Зачем это всё?
Весь наш мир заточен под руки - от дверных ручек до смартфонов. Поэтому роботам, которые должны помогать нам в быту, просто необходимо научиться работать в нашем рукоцентричном мире.
За последние два года роботы сделали огромный скачок в управлении. Это работает примерно следующим образом. Берём трансформер, скармливаем ему кучу видео с человеческими движениями и учим повторять. По сути, робот учится на примерах.
Что с протезами?
Вот тут начинается самое интересное (и грустное). Логично подумать, что протезы развиваются так же круто, как роботы, или даже круче. Но нет. К сожалению, протезирование сильно отстаёт, особенно в управлении.
Как это работает сейчас: на культю крепится протез, который считывает электрические сигналы с мышц. Человек сокращает мышцы и протез начинает двигаться. На данный момент, управление ограничивается небольшим набором жестов, между которыми можно переключаться. Как будто играешь в игру с двумя кнопками.
Есть, конечно, эксперименты с вживлением электродов - там результаты огонь! Но до рынка эти решения пока не дошли.
Что мы можем с этим сделать?
Хочется, чтобы разрыв между роботами и протезами не был таким большим. Я считаю, что этого можно достичь с помощью активного использования AI.
Что если человек с ампутацией мог управлять отдельными пальцами? Мог бы печатать на клавиатуре? А играть на пианино?
Давайте прикинем как это можно сделать. Для начала ограничимся управлением в VR, а затем уж будем переносить на протезы. Погнали.
Задача 1. Управление пальцами в VR
Augmented Mirror Hand (MIRANDA): Advanced Training System for New Generation Prosthesis
старый постер: link
новое видео: youtube
В прошлом году мы с командой ALVI Labs показали что с помощью мышечных сигналов(EMG), человек без руки может управлять отдельными пальцами в VR.
По сути, мы взяли технологии от роботов, добавили свои фишки, и оно заработало! (q-former pre-train for imitation learning and fast instant finetuning.)
Данный подход необходимо расширить и добавить информацию о положении руки, чтобы сделать модель более устойчивой.
Задача 2. Печать в VR
TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision
https://arxiv.org/abs/2410.05940
Авторы предлагают улучшенную систему отслеживания рук для набора текста. Они объединили hand tracking с трансформерами, которые умно собирают всю информацию, поступающую от VR-очков, и фиксируют момент касания поверхности. Затем эти символы обрабатываются языковой моделью, которая понимает структуру языка и не допускает глупых ошибок.
Они создали пайплайн, полностью заточенный под одну конкретную задачу — печать. И вот это самое интересное: они сосредоточились на одном сценарии и довели его до ума. Нам нужно применять такой же подход для различных сценариев управления протезами.
Задача 3 Игра на пианино в VR
A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands
https://rp1m.github.io/
Двигаемся к игре на инструменте. Здесь можно научить модель играть на пианино. Затем объединить её с мышечными сигналами от человека. Примерно таким же способом как сделано для печати.
Итак, эти статьи могут быть подспорьем в новых исследованиях в протезировании. А мы будем держать руку на пульсе и делиться с вами новостями.
Давайте начнем верить в невозможное и постоянно пробовать, ошибаться и ещё раз пробовать. Только так можно пробить ограничения в наших взглядах и сделать то, что сегодня кажется фантастикой.
This media is not supported in your browser
VIEW IN TELEGRAM
🔥8❤🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Optimus Hand by Tesla
Управляется человеком в режиме реального времени.
Теперь стало 22 степени свободы на руку и 3 на кисть.
Выглядит очень натурально.
Про руки отдельный пост, посмотрите, если ещё не видели
https://t.me/neural_cell/209
Управляется человеком в режиме реального времени.
Теперь стало 22 степени свободы на руку и 3 на кисть.
Выглядит очень натурально.
Про руки отдельный пост, посмотрите, если ещё не видели
https://t.me/neural_cell/209
🔥5👍1
Обладатели визуальных нейро имплантов почти не используют их в реальной жизни.
Исследователи провели интервью с 6 разработчиками и 6 пользователями имплантов Argus II и Orion. Кстати, хоть выборка кажется маленькой, это целых 1.5% всех пользователей Argus II в мире и 67% пользователей Orion. То есть данные довольно показательные.
Оказалось, что разработчики сильно завышают полезность этих устройств. В то время как сами пользователи говорят, что они неудобные, "плохие" и вообще почти бесполезны в реальной жизни.
Как это часто бывает реальность и ожидания сильно не бьются. Теперь перейдем собственно к ним.
Реальность:
1. Для повседневных задач практически не применяются
2. Большинство пользователей полагается на уже освоенные методы (приложения, трости, собаки-поводыри)
3. Некоторые пользователи вообще перестали использовать импланты, потому что без них быстрее справляются
4. Единственное частое применение - социальное взаимодействие (понять, что кто-то подошел или движется рядом)
Что реально хотят пользователи:
1. Улучшенное качество "зрения". Возможность читать текст, распозновать лица, цвета, глубина.
2. Интеграция с современными технологиями
3. Реальную независимость в повседневной жизни
Главный урок: как бы вы не были восхищены своими технологиями, нужно в первую очередь убедиться, что ваша разработка реально решает проблемы пользователей. Иначе рискуете заниматься хоть и благородным, но бесполезным делом. Это, конечно, не касается фундаментальных исследований - изучать работу мозга полезно в любом случае. Но создавать продукт, которым не пользуются - пустая трата ресурсов.
Статья с исследованием: Aligning Visual Prosthetic Development With Implantee Needs
Ну и напоследок привожу чуть больше информации. Мой братан Claude сделал короткое саммари статьи, чтобы сэкономить вам время
Исследователи провели интервью с 6 разработчиками и 6 пользователями имплантов Argus II и Orion. Кстати, хоть выборка кажется маленькой, это целых 1.5% всех пользователей Argus II в мире и 67% пользователей Orion. То есть данные довольно показательные.
Оказалось, что разработчики сильно завышают полезность этих устройств. В то время как сами пользователи говорят, что они неудобные, "плохие" и вообще почти бесполезны в реальной жизни.
Как это часто бывает реальность и ожидания сильно не бьются. Теперь перейдем собственно к ним.
Реальность:
1. Для повседневных задач практически не применяются
2. Большинство пользователей полагается на уже освоенные методы (приложения, трости, собаки-поводыри)
3. Некоторые пользователи вообще перестали использовать импланты, потому что без них быстрее справляются
4. Единственное частое применение - социальное взаимодействие (понять, что кто-то подошел или движется рядом)
Что реально хотят пользователи:
1. Улучшенное качество "зрения". Возможность читать текст, распозновать лица, цвета, глубина.
2. Интеграция с современными технологиями
3. Реальную независимость в повседневной жизни
Главный урок: как бы вы не были восхищены своими технологиями, нужно в первую очередь убедиться, что ваша разработка реально решает проблемы пользователей. Иначе рискуете заниматься хоть и благородным, но бесполезным делом. Это, конечно, не касается фундаментальных исследований - изучать работу мозга полезно в любом случае. Но создавать продукт, которым не пользуются - пустая трата ресурсов.
Статья с исследованием: Aligning Visual Prosthetic Development With Implantee Needs
Ну и напоследок привожу чуть больше информации. Мой братан Claude сделал короткое саммари статьи, чтобы сэкономить вам время
Текущие возможности протезов:
- Argus II: 60 электродов на сетчатке глаза, дает очень базовое "зрение" - пользователи видят вспышки света (фосфены)
- Базовая навигация: различение высококонтрастных объектов, определение направления движения
- Максимум - помощь в ориентации и обнаружении крупных объектов
- Разрешение очень низкое - нельзя читать текст или различать лица
Что мешает независимости:
1. Технические ограничения:
- Устройство требует внешнюю камеру на очках
- Нужен процессор, который носится на поясе
- Провода и кабели мешают движению
- Батарея требует частой подзарядки
2. Функциональные ограничения:
- Нельзя самостоятельно читать этикетки, ценники, документы
- Сложно различать цвета и мелкие детали
- Проблемы с определением глубины и расстояния
- Сложность использования в условиях низкого контраста
3. Практические проблемы:
- Устройство замедляет выполнение задач по сравнению с привычными методами
- Требуется помощь при настройке и обслуживании
- Ограниченная надежность системы
- Высокая зависимость от освещения
Чего хотят пользователи для большей независимости:
1. Технические улучшения:
- Беспроводные решения без внешних проводов
- Встроенная обработка сигнала без внешнего процессора
- Более длительная работа от батареи
2. Функциональные возможности:
- Распознавание текста и лиц
- Определение цветов и контраста
- Лучшее восприятие глубины
- Работа в различных условиях освещения
3. Интеграция:
- Связь со смартфоном и другими устройствами
- Голосовая обратная связь
- AI-помощник для распознавания объектов
- Автоматическая оптимизация настроек
Короче, сейчас эти протезы дают очень базовое "зрение", которое помогает только в простой навигации и социальном взаимодействии. Для реальной независимости нужен серьезный апгрейд как железа, так и софта, плюс нормальная интеграция с современными технологиями.
👍8🔥5❤3👏1
tasty_bci_nov_2024.png
2.9 MB
tasty neuro bci papers which i like in november of 2024
[1/3]
🔘 Speech motor cortex enables BCI cursor control and click
tl;dr: demonstrated that ventral motor cortex (typically used for speech) can enable high-performance cursor control
• rapid calibration (40 seconds) and accurate control (2.90 bits/sec) from vPCG neural signals
• all 4 arrays showed click-related activity, with best cursor control from dorsal 6v area
• system enabled real-world computer use including Netflix browsing and gaming
link: https://doi.org/10.1101/2024.11.12.623096
🔘 Optogenetic stimulation of a cortical biohybrid implant guides goal directed behavior
tl;dr: novel BCI approach using living neurons on brain surface instead of invasive electrodes
• achieves 50% neuron survival by avoiding vascular damage during implantation
• transplanted neurons naturally integrate and show spontaneous activity
• mice successfully detect optogenetic stimulation to perform reward task
link: https://www.biorxiv.org/content/10.1101/2024.11.22.624907v1
press: https://science.xyz/technologies/biohybrid/
my thought:
speech motor cortex enabling netflix browsing in 40 seconds of calibration? that's the kind of real-world usability we've been waiting for. not just lab demos, but actual everyday control.
the biohybrid approach is tackling the integration problem from a completely different angle. getting living neurons to interface with the brain might sound complex, but it could be the elegant solution we need.
Pretty exciting to see BCI tech moving from "can we do it?" to "how do we make it better?"
[1/3]
tl;dr: demonstrated that ventral motor cortex (typically used for speech) can enable high-performance cursor control
• rapid calibration (40 seconds) and accurate control (2.90 bits/sec) from vPCG neural signals
• all 4 arrays showed click-related activity, with best cursor control from dorsal 6v area
• system enabled real-world computer use including Netflix browsing and gaming
link: https://doi.org/10.1101/2024.11.12.623096
tl;dr: novel BCI approach using living neurons on brain surface instead of invasive electrodes
• achieves 50% neuron survival by avoiding vascular damage during implantation
• transplanted neurons naturally integrate and show spontaneous activity
• mice successfully detect optogenetic stimulation to perform reward task
link: https://www.biorxiv.org/content/10.1101/2024.11.22.624907v1
press: https://science.xyz/technologies/biohybrid/
my thought:
speech motor cortex enabling netflix browsing in 40 seconds of calibration? that's the kind of real-world usability we've been waiting for. not just lab demos, but actual everyday control.
the biohybrid approach is tackling the integration problem from a completely different angle. getting living neurons to interface with the brain might sound complex, but it could be the elegant solution we need.
Pretty exciting to see BCI tech moving from "can we do it?" to "how do we make it better?"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍3
Gemini 2.0 Flash Thinking Experimental
Очень интересно наблюдать за рассуждениями. Советую!
Пока что бесплатно.
https://aistudio.google.com/
Очень интересно наблюдать за рассуждениями. Советую!
Пока что бесплатно.
https://aistudio.google.com/
Google
Google AI Studio
The fastest path from prompt to production with Gemini
❤3 1
tasty-visial-bci-nov-2024.png
9 MB
tasty visual bci papers which i like in november of 2024
[2/3]
MonkeySee: decoding natural images straight from primate brain activity
tl;dr: CNN decoder reconstructs what a monkey sees from its brain signals in V1, V4, and IT areas.
• neural signals from 576 electrodes in V1/V4/IT areas record monkey's response to visual stimuli
• decoder architecture is essentially U-Net with additional learned Gaussian layer mapping electrode signals to 2D space
• model trained on 22,248 images from THINGS dataset achieves high correlation with ground truth
• results show hierarchical processing: V1 better at low-level features, IT at high-level semantics
link: https://openreview.net/forum?id=OWwdlxwnFN
Precise control of neural activity using dynamically optimized electrical stimulation
tl;dr: new optimization approach for neural implants that uses temporal and spatial separation for precise control of neural activity
• the array was placed on retinal ganglion cells (RGCs).
• developed greedy algorithm that selects optimal sequence of simple stimuli.
• uses temporal dithering and spatial multiplexing to avoid nonlinear electrode interactions
• improves visual stimulus reconstruction accuracy by 40% compared to existing methods
link: https://doi.org/10.7554/eLife.83424
my thoughts
The MonkeySee decoder effectively reconstructs images by mirroring how our brain processes information, from basic features in V1 to deeper meanings in IT. While not entirely novel, their experiments are well-designed, using multiple electrodes to cover various visual areas, which is impressive.
Conversely, the electrical stimulation projects are making significant strides, employing clever timing and placement strategies to enhance stimulation. They aim to reduce nonlinear responses by adjusting the timing of stimulation. Perhaps incorporating reinforcement learning could elevate this further?
[2/3]
MonkeySee: decoding natural images straight from primate brain activity
tl;dr: CNN decoder reconstructs what a monkey sees from its brain signals in V1, V4, and IT areas.
• neural signals from 576 electrodes in V1/V4/IT areas record monkey's response to visual stimuli
• decoder architecture is essentially U-Net with additional learned Gaussian layer mapping electrode signals to 2D space
• model trained on 22,248 images from THINGS dataset achieves high correlation with ground truth
• results show hierarchical processing: V1 better at low-level features, IT at high-level semantics
link: https://openreview.net/forum?id=OWwdlxwnFN
Precise control of neural activity using dynamically optimized electrical stimulation
tl;dr: new optimization approach for neural implants that uses temporal and spatial separation for precise control of neural activity
• the array was placed on retinal ganglion cells (RGCs).
• developed greedy algorithm that selects optimal sequence of simple stimuli.
• uses temporal dithering and spatial multiplexing to avoid nonlinear electrode interactions
• improves visual stimulus reconstruction accuracy by 40% compared to existing methods
link: https://doi.org/10.7554/eLife.83424
my thoughts
The MonkeySee decoder effectively reconstructs images by mirroring how our brain processes information, from basic features in V1 to deeper meanings in IT. While not entirely novel, their experiments are well-designed, using multiple electrodes to cover various visual areas, which is impressive.
Conversely, the electrical stimulation projects are making significant strides, employing clever timing and placement strategies to enhance stimulation. They aim to reduce nonlinear responses by adjusting the timing of stimulation. Perhaps incorporating reinforcement learning could elevate this further?
❤4🔥3👍2
transformer-november-2024.png
1.9 MB
tasty multimodal transformer papers which i like in november of 2024
[3/3]
Here, i prepare papers with the model which process text and image embeddings. In all papers, authors used simple decoder architecture and predict next token. They work differently with images: normalizing flows, rectified flow, just mse between next and current tokens.
Multimodal Autoregressive Pre-training of Large Vision Encoders
by Apple
tldr: simple yet effective multimodal transformer
• one simple decoder which predict next img patches and next token.
• can be used for image understanding, img caption.
• bettter than sota contrastive models (SigLIP) in multimodal image understanding.
link: https://arxiv.org/abs/2411.14402
JetFormer: An Autoregressive Generative Model of Raw Images and Text by DeepMind
tl;dr: use normalizing flow instead of vqvae for image embeddings.
- train from scratch to model text and raw pixels jointly
- transformer predicts distribution of next image latents, so we will could sample during inference.
- normalizing flow do not lose information so potentially this approach might be good for understandings and generation at the same time.
link: https://arxiv.org/abs/2411.19722?s=35
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation by DeepSeek
tl;dr: combine next text token prediction with flow matching.
• model easily understands image and text prompt
• generate image embeddings from noise embeds via flow matching.
• use differeng image embeddings for understanding and for generation.
- understanding: [image - caption] : generation: [prompt -image]
link: https://arxiv.org/abs/2411.07975
my thoughts
Check out this tech plot twist - like something from an action movie! All the top labs are simultaneously ditching CLIP with its contrastive learning and switching to pure autoregression. And it makes total sense - why have separate encoders for images and text when you can teach one model to do it all?
DeepMind really went for it here - they straight up put normalizing flow right into the core architecture. Meanwhile, DeepSeek took a different route - mixing flow matching with VQVAE to enhance features. Both approaches work, and that's amazing! Apple's keeping up too - they built a super simple decoder that predicts both tokens and patches, and it just works better than SigLIP.
You know what's really cool? We're watching a new generation of models being born - universal, powerful, yet elegantly simple. The old CLIP+VQVAE combos will soon be history.
[3/3]
Here, i prepare papers with the model which process text and image embeddings. In all papers, authors used simple decoder architecture and predict next token. They work differently with images: normalizing flows, rectified flow, just mse between next and current tokens.
Multimodal Autoregressive Pre-training of Large Vision Encoders
by Apple
tldr: simple yet effective multimodal transformer
• one simple decoder which predict next img patches and next token.
• can be used for image understanding, img caption.
• bettter than sota contrastive models (SigLIP) in multimodal image understanding.
link: https://arxiv.org/abs/2411.14402
JetFormer: An Autoregressive Generative Model of Raw Images and Text by DeepMind
tl;dr: use normalizing flow instead of vqvae for image embeddings.
- train from scratch to model text and raw pixels jointly
- transformer predicts distribution of next image latents, so we will could sample during inference.
- normalizing flow do not lose information so potentially this approach might be good for understandings and generation at the same time.
link: https://arxiv.org/abs/2411.19722?s=35
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation by DeepSeek
tl;dr: combine next text token prediction with flow matching.
• model easily understands image and text prompt
• generate image embeddings from noise embeds via flow matching.
• use differeng image embeddings for understanding and for generation.
- understanding: [image - caption] : generation: [prompt -image]
link: https://arxiv.org/abs/2411.07975
my thoughts
Check out this tech plot twist - like something from an action movie! All the top labs are simultaneously ditching CLIP with its contrastive learning and switching to pure autoregression. And it makes total sense - why have separate encoders for images and text when you can teach one model to do it all?
DeepMind really went for it here - they straight up put normalizing flow right into the core architecture. Meanwhile, DeepSeek took a different route - mixing flow matching with VQVAE to enhance features. Both approaches work, and that's amazing! Apple's keeping up too - they built a super simple decoder that predicts both tokens and patches, and it just works better than SigLIP.
You know what's really cool? We're watching a new generation of models being born - universal, powerful, yet elegantly simple. The old CLIP+VQVAE combos will soon be history.
❤4🔥3👍1
Forwarded from Агенты ИИ | AGI_and_RL
Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек
Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек
Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
arXiv.org
Reinforcement Learning: An Overview
This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...
1❤7
Мы очень рады, что нас становится больше🙏
Будем стараться, чтобы посты выходили регулярно. В следующем году будем чаще делиться нашими собственными исследованиями!
Дайджесты статей за декабрь будут совсем скоро! Там интересно!
P.S. Будем рады пообщаться. Напишите в комментариях - что нравится\не нравится, чего хочется видеть больше.
Будем стараться, чтобы посты выходили регулярно. В следующем году будем чаще делиться нашими собственными исследованиями!
Дайджесты статей за декабрь будут совсем скоро! Там интересно!
P.S. Будем рады пообщаться. Напишите в комментариях - что нравится\не нравится, чего хочется видеть больше.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7🤗3
2024-december-neuro.png
2 MB
tasty neuro papers | december 2024
1️⃣ MiSO: Optimizing brain stimulation to create neural population activity states
what: Closed-loop framework combining cross-session alignment, CNN predictions and online optimization to find optimal brain stimulation patterns
paper: https://openreview.net/pdf?id=Gb0mXhn5h3
2️⃣ Evoking stable and precise tactile sensations via multi-electrode intracortical microstimulation of the somatosensory cortex
what: multi electrode stimulation works better than single-electrode :)
paper: https://www.nature.com/articles/s41551-024-01299-z
3️⃣ Moving beyond the motor cortex: a brain-wide evaluation of target locations for intracranial speech neuroprostheses
what: collect large sEEG dataset and find out that we can use not only motor cortex for speech decoding.
- novel sEEG dataset covering 3249 electrodes across 30 participants, enabling brain-wide analysis
- strongest decoding in Heschl's gyrus, inferior insula, and (sub)central sulcus bilaterally
paper: https://www.biorxiv.org/content/10.1101/2024.11.29.626019v1
dataset: https://osf.io/ak3dp/
4️⃣ Brain-JEPA: Brain Dynamics Foundation Model with Gradient Positioning and Spatiotemporal Masking NeurIps 2024 Spotlight
what: new SOTA foundation model for fMRI data.
they used functional connectivity as additional information and smart masking during model training.
paper: https://arxiv.org/abs/2409.19407
code: https://github.com/Eric-LRL/Brain-JEPA
what: Closed-loop framework combining cross-session alignment, CNN predictions and online optimization to find optimal brain stimulation patterns
paper: https://openreview.net/pdf?id=Gb0mXhn5h3
what: multi electrode stimulation works better than single-electrode :)
paper: https://www.nature.com/articles/s41551-024-01299-z
what: collect large sEEG dataset and find out that we can use not only motor cortex for speech decoding.
- novel sEEG dataset covering 3249 electrodes across 30 participants, enabling brain-wide analysis
- strongest decoding in Heschl's gyrus, inferior insula, and (sub)central sulcus bilaterally
paper: https://www.biorxiv.org/content/10.1101/2024.11.29.626019v1
dataset: https://osf.io/ak3dp/
what: new SOTA foundation model for fMRI data.
they used functional connectivity as additional information and smart masking during model training.
paper: https://arxiv.org/abs/2409.19407
code: https://github.com/Eric-LRL/Brain-JEPA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👏2🤗2
2024-december-generative-.png
939.8 KB
tasty generative papers | december 2024
1️⃣ Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
tl;dr: train vae on text and learn field from text features into image features.
- directly map text into images (noise free)
- to extract text features, they adapt vae and map vae features into image features
paper: https://cross-flow.github.io/
2️⃣ Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
tl:dr: Uses video diffusion's hidden states as a policy's visual backbone to predict actions.
- two-stage approach: first fine-tune video prediction on manipulation data, then learn policy using the internal representations
- it uses embeddings for predicted(future) video frames
paper: https://video-prediction-policy.github.io/
my thoughts. I wanna hightligh the second paper. they use "world model" as feature extractor about future. It gives better results. wow in my view it's exciting. Maybe we underrate future modelling in brain signal analysis. I think we have to focus more on generative model for brain computer interfaces.
tl;dr: train vae on text and learn field from text features into image features.
- directly map text into images (noise free)
- to extract text features, they adapt vae and map vae features into image features
paper: https://cross-flow.github.io/
tl:dr: Uses video diffusion's hidden states as a policy's visual backbone to predict actions.
- two-stage approach: first fine-tune video prediction on manipulation data, then learn policy using the internal representations
- it uses embeddings for predicted(future) video frames
paper: https://video-prediction-policy.github.io/
my thoughts. I wanna hightligh the second paper. they use "world model" as feature extractor about future. It gives better results. wow in my view it's exciting. Maybe we underrate future modelling in brain signal analysis. I think we have to focus more on generative model for brain computer interfaces.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1👏1🤗1
2024-december-transformers.png
904.2 KB
tasty ai papers | december 2024
1️⃣ Byte Latent Transformer: Patches Scale Better Than Tokens
what: train llama on raw bytes without a fixed vocabulary.
- dynamically patches bytes usign local small encoder
- main decoder process these patch in AR setting
- local deocder makes next byte prediction.
paper: https://arxiv.org/abs/2412.09871
2️⃣ Large Concept Models: Language Modeling in a Sentence Representation Space
what: work with entire sentences as "concepts" through SONAR embeddings.
- quite similar with the first paper here, but it merges tokens into high dim embeddings
- working with sentence-level embeddings directly.
paper: https://arxiv.org/abs/2412.08821
3️⃣ GenCast predicts weather and the risks of extreme conditions with state-of-the-art accuracy
what: Created a diffusion model for probabilistic weather forecasting that generates 15-day predictions with 12-hour steps
how:
- It aggregates two previous timesteps to predict the next weather state
- Instead of directly sampling weather state, it generates residuals (differences) relative to the previous state.
- Артемий в канале AI для Всех сделал ревью на русском, почитайте.
paper: https://www.nature.com/articles/s41586-024-08252-9
my thoughts:
Looks like we're finally getting closer to how humans actually process language, not just crunching tokens like robots. Whether it's patching bytes or bundling tokens into sentence embeddings, this hierarchical approach seems to be the way forward.
GenCast - is just super interesting adoption of modern AI to real problems in natural science.
what: train llama on raw bytes without a fixed vocabulary.
- dynamically patches bytes usign local small encoder
- main decoder process these patch in AR setting
- local deocder makes next byte prediction.
paper: https://arxiv.org/abs/2412.09871
what: work with entire sentences as "concepts" through SONAR embeddings.
- quite similar with the first paper here, but it merges tokens into high dim embeddings
- working with sentence-level embeddings directly.
paper: https://arxiv.org/abs/2412.08821
what: Created a diffusion model for probabilistic weather forecasting that generates 15-day predictions with 12-hour steps
how:
- It aggregates two previous timesteps to predict the next weather state
- Instead of directly sampling weather state, it generates residuals (differences) relative to the previous state.
- Артемий в канале AI для Всех сделал ревью на русском, почитайте.
paper: https://www.nature.com/articles/s41586-024-08252-9
my thoughts:
Looks like we're finally getting closer to how humans actually process language, not just crunching tokens like robots. Whether it's patching bytes or bundling tokens into sentence embeddings, this hierarchical approach seems to be the way forward.
GenCast - is just super interesting adoption of modern AI to real problems in natural science.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3🤗2
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
Просматривая статьи на NeurIps 24, увидел очень знакомую задачу.
Предсказание фМРТ по ЭЭГ активности. Смысл в том, что давайте одновременно запишем ЭЭГ и фМРТ и попробуем предсказать активность fMRI. Полностью фмрт восстанавливать разумеется очень сложно, поэтому мы будем предсказывать активность каких-нибудь больших регионов (RoI).
Моя магистерская была на эту тему, мы вместе с науч. рук-ем(A.Е. Оссадчий) сделали auto encoder с интерпретируемым слоем. И оно даже работало, разумеется с большими разбросами, но выдавала явно не случайные сигналы. Подавались на NeurIps 22, однако нас не взяли. Причины ясны, статья была сыроватой, мало сравнений с другими подходами и ablation study.
В этом году нашлись люди, которые довели задачу до ума. Применили модные молодежные трансформеры и сложную интеграцию разных электродов. В результате провели много сравнений с baseline(приятно что с нами тоже сравнились). Четко все обрисовали и показали лучший результат. В общем, достойно на мой взгляд.
Авторам респект!
Ссылки:
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
paper 2024: https://arxiv.org/abs/2410.05341
fMRI from EEG is only Deep Learning away: the use of interpretable DL to unravel EEG-fMRI relationships(BEIRA)
our preprint 2022: https://arxiv.org/abs/2211.02024
Просматривая статьи на NeurIps 24, увидел очень знакомую задачу.
Предсказание фМРТ по ЭЭГ активности. Смысл в том, что давайте одновременно запишем ЭЭГ и фМРТ и попробуем предсказать активность fMRI. Полностью фмрт восстанавливать разумеется очень сложно, поэтому мы будем предсказывать активность каких-нибудь больших регионов (RoI).
Моя магистерская была на эту тему, мы вместе с науч. рук-ем(A.Е. Оссадчий) сделали auto encoder с интерпретируемым слоем. И оно даже работало, разумеется с большими разбросами, но выдавала явно не случайные сигналы. Подавались на NeurIps 22, однако нас не взяли. Причины ясны, статья была сыроватой, мало сравнений с другими подходами и ablation study.
В этом году нашлись люди, которые довели задачу до ума. Применили модные молодежные трансформеры и сложную интеграцию разных электродов. В результате провели много сравнений с baseline(приятно что с нами тоже сравнились). Четко все обрисовали и показали лучший результат. В общем, достойно на мой взгляд.
Авторам респект!
Ссылки:
NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping
paper 2024: https://arxiv.org/abs/2410.05341
fMRI from EEG is only Deep Learning away: the use of interpretable DL to unravel EEG-fMRI relationships(BEIRA)
our preprint 2022: https://arxiv.org/abs/2211.02024
❤5🔥5🤗2