Forwarded from All about AI, Web 3.0, BCI
Berkeley developed a streaming “brain-to-voice” neuroprosthesis which restores naturalistic, fluent, intelligible speech to a person who has paralysis.
Researchers adopted streaming transducer techniques similar to methods used by popular ASR methods like Siri or Alexa, and repurposed them for personalized brain-to-voice synthesis.
This approach resulted in significant improvements in the decoding speed of the brain-to-voice neuroprosthesis compared to prior approaches with longer delays.
Researchers also show continuous long-form brain-to-voice synthesis, robustness to model-generated auditory feedback, and out-of-vocabulary brain-to-voice synthesis.
Researchers adopted streaming transducer techniques similar to methods used by popular ASR methods like Siri or Alexa, and repurposed them for personalized brain-to-voice synthesis.
This approach resulted in significant improvements in the decoding speed of the brain-to-voice neuroprosthesis compared to prior approaches with longer delays.
Researchers also show continuous long-form brain-to-voice synthesis, robustness to model-generated auditory feedback, and out-of-vocabulary brain-to-voice synthesis.
March 31
Introduction | Smart stimulation patterns for visual prostheses
Я уже рассказывал, что начал работать над визуальными кортикальными имплантами. В этой области долгие годы используются одни и те же стандартные паттерны стимуляции — обычно 10-50 импульсов через несколько электродов за 100-200 мс. Такой подход далек от естественной активности мозга, но стабильно вызывает фосфены.
Я считаю, что можно существенно улучшить эту технологию. Например, отслеживать нейронную активность во время стимуляции и адаптировать параметры в реальном времени. Или использовать прямой фидбек пациента для итеративной оптимизации. Сейчас идеальное время для продвижения этой области — нужно сделать стимуляцию более естественной, использовать многоэлектродные массивы и создать замкнутые системы с нейронной обратной связью.
Я подготовил обзор четырех важных статей в этой области.
Towards biologically plausible phosphene simulation — использует in silico модель V1 коры для создания дифференцируемого симулятора фосфенов.
https://doi.org/10.7554/eLife.85812
Human-in-the-Loop Optimization — на синтетических данных ретинальных протезов разработан метод сжатия тысяч параметров стимуляции до 13 через байесовскую оптимизацию.
http://arxiv.org/abs/2306.13104
MiSO: Optimizing brain stimulation — на реальных записях Utah-массива (96 электродов) из PFC макаки создана система предсказания нейронных состояний от мультиэлектродной стимуляции.
https://openreview.net/forum?id=Gb0mXhn5h3
Precise control with dynamically optimized electrical stimulation — на ex vivo сетчатке мыши разработан алгоритм временного дизеринга( стимуляруем с небольшими задержками)
https://doi.org/10.7554/eLife.83424
Следующий пост будет с review. https://t.me/neural_cell/271
Я уже рассказывал, что начал работать над визуальными кортикальными имплантами. В этой области долгие годы используются одни и те же стандартные паттерны стимуляции — обычно 10-50 импульсов через несколько электродов за 100-200 мс. Такой подход далек от естественной активности мозга, но стабильно вызывает фосфены.
Я считаю, что можно существенно улучшить эту технологию. Например, отслеживать нейронную активность во время стимуляции и адаптировать параметры в реальном времени. Или использовать прямой фидбек пациента для итеративной оптимизации. Сейчас идеальное время для продвижения этой области — нужно сделать стимуляцию более естественной, использовать многоэлектродные массивы и создать замкнутые системы с нейронной обратной связью.
Я подготовил обзор четырех важных статей в этой области.
Towards biologically plausible phosphene simulation — использует in silico модель V1 коры для создания дифференцируемого симулятора фосфенов.
https://doi.org/10.7554/eLife.85812
Human-in-the-Loop Optimization — на синтетических данных ретинальных протезов разработан метод сжатия тысяч параметров стимуляции до 13 через байесовскую оптимизацию.
http://arxiv.org/abs/2306.13104
MiSO: Optimizing brain stimulation — на реальных записях Utah-массива (96 электродов) из PFC макаки создана система предсказания нейронных состояний от мультиэлектродной стимуляции.
https://openreview.net/forum?id=Gb0mXhn5h3
Precise control with dynamically optimized electrical stimulation — на ex vivo сетчатке мыши разработан алгоритм временного дизеринга( стимуляруем с небольшими задержками)
https://doi.org/10.7554/eLife.83424
Следующий пост будет с review. https://t.me/neural_cell/271
April 10
Review | Smart stimulation patterns for visual prostheses
🔘 Towards biologically plausible phosphene simulation
tl;dr: Differentiable PyTorch simulator translating V1 stimulation to phosphene perception for end-to-end optimization
- Fully differentiable pipeline allowing optimization of all stimulation parameters via backpropagation
- Based on many experimental data.
- Bridges gap between electrode-level stimulation and resulting visual perception
link: https://doi.org/10.7554/eLife.85812
🔘 Human-in-the-Loop Optimization for Visual Prostheses
tl;dr: Neural encoder + Preference bayesian optimization.
- Train deep stimulus encoder (DSE): transform images -> stimulation.
- Add "patient params" 13 values as additional input into DSE.
- Uses Preferential Bayesian Optimization with GP prior to update only "patients" params using only binary comparisons
- Achieves 80% preference alignment after only 150 comparisons despite 20% simulated noise in human feedback
link: https://arxiv.org/abs/2306.13104
🔘 MiSO: Optimizing brain stimulation for target neural states
tl;dr: ML system that predicts and optimizes multi-electrode stimulation to achieve specific neural activity patterns
- Utah array on monkey PFC
- One-two electrode stimulation with fixed frequency/amplitude
- Collect paired (stim, signals) data across multiple sessions
- Extract latent features using Factor Analysis (FA)
- Align latent spaces across sessions using Procrustes method
- Train CNN to predict latent states from stim patterns
- Apply epsilon-greedy optimizer to find optimal stimulation in closed-loop
link: https://www.nature.com/articles/s41467-023-42338-8
🔘 Precise control with dynamically optimized electrical stimulation
tl;dr: Temporal dithering algorithm exploits neural integration window to enhance visual prosthesis performance by 40%
- Uses triphasic pulses at 0.1ms intervals optimized within neural integration time window (10-20ms)
- Implements spatial multiplexing with 200μm exclusion zones to prevent electrode interference
- Achieves 87% specificity in targeting ON vs OFF retinal pathways, solving a fundamental limitation of current implants
link: https://doi.org/10.7554/eLife.83424
my thoughts
The field is finally moving beyond simplistic zap-and-see approaches. These papers tackle predicting perception, minimizing patient burden, targeting neural states, and improving power efficiency. What excites me most is how these methods could work together - imagine MiSO's targeting combined with human feedback and efficient stimulation patterns. The missing piece? Understanding how neural activity translates to actual perception. Current approaches optimize for either brain patterns OR what people see, not both. I think the next breakthrough will come from models that bridge this gap, perhaps using contrastive learning to connect brain recordings with what people actually report seeing.
tl;dr: Differentiable PyTorch simulator translating V1 stimulation to phosphene perception for end-to-end optimization
- Fully differentiable pipeline allowing optimization of all stimulation parameters via backpropagation
- Based on many experimental data.
- Bridges gap between electrode-level stimulation and resulting visual perception
link: https://doi.org/10.7554/eLife.85812
tl;dr: Neural encoder + Preference bayesian optimization.
- Train deep stimulus encoder (DSE): transform images -> stimulation.
- Add "patient params" 13 values as additional input into DSE.
- Uses Preferential Bayesian Optimization with GP prior to update only "patients" params using only binary comparisons
- Achieves 80% preference alignment after only 150 comparisons despite 20% simulated noise in human feedback
link: https://arxiv.org/abs/2306.13104
tl;dr: ML system that predicts and optimizes multi-electrode stimulation to achieve specific neural activity patterns
- Utah array on monkey PFC
- One-two electrode stimulation with fixed frequency/amplitude
- Collect paired (stim, signals) data across multiple sessions
- Extract latent features using Factor Analysis (FA)
- Align latent spaces across sessions using Procrustes method
- Train CNN to predict latent states from stim patterns
- Apply epsilon-greedy optimizer to find optimal stimulation in closed-loop
link: https://www.nature.com/articles/s41467-023-42338-8
tl;dr: Temporal dithering algorithm exploits neural integration window to enhance visual prosthesis performance by 40%
- Uses triphasic pulses at 0.1ms intervals optimized within neural integration time window (10-20ms)
- Implements spatial multiplexing with 200μm exclusion zones to prevent electrode interference
- Achieves 87% specificity in targeting ON vs OFF retinal pathways, solving a fundamental limitation of current implants
link: https://doi.org/10.7554/eLife.83424
my thoughts
The field is finally moving beyond simplistic zap-and-see approaches. These papers tackle predicting perception, minimizing patient burden, targeting neural states, and improving power efficiency. What excites me most is how these methods could work together - imagine MiSO's targeting combined with human feedback and efficient stimulation patterns. The missing piece? Understanding how neural activity translates to actual perception. Current approaches optimize for either brain patterns OR what people see, not both. I think the next breakthrough will come from models that bridge this gap, perhaps using contrastive learning to connect brain recordings with what people actually report seeing.
Please open Telegram to view this post
VIEW IN TELEGRAM
April 10
the last neural cell pinned «Introduction | Smart stimulation patterns for visual prostheses Я уже рассказывал, что начал работать над визуальными кортикальными имплантами. В этой области долгие годы используются одни и те же стандартные паттерны стимуляции — обычно 10-50 импульсов…»
April 11
Токенизация изображений: от сверток к трансформерам
Долгие годы для представления картинок в сжатом виде использовали разные вариации автоэнкодеров. Чтобы получить дискретное представление (то есть набор конкретных "символов" вместо непрерывных значений), применяли VQ-VAE — это по сути обычный авто энкодер, но с vector-quantized слоем посередине.
Но в середине прошлого года трансформеры добрались и до этой области.
Главная идея состоит в том, чтобы:
1. Заменить свертки на трансформеры
2. Убрать 2D-сетку и представлять картинку как просто последовательность токенов (без явной пространственной привязки для каждого токена)
TiTok: An Image is Worth 32 Tokens
link: https://arxiv.org/abs/2406.07550
Главная фишка — всего 32/64/128 токенов достаточно для представления целого изображения!
Как это работает:
- Энкодер и декодер — оба на основе Vision Transformer
- К патчам изображения присоединяются специальные registers токены
- Эти register токены квантуются (превращаются в вектора из словаря)
- эти токены подаются на вход декодеру вместе с [MASK] токенами
Интересно, что эта архитектура похожа на MAE (Masked Autoencoder), только с акцентом на компактное представление.
Для генерации используется maskGIT, и получаются довольно качественные изображения. При этом никакой диффузии — всё быстро и понятно.
FlexTok: гибкая длина токенов
link: https://arxiv.org/abs/2502.13967
FlexTok берет идею TiTok, но вместо работы с оригинальным изображением начинает с VAE-latents:
- Добавляет flow matching для декодера
- Использует регистры как условие для модели
- Применяет nested dropout для регистров, чтобы декодер мог работать с разным числом токенов (от 1 до 256)
- use FSQ квантизацию как COSMOS by NVIDIA
FlowMO: прямой подход
link: https://www.arxiv.org/abs/2503.11056
FlowMO - Это TiTok но с диффузией для декодера.
- Работаем напрямую с картинками
- Используем все токены для реконструкции
- тоже диффузионный декодер
Сравнение моделей
TiTok работает с исходными изображениями, не использует диффузионный декодер, применяет дистилляцию через MagViT VQVAE и стандартную квантизацию.
FlexTok работает с VAE-латентами, использует диффузионный декодер, обходится без дистилляции и применяет FSQ квантизацию с 64k векторов.
FlowMO работает с исходными изображениями, использует диффузионный декодер, обходится без дистилляции и применяет LFQ (sign) квантизацию со сложными функциями потерь.
Мои мысли о развитии этих подходов
Объединить MAE с TiTok:
- используем маскирование входного изображения, как в MAE. По идеи ддолжно ускорить работу и сделать токены ещё более информативными.
Объединить FlexTok, TiTok и MAE в один универсальный экстрактор признаков:
- Случайное маскирование для входного изображения (0, 0.25, 0.5, 0.75, 1)
- Nested dropout для латентов (как в FlexTok)
- Маскирование токенов для декодера: 0.5, 0.75, 1 как это делают уже в maskGIT
- Плюс сюда же ещё добавить REPA
Долгие годы для представления картинок в сжатом виде использовали разные вариации автоэнкодеров. Чтобы получить дискретное представление (то есть набор конкретных "символов" вместо непрерывных значений), применяли VQ-VAE — это по сути обычный авто энкодер, но с vector-quantized слоем посередине.
Но в середине прошлого года трансформеры добрались и до этой области.
Главная идея состоит в том, чтобы:
1. Заменить свертки на трансформеры
2. Убрать 2D-сетку и представлять картинку как просто последовательность токенов (без явной пространственной привязки для каждого токена)
TiTok: An Image is Worth 32 Tokens
link: https://arxiv.org/abs/2406.07550
Главная фишка — всего 32/64/128 токенов достаточно для представления целого изображения!
Как это работает:
- Энкодер и декодер — оба на основе Vision Transformer
- К патчам изображения присоединяются специальные registers токены
- Эти register токены квантуются (превращаются в вектора из словаря)
- эти токены подаются на вход декодеру вместе с [MASK] токенами
Интересно, что эта архитектура похожа на MAE (Masked Autoencoder), только с акцентом на компактное представление.
Для генерации используется maskGIT, и получаются довольно качественные изображения. При этом никакой диффузии — всё быстро и понятно.
FlexTok: гибкая длина токенов
link: https://arxiv.org/abs/2502.13967
FlexTok берет идею TiTok, но вместо работы с оригинальным изображением начинает с VAE-latents:
- Добавляет flow matching для декодера
- Использует регистры как условие для модели
- Применяет nested dropout для регистров, чтобы декодер мог работать с разным числом токенов (от 1 до 256)
- use FSQ квантизацию как COSMOS by NVIDIA
FlowMO: прямой подход
link: https://www.arxiv.org/abs/2503.11056
FlowMO - Это TiTok но с диффузией для декодера.
- Работаем напрямую с картинками
- Используем все токены для реконструкции
- тоже диффузионный декодер
Сравнение моделей
TiTok работает с исходными изображениями, не использует диффузионный декодер, применяет дистилляцию через MagViT VQVAE и стандартную квантизацию.
FlexTok работает с VAE-латентами, использует диффузионный декодер, обходится без дистилляции и применяет FSQ квантизацию с 64k векторов.
FlowMO работает с исходными изображениями, использует диффузионный декодер, обходится без дистилляции и применяет LFQ (sign) квантизацию со сложными функциями потерь.
Мои мысли о развитии этих подходов
Объединить MAE с TiTok:
- используем маскирование входного изображения, как в MAE. По идеи ддолжно ускорить работу и сделать токены ещё более информативными.
Объединить FlexTok, TiTok и MAE в один универсальный экстрактор признаков:
- Случайное маскирование для входного изображения (0, 0.25, 0.5, 0.75, 1)
- Nested dropout для латентов (как в FlexTok)
- Маскирование токенов для декодера: 0.5, 0.75, 1 как это делают уже в maskGIT
- Плюс сюда же ещё добавить REPA
April 15
What does it mean to understand the brain function?
In search of neuroscience paradigms [part 0 - introduction]
A lot of papers are published daily on brain function on multiple levels. What I found interesting is that each study contains an implicit set of assumptions, which are part of a larger research program. Thus, different researchers mean different things when generating scientific insight.
This can lead to vastly different interpretations of the same experimental result. The biggest problem is in my opinion that these assumptions/paradigms are kept implicit and researchers are sometimes not even aware which theories they assume to be true while generating hypotheses and conducting experiments.
I will attempt to bridge this brain-science to "meta-science" gap in the next few posts, of course on the level of a beginner PhD student and from a perspective of a neuroscientist (within rather than above science) that seeks precision and awareness of scientific frameworks we all choose to work on.
Neuroscience is one of the fields with a unique position in this regard - as opposed to physics we really don't have a coherent picture unifying different scales where we established certain laws. We actually rarely have laws and theories that are universally accepted - this is the beauty of being in this field, but also a curse because hot debates are unavoidable.
So, in the next posts I will cover some of the old and emerging theories & frameworks about what it means to understand a biological neural network:
1. "Grandmother cells" & single-neuron frameworks
2. Cell-assemblies & Hebbian associations
3. Embodied & ecological cognition, naturalistic settings
4. Predictive coding & Bayesian brain
5. Feedforward processing & I/O relations, decoding
6. Dynamical systems & population codes
7. Connectomics & structural mapping
8. Computations in electric fields vs spiking
9. Cognitive modules vs distributed processing
What I won't cover for now but maybe will, is the philosophy of scientific insight (realism vs instrumentalism, functional vs mechanistic, reductionist vs holistic, explanation vs description). Also I won't touch AI computations for now, however might do in the future when it becomes more relevant to my research.
Hopefully, after this post series you will gain something valuable to apply to your work. Or you will learn about the existential troubles neuroscientists face, if you're just interested in the field 😉
Which topic would you like to read about first?
P.S. As for the extended read for those interested, here is the paper that stimulated my deeper exploration. Frankly I did not enjoy it too much but it definitely asked the right questions and forced me to try to prove the authors wrong.
In search of neuroscience paradigms [part 0 - introduction]
A lot of papers are published daily on brain function on multiple levels. What I found interesting is that each study contains an implicit set of assumptions, which are part of a larger research program. Thus, different researchers mean different things when generating scientific insight.
This can lead to vastly different interpretations of the same experimental result. The biggest problem is in my opinion that these assumptions/paradigms are kept implicit and researchers are sometimes not even aware which theories they assume to be true while generating hypotheses and conducting experiments.
I will attempt to bridge this brain-science to "meta-science" gap in the next few posts, of course on the level of a beginner PhD student and from a perspective of a neuroscientist (within rather than above science) that seeks precision and awareness of scientific frameworks we all choose to work on.
Neuroscience is one of the fields with a unique position in this regard - as opposed to physics we really don't have a coherent picture unifying different scales where we established certain laws. We actually rarely have laws and theories that are universally accepted - this is the beauty of being in this field, but also a curse because hot debates are unavoidable.
So, in the next posts I will cover some of the old and emerging theories & frameworks about what it means to understand a biological neural network:
1. "Grandmother cells" & single-neuron frameworks
2. Cell-assemblies & Hebbian associations
3. Embodied & ecological cognition, naturalistic settings
4. Predictive coding & Bayesian brain
5. Feedforward processing & I/O relations, decoding
6. Dynamical systems & population codes
7. Connectomics & structural mapping
8. Computations in electric fields vs spiking
9. Cognitive modules vs distributed processing
What I won't cover for now but maybe will, is the philosophy of scientific insight (realism vs instrumentalism, functional vs mechanistic, reductionist vs holistic, explanation vs description). Also I won't touch AI computations for now, however might do in the future when it becomes more relevant to my research.
Hopefully, after this post series you will gain something valuable to apply to your work. Or you will learn about the existential troubles neuroscientists face, if you're just interested in the field 😉
Which topic would you like to read about first?
P.S. As for the extended read for those interested, here is the paper that stimulated my deeper exploration. Frankly I did not enjoy it too much but it definitely asked the right questions and forced me to try to prove the authors wrong.
arXiv.org
What does it mean to understand a neural network?
We can define a neural network that can learn to recognize objects in less than 100 lines of code. However, after training, it is characterized by millions of weights that contain the knowledge...
May 8
Forwarded from the last neural cell (Aleksejs Timčenko)
Which topics would you like me to cover? 👋
Anonymous Poll
33%
"Grandmother cells" & single-neuron frameworks
35%
Cell-assemblies & Hebbian associations
30%
Embodied & ecological cognition, naturalistic settings
54%
Predictive coding & Bayesian brain
37%
Feedforward processing & I/O relations, decoding
50%
Dynamical systems & population codes
30%
Connectomics & structural mapping
28%
Computations in electric fields vs spiking
28%
Cognitive modules vs distributed processing
2%
I will add my topic in the comments 🤔
May 8
May 22
June 5
EEG Foundation Challenge: From Cross-Task to Cross-Subject EEG Decoding
Делюсь с вами классным соревнование по EEG decoding. Главная цель построить универсальную модель которая сможет обобщаться на новые задачи и новых участников. В общем строим GPT для EEG.
Коротко про соревнование:
Данные: 3000+ участников, 128-канальная ЭЭГ
Дедлайн: 31 октября 2025
Призы: $2,500 + соревнование на NeurIPS 25
Что решаем?
Challenge 1: Cross-Task Transfer Learning
Вход: ЭЭГ из пассивной задачи (просмотр стимулов) + демографические данные
Выход: Время реакции (регрессия) + успешность ответа (классификация)
Суть: Предсказать как человек будет выполнять активную задачу по пассивной ЭЭГ
Challenge 2: Subject Invariant Representation
Вход: ЭЭГ записи из разных когнитивных задач
Выход: 4 психопатологических фактора (непрерывные скоры)
Тип: Регрессия
Суть: Предсказать ментальное здоровье по мозговой активности
Итог
Если вы занимаетесь обработкой ЭЭГ или МЭГ, то советую попробовать свои силы в этом соревновании. Много данных, прикольные задачи. Ну и возможность попасть в лидерборд neurips competition - это круто!
Делюсь с вами классным соревнование по EEG decoding. Главная цель построить универсальную модель которая сможет обобщаться на новые задачи и новых участников. В общем строим GPT для EEG.
Коротко про соревнование:
Данные: 3000+ участников, 128-канальная ЭЭГ
Дедлайн: 31 октября 2025
Призы: $2,500 + соревнование на NeurIPS 25
Что решаем?
Challenge 1: Cross-Task Transfer Learning
Вход: ЭЭГ из пассивной задачи (просмотр стимулов) + демографические данные
Выход: Время реакции (регрессия) + успешность ответа (классификация)
Суть: Предсказать как человек будет выполнять активную задачу по пассивной ЭЭГ
Challenge 2: Subject Invariant Representation
Вход: ЭЭГ записи из разных когнитивных задач
Выход: 4 психопатологических фактора (непрерывные скоры)
Тип: Регрессия
Суть: Предсказать ментальное здоровье по мозговой активности
Итог
Если вы занимаетесь обработкой ЭЭГ или МЭГ, то советую попробовать свои силы в этом соревновании. Много данных, прикольные задачи. Ну и возможность попасть в лидерборд neurips competition - это круто!
June 17
The 2025 PNPL Competition: Speech Detection and Phoneme Classification in the LibriBrain Dataset
Еще одно соревнование по BCI, на этот раз предлагают декодировать речь из MEG данных.
Коротко про соревнование:
Данные: LibriBrain - 50+ часов MEG с одного человека, 306 сенсоров
Дедлайны:
- 31 июля 2025: Speech Detection
- 30 сентября 2025: Phoneme Classification
- Декабрь 2025: презентация на NeurIPS
Призы: Минимум $10k призовых, топ-3 в каждом треке.
Что решаем?
🔘 Speech Detection - бинарная классификация: есть речь или нет (F1-macro, рефмодель 68%)
🔘 Phoneme Classification - 39 классов фонем (рефмодель 60%)
Ссылки, чтобы не потеряться
proposal
website
instruction
Еще одно соревнование по BCI, на этот раз предлагают декодировать речь из MEG данных.
Коротко про соревнование:
Данные: LibriBrain - 50+ часов MEG с одного человека, 306 сенсоров
Дедлайны:
- 31 июля 2025: Speech Detection
- 30 сентября 2025: Phoneme Classification
- Декабрь 2025: презентация на NeurIPS
Призы: Минимум $10k призовых, топ-3 в каждом треке.
Что решаем?
Ссылки, чтобы не потеряться
proposal
website
instruction
Please open Telegram to view this post
VIEW IN TELEGRAM
June 19
June 25
June 27
MEG hackathon update
Мы начали тренить модельки на соревнование по декодированию речи из мэга. Сейчас активен первый трек, бинарная классификация(есть речь /нет речи).
Я потратил 1.5 недели, чтобы сделать сильный baseline. Решил что он должен быть простым, поэтому никаких attention и rnn, только мои любимые свёртки!
Я уверенно залетел на лидерборд с результатом 85%. Минимальный порог от организаторов - 68%.
Со следующей недели ко мне присоединится ещё один админ этого канала(Лехас), а также ребята с которыми мы делали ALVI Interface. Будем собирать трансформер! А то пока все мои наивные экспы выглядят оч печально. Тупо не работает. Будем фиксить)
В общем не откладывайте, остался месяц. Тренируйте модели и залетайте на лидерборд. Советую обратить внимание на аугментации и на лоссы. Это важно и у меня очень сильно повлияло на результат.
Ссылка на соревнование
Мы начали тренить модельки на соревнование по декодированию речи из мэга. Сейчас активен первый трек, бинарная классификация(есть речь /нет речи).
Я потратил 1.5 недели, чтобы сделать сильный baseline. Решил что он должен быть простым, поэтому никаких attention и rnn, только мои любимые свёртки!
Я уверенно залетел на лидерборд с результатом 85%. Минимальный порог от организаторов - 68%.
Со следующей недели ко мне присоединится ещё один админ этого канала(Лехас), а также ребята с которыми мы делали ALVI Interface. Будем собирать трансформер! А то пока все мои наивные экспы выглядят оч печально. Тупо не работает. Будем фиксить)
В общем не откладывайте, остался месяц. Тренируйте модели и залетайте на лидерборд. Советую обратить внимание на аугментации и на лоссы. Это важно и у меня очень сильно повлияло на результат.
Ссылка на соревнование
July 4