Вышла статья по мотивам нашего выпуска с Владом Грозиным.
https://habr.com/ru/companies/magnus-tech/articles/759426/
Спасибо за ее подготовку и публикацию Игорю Santry, IT журналисту у которого, кстати, есть свой блог:
https://t.me/SantryBlog
https://habr.com/ru/companies/magnus-tech/articles/759426/
Спасибо за ее подготовку и публикацию Игорю Santry, IT журналисту у которого, кстати, есть свой блог:
https://t.me/SantryBlog
Хабр
Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах
К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные...
🔥1
Новый подкаст в процессе монтажа, а пока я его делаю, можно почитать статью по подкасту с Антоном Мальцевым.
https://habr.com/ru/companies/magnus-tech/articles/768476/
Спасибо за подготовку и публикацию Игорю Santry, IT журналисту
https://habr.com/ru/companies/magnus-tech/articles/768476/
Спасибо за подготовку и публикацию Игорю Santry, IT журналисту
Хабр
Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы...
❤1🔥1
Forwarded from the last neural cell (Aleksandr Kovalev)
Meet the new ALVI Interface: a breakthrough in intuitive prosthetic control.
This technology offers individuals with hand differences a new movement experience:
✨ Wrist rotation.
🖐 Finger movement.
🕹 Interaction with objects in VR.
Discover how we're turning futuristic dreams into today's reality. Be among the first to step into this new era of possibilities.
Recent demo:
https://youtu.be/Dx_6Id2clZ0?si=jF9pX3u7tSiKobM5
This technology offers individuals with hand differences a new movement experience:
✨ Wrist rotation.
🖐 Finger movement.
🕹 Interaction with objects in VR.
Discover how we're turning futuristic dreams into today's reality. Be among the first to step into this new era of possibilities.
Recent demo:
https://youtu.be/Dx_6Id2clZ0?si=jF9pX3u7tSiKobM5
👍1
🎙️ Привет, друзья! В этом выпуске подкаста я пригласил особенного гостя - Романа Тезикова, Senior DL engineer.
🚀 Вместе с Романом мы обсудим его увлекательный опыт, затронем темы Large Language Models (LLM), промтинга, освоения искусства найма сотрудников и проведения эффективных собеседований. Обсудим сферу MLOps и полезные инструменты, такие как ClearML и DVC.
📘 Поговорим о вкладе в open source, а также как Роман стал единственным ревьюером книги Себастьяна Рашки. Будьте готовы к потоку вдохновения от Ромы 🙂
🔗 Ссылки на полезные инструменты и упомянутые проекты будут в описании.
Краткая выжимка в виде статьи на habr
https://habr.com/ru/companies/magnus-tech/articles/792098/
https://youtu.be/Fu48y_QZgg0
🚀 Вместе с Романом мы обсудим его увлекательный опыт, затронем темы Large Language Models (LLM), промтинга, освоения искусства найма сотрудников и проведения эффективных собеседований. Обсудим сферу MLOps и полезные инструменты, такие как ClearML и DVC.
📘 Поговорим о вкладе в open source, а также как Роман стал единственным ревьюером книги Себастьяна Рашки. Будьте готовы к потоку вдохновения от Ромы 🙂
🔗 Ссылки на полезные инструменты и упомянутые проекты будут в описании.
Краткая выжимка в виде статьи на habr
https://habr.com/ru/companies/magnus-tech/articles/792098/
https://youtu.be/Fu48y_QZgg0
YouTube
Роман Тезиков: LLM, процессы в команде, MLOps | ИИ что? #4
В этом выпуске мы обсудили опыт Романа в разработке нейронных сетей и индустрию AI в целом.
Упомянутые статьи и материалы:
Статья Мальцева: "Лопнул ли пузырь машинного обучения, или начало новой зари"
https://habr.com/ru/companies/recognitor/articles/455676/…
Упомянутые статьи и материалы:
Статья Мальцева: "Лопнул ли пузырь машинного обучения, или начало новой зари"
https://habr.com/ru/companies/recognitor/articles/455676/…
🔥2😎1
Forwarded from the last neural cell (Aleksandr Kovalev)
#10 Summary
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions). But that's tough to get . The authors used videos - some with the actions laid out and some without. This way, the robot can learn even from videos where we don't know what the actions were supposed to be.
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions).
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples
Forwarded from the last neural cell (Aleksandr Kovalev)
Brain-To-Text Competition 2024
This is the most fascinating BCI competition yet, organized by Stanford. Everyone has one month to develop the world's best brain-to-speech decoder!
Task: Predict attempted speech from brain activity.
Deadline: June 2, 2024
Dataset: They've recorded 12,100 sentences from a patient who can no longer speak intelligibly due to amyotrophic lateral sclerosis (ALS).
Just letting you know we're jumping into this challenge!
Together with @Altime, @kovalev_alvi and the team of ALVI Labs, we're going to create something interesting.
Like this post if you want to follow our updates❤️
This is the most fascinating BCI competition yet, organized by Stanford. Everyone has one month to develop the world's best brain-to-speech decoder!
Task: Predict attempted speech from brain activity.
Deadline: June 2, 2024
Dataset: They've recorded 12,100 sentences from a patient who can no longer speak intelligibly due to amyotrophic lateral sclerosis (ALS).
For each sentence, we provide the transcript of what the participant was attempting to say, along with the corresponding time series of neural spiking activity recorded from 256 microelectrodes in speech-related areas of cortex.
Just letting you know we're jumping into this challenge!
Together with @Altime, @kovalev_alvi and the team of ALVI Labs, we're going to create something interesting.
Like this post if you want to follow our updates❤️
🔥1
Forwarded from the last neural cell (Aleksandr Kovalev)
Muscle-To-Motion Competition 2024
I’m happy to tell you about new competition!
This is the BCI competition, organized by ALVI Labs and BCI Initiative. You've got 21 days to cook up the world's best prosthetic control system.
Task: Predict finger movements from the muscle activation(EMG).
Deadline: August 5, 2024
Dataset: We've recorded 10+ hours of data from both healthy and amputee subjects.
This isn't just classification - it's a full regression challenge. We'll test your model on a real amputee. Your code could directly impact someone's life.
Time to create some next-level shit and maybe, just maybe, revolutionize prosthetics. Let’s fun.❤️
kaggle: https://www.kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
Github with code: https://github.com/BCI-I/BCI_ALVI_challenge
I’m happy to tell you about new competition!
This is the BCI competition, organized by ALVI Labs and BCI Initiative. You've got 21 days to cook up the world's best prosthetic control system.
Task: Predict finger movements from the muscle activation(EMG).
Deadline: August 5, 2024
Dataset: We've recorded 10+ hours of data from both healthy and amputee subjects.
We asked people to make different finger movements (simple moves, gestures, static moves). We recorded muscle activity using Myo Thalmic Armband ( 8 electrodes, 200Hz). Plus, we captured hand positions with 20 DoF at 25 Hz.
This isn't just classification - it's a full regression challenge. We'll test your model on a real amputee. Your code could directly impact someone's life.
Time to create some next-level shit and maybe, just maybe, revolutionize prosthetics. Let’s fun.❤️
kaggle: https://www.kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
Github with code: https://github.com/BCI-I/BCI_ALVI_challenge
👍1
Forwarded from the last neural cell (Aleksandr Kovalev)
Genie: Generative Interactive Environments
What: learn latent actions from videos (only) of games.
- predict future frames based on previous and latent actions.
- they trained actions to help model make transition between frames.
- just let’s AI model figures out commands by yourself.
SAM 2: Segment Anything in Images and Videos
What: SAM now works well with videos.
- annotate big dataset of videos.
- add memory block to ensure temporal consistency of predicted mask.
Mixture of A Million Experts
What: expand MoE for lots of experts.
- store low rank approx of experts.
- works better than dense FFN.
The Road Less Scheduled
What: propose schedule-free optimizer.
- one more thing that beats AdamW.
- easy to drop in your training pipeline.
Rolling Diffusion Models
What: incorporating temporal info in generative diffusion process for videos.
- let’s make denoising and predict next frames at the same time.
- hard math, but idea is interesting.
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
What: step into merging local and global planning.
Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories.
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from еба́ные идеи для резерча
обучать модели с requires_grad=True менее приятно чем с requires_grad=False из-за так называемого backward effect
Forwarded from the last neural cell (Aleksandr Kovalev)
Transformers for brain decoding | foundational models
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
🔘 POYO-1: A Unified, Scalable Framework for Neural Population Decoding
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
🔘 Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
🔘 Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сделал лайтовую подборку каналов для изучения нейронок на практике
🔥1
Forwarded from DeepSchool
Сделай сам
Мы подготовили подборку полезных каналов на YouTube, где есть реализации архитектур с нуля, и, конечно, поделились ссылками на их примеры. Она поможет вам:
- детальнее погрузиться в тему архитектуры трансформеров для разных задач, именно этой архитектуре посвящена большая часть видео в нашей подборке
- попробовать применить трансформеры на практике для различных задач
- самостоятельно создать нужную для вас архитектуру с нуля с помощью представленных туториалов
Читайте новый пост по ссылке: https://deepschool-pro.notion.site/b1f197579cf648baa81c34a6005ad379?pvs=4
Мы подготовили подборку полезных каналов на YouTube, где есть реализации архитектур с нуля, и, конечно, поделились ссылками на их примеры. Она поможет вам:
- детальнее погрузиться в тему архитектуры трансформеров для разных задач, именно этой архитектуре посвящена большая часть видео в нашей подборке
- попробовать применить трансформеры на практике для различных задач
- самостоятельно создать нужную для вас архитектуру с нуля с помощью представленных туториалов
Читайте новый пост по ссылке: https://deepschool-pro.notion.site/b1f197579cf648baa81c34a6005ad379?pvs=4
deepschool-pro on Notion
Сделай сам | Notion
Автор: Илья Бакалец
❤3🔥3
Forwarded from the last neural cell (Aleksandr Kovalev)
enhancing intuition in diffusion
Tutorial on Diffusion Models for Imaging and Vision
what: good and comprehensive tutorial about modern diffusion models.
Diffusion is spectral autoregression
what: blogpost with python notebook.
Diffusion Models are Evolutionary Algorithms
what: another view on diffusion
- the denoising process in diffusion models can be seen as a combination of selection and mutation.
if you know good blogs please write in comments
#knowledge
Tutorial on Diffusion Models for Imaging and Vision
what: good and comprehensive tutorial about modern diffusion models.
Diffusion is spectral autoregression
what: blogpost with python notebook.
Diffusion Models are Evolutionary Algorithms
what: another view on diffusion
- the denoising process in diffusion models can be seen as a combination of selection and mutation.
if you know good blogs please write in comments
#knowledge
Forwarded from the last neural cell (Aleksandr Kovalev)
transformers-october-2024.png
2 MB
[2/4]
tasty transformer papers - october 2024
Differential Transformer
what: small modification for self attention mechanism.
- focuses on the most important information, ignoring unnecessary details.
- it does this by subtracting one attention map from another to remove "noise."
link: https://arxiv.org/abs/2410.05258
Pixtral-12B
what: good multimodal model with simple arch.
- Vision Encoder with ROPE-2D: Handles any image resolution/aspect ratio natively.
- Break Tokens: Separates image rows for flexible aspect ratios.
- Sequence Packing: Batch-processes images with block-diagonal masks, no info “leaks.”
link: https://arxiv.org/abs/2410.07073
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
what: maskGIT with continual tokens.
- get vae with quantized loss but do not use quantization in decoder ( stable diffusion)
- propose BERT-like model to generate in random-order.
- ablation shows that bert-like better than gpt-like for images(tbh small improvements)
link: https://arxiv.org/abs/2410.13863
UniMTS: Unified Pre-training for Motion Time Series
what: one model to handle different device positions, orientations, and activity types.
- use graph convolution encoder to work with all devices
- contrastive learning with text from LLMs to “get” motion context.
- rotation-invariance: doesn’t care about device angle.
link: https://arxiv.org/abs/2410.19818
my thoughts
I'm really impressed with the Differential Transformer metrics. They made such a simple and clear modification. Basically, they let the neural network find not only the most similar tokens but also the irrelevant ones. Then they subtract one from the other to get exactly what's needed.
This approach could really boost brain signal processing. After all, brain activity contains lots of unnecessary information, and filtering it out would be super helpful. So it looks promising.
Mistral has really nailed how to build and explain models. Clear, brief, super understandable. They removed everything unnecessary, kept just what's needed, and got better results. The simpler, the better!
tasty transformer papers - october 2024
Differential Transformer
what: small modification for self attention mechanism.
- focuses on the most important information, ignoring unnecessary details.
- it does this by subtracting one attention map from another to remove "noise."
link: https://arxiv.org/abs/2410.05258
Pixtral-12B
what: good multimodal model with simple arch.
- Vision Encoder with ROPE-2D: Handles any image resolution/aspect ratio natively.
- Break Tokens: Separates image rows for flexible aspect ratios.
- Sequence Packing: Batch-processes images with block-diagonal masks, no info “leaks.”
link: https://arxiv.org/abs/2410.07073
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
what: maskGIT with continual tokens.
- get vae with quantized loss but do not use quantization in decoder ( stable diffusion)
- propose BERT-like model to generate in random-order.
- ablation shows that bert-like better than gpt-like for images(tbh small improvements)
link: https://arxiv.org/abs/2410.13863
UniMTS: Unified Pre-training for Motion Time Series
what: one model to handle different device positions, orientations, and activity types.
- use graph convolution encoder to work with all devices
- contrastive learning with text from LLMs to “get” motion context.
- rotation-invariance: doesn’t care about device angle.
link: https://arxiv.org/abs/2410.19818
my thoughts
I'm really impressed with the Differential Transformer metrics. They made such a simple and clear modification. Basically, they let the neural network find not only the most similar tokens but also the irrelevant ones. Then they subtract one from the other to get exactly what's needed.
This approach could really boost brain signal processing. After all, brain activity contains lots of unnecessary information, and filtering it out would be super helpful. So it looks promising.
Mistral has really nailed how to build and explain models. Clear, brief, super understandable. They removed everything unnecessary, kept just what's needed, and got better results. The simpler, the better!
Бесплатный курс по foundation models из 21 лекции от университета Ватерлоо
https://cs.uwaterloo.ca/~wenhuche/teaching/cs886/
https://cs.uwaterloo.ca/~wenhuche/teaching/cs886/
cs.uwaterloo.ca
CS 886: Recent Advances on Foundation Models
Home page for CS 886
🔥2❤1
Forwarded from Love. Death. Transformers.