На прошлой неделе обещал сделать видео по своей статье о Action Recognition. Попробовал в 5 минут сделать краткий обзор статьи и проговорить логику решения задач в общем случае.
https://youtu.be/VKhKoY7QoRs
https://youtu.be/VKhKoY7QoRs
YouTube
Action recognition by the video, overview
Article - https://medium.com/@zlodeibaal/action-recognition-in-the-wild-9eb7f12b4d12
My LinkedIn - https://www.linkedin.com/in/maltsevan...
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:19 - List of approaches
00:01:33 - Real…
My LinkedIn - https://www.linkedin.com/in/maltsevan...
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:19 - List of approaches
00:01:33 - Real…
🔥18
Давно не рассказывал про то как поживает наш стартап про роботов. Прошлым летом мы поняли, что наша модель по которой мы начинали двигаться - очень медленная и сложная для продажи. Всем очень нравиться, и 2/3 компаний вместо того чтобы купить начинают думать "сейчас сделаем сами!". Где-то через пол года-год они понимают что не справились, приходят к нам, начинается пилот, после пилота они думаю ещё пол года... Для стартапа несколько медленно.
Так что решили больше переходить к модели конечных услуг. Не все могу рассказать, но один из примеров мы недавно опубликовали в нашем linkedin. Если вы читали что мы делали раньше, то вспомните что все эти последовательности - обучаемые. Достаточно показать каждое действие несколько десятков раз - и мы можем его запомнить!
Надеюсь, в ближайшее время будет больше видео. И не только с кофе!
Так что решили больше переходить к модели конечных услуг. Не все могу рассказать, но один из примеров мы недавно опубликовали в нашем linkedin. Если вы читали что мы делали раньше, то вспомните что все эти последовательности - обучаемые. Достаточно показать каждое действие несколько десятков раз - и мы можем его запомнить!
Надеюсь, в ближайшее время будет больше видео. И не только с кофе!
🔥40❤6😱1
Недавно в чате сингулярис меня спросили достаточно интересный вопрос, на который я раньше не отвечал. Кажется, что вопрос достаточно насущный и интересный, и на него есть короткий ответ. Так что скопирую сюда.
Вопрос (немного переформулированный): "Jetson дорогие, но удобные. Там есть много полезного софта: TensorRT, Deepstream, Triton, etc.. Насколько болезнен переход без всех этих инструментов на другие Edge платформы?"
Важно отделять сущности инструментов, и понимать что нужно, что заменяется, а что маркетинговый булшит:
1) TensorRT - это конвертация нейронной сети в примитивы которые быстро выполняются на железе. Это есть у всех железяк. OpenVino для Intel, HailoRT для Hailo, RKNN для RockChip. Для каких-то железок нет своих форматов, и там обычно TFlite или NCNN.
2) "deepstream" я знаю, что сейчас скажу вещь с которой рванут пуканы, но все же. Deepstream - только мешает. Я знаю 3 компании которые начинали делать на deepstream, но потом с него ушли.
a) Он ужасно кривой. Наборы багнутых скриптов которые без пол литра не пофиксишь. Да, там низкий порог входа, 2 дня. Но правка каждой проблемы - это 1-2 недели. При этом переписать пайплайн на Gstreamer + CUDA -это 2-3 недели. Потом добавление любой другой сети станет очень просто. Для любителей садомазо есть ещё TAO. Но это уже за гранью.
b) Deepstream решает проблему которой на большинстве железок просто нет. У NVIDIA есть разделение памяти. Это RAM и VRAM. Он может быть физический, а может программный (Jetson). Цель DeepStream - это избегать лишних копирований/передач между этими памятями. И инференс всего что можно на GPU. Но NPU модули работают не так. Там нет своей памяти и результат инференса возвращается в RAM. А там можно это уже обрабатывать через CPU, можно через GPU, если хочется, либо MKL если это Intel.
3) Что касается "Triton server" - да, вот это удобно. Но:
a) Сам Triton, если что, мультиплатформенный. Он умеет и под OpenVino, и ещё куда-то. Это не значит что надо его использовать. Например под Intel он не умеет IntelGPU использовать.
b) У большинства вендоров есть свои серверы. Это и OpenVino inference server, и Hailo inference server, и.т.д.
c) Для Edge-устройств от инференс сервера обычно нужно достаточно мало опций. Не нужно жонглировать загрузкой/выгрузкой 20 моделей из памяти, не надо профилировать десять сеток которые одновременно что-то считают. Без этого нормальный serving пишется за день. Если что, гуглиться по "model serving". Для Khadas, RockChip и еще кого-то такое было просто в примере сорсов.
Ну а дальше, пайплайн пишется уже исходя из конкретного железа, его архитектуры и задачи. Но в целом это либо аналог цепочного инференса, либо serving модель обычно.
Вопрос (немного переформулированный): "Jetson дорогие, но удобные. Там есть много полезного софта: TensorRT, Deepstream, Triton, etc.. Насколько болезнен переход без всех этих инструментов на другие Edge платформы?"
Важно отделять сущности инструментов, и понимать что нужно, что заменяется, а что маркетинговый булшит:
1) TensorRT - это конвертация нейронной сети в примитивы которые быстро выполняются на железе. Это есть у всех железяк. OpenVino для Intel, HailoRT для Hailo, RKNN для RockChip. Для каких-то железок нет своих форматов, и там обычно TFlite или NCNN.
2) "deepstream" я знаю, что сейчас скажу вещь с которой рванут пуканы, но все же. Deepstream - только мешает. Я знаю 3 компании которые начинали делать на deepstream, но потом с него ушли.
a) Он ужасно кривой. Наборы багнутых скриптов которые без пол литра не пофиксишь. Да, там низкий порог входа, 2 дня. Но правка каждой проблемы - это 1-2 недели. При этом переписать пайплайн на Gstreamer + CUDA -это 2-3 недели. Потом добавление любой другой сети станет очень просто. Для любителей садомазо есть ещё TAO. Но это уже за гранью.
b) Deepstream решает проблему которой на большинстве железок просто нет. У NVIDIA есть разделение памяти. Это RAM и VRAM. Он может быть физический, а может программный (Jetson). Цель DeepStream - это избегать лишних копирований/передач между этими памятями. И инференс всего что можно на GPU. Но NPU модули работают не так. Там нет своей памяти и результат инференса возвращается в RAM. А там можно это уже обрабатывать через CPU, можно через GPU, если хочется, либо MKL если это Intel.
3) Что касается "Triton server" - да, вот это удобно. Но:
a) Сам Triton, если что, мультиплатформенный. Он умеет и под OpenVino, и ещё куда-то. Это не значит что надо его использовать. Например под Intel он не умеет IntelGPU использовать.
b) У большинства вендоров есть свои серверы. Это и OpenVino inference server, и Hailo inference server, и.т.д.
c) Для Edge-устройств от инференс сервера обычно нужно достаточно мало опций. Не нужно жонглировать загрузкой/выгрузкой 20 моделей из памяти, не надо профилировать десять сеток которые одновременно что-то считают. Без этого нормальный serving пишется за день. Если что, гуглиться по "model serving". Для Khadas, RockChip и еще кого-то такое было просто в примере сорсов.
Ну а дальше, пайплайн пишется уже исходя из конкретного железа, его архитектуры и задачи. Но в целом это либо аналог цепочного инференса, либо serving модель обычно.
🔥42❤5💩2
Вот бывает же так. Давно думаешь о том что надо бы написать небольшую статью про One-Shot подходы и куда это все движется. Садишься её писать. И в момент когда её дописал - выходит что-то новое, ради чего теперь придется поменять логику статьи. Обидно! Но что ж. Зато вот вам небольшое гонзо-видео о том что хорошего в Segment Anything от Meta, и какие там ограничения
https://youtu.be/FjYE0tKWOiY
https://youtu.be/FjYE0tKWOiY
YouTube
Segment Anything from Meta: strong points and limitations
Article - https://github.com/facebookresearch/segment-anything
My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:50- Segment Anything: a few words about
00:02:51 - Layers
00:05:25…
My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:50- Segment Anything: a few words about
00:02:51 - Layers
00:05:25…
🔥41💩2😱1
Так. Что-то число интересных моделей в которые надо потыкаться становиться чудовищным. На этот раз miniGPT-4. Лингвистическая модель поверх изображений. Если честно, то я ожидал большего. Неплохо, но никакой магии нет. Все же она больше не про детекционную часть, а про поиск связей частей изображения друг с другом.
https://youtu.be/OCGBSPmMXes
https://youtu.be/OCGBSPmMXes
YouTube
MiniGPT-4: the limitations and opportunities
Article - https://minigpt-4.github.io/
My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:58 - Impression from official samples
00:02:53 - My tests
00:07:20 - Size of model and…
My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.me/CVML_team
00:00:00 - Let's start
00:00:58 - Impression from official samples
00:02:53 - My tests
00:07:20 - Size of model and…
🔥19
Есть ощущение что на небе только и разговоров как про one-shot сети.
С кем не поговоришь, вот тебе: "SAM", "CLIP", "GroundingDINO", итд. И, что печалит, не все понимают где там ограничения. А бывает наоборот, люди разочаровываются и говорят "не работает". Именно для этого я решил сделать обзор проблем one-shot подходов. Когда будет работать, а когда лучше повременить. Статья. Видео.
С кем не поговоришь, вот тебе: "SAM", "CLIP", "GroundingDINO", итд. И, что печалит, не все понимают где там ограничения. А бывает наоборот, люди разочаровываются и говорят "не работает". Именно для этого я решил сделать обзор проблем one-shot подходов. Когда будет работать, а когда лучше повременить. Статья. Видео.
Medium
No Train, no Pain? (the limits of one-shot)
One-shot models for computer vision are super cool. But where are they limited?…
🔥42❤3
Мы уже разговаривали с Ромой года полтора назад. С тех пор многое поменялось. И в первую очередь - появились SAM и ChatGPT. Как они изменили разметку. Куда все движется. Как размечать сегодня.
Кстати! Рома в этом году админ потока в DataFest'е ( Data Collection & Labelling ). Датафест начинается завтра, а про поток - хз. Ну, и не забывайте подписываться на Ромин канал - @toloka. Про разметку там много прикольного.
https://youtu.be/VtM10keYsl0
Кстати! Рома в этом году админ потока в DataFest'е ( Data Collection & Labelling ). Датафест начинается завтра, а про поток - хз. Ну, и не забывайте подписываться на Ромин канал - @toloka. Про разметку там много прикольного.
https://youtu.be/VtM10keYsl0
🔥18❤3😱1💩1
Есть одна тема, на которую я поглядываю из-за забора последние лет 7-8. Это Reinforcement Learning. Вроде интересно, но не понятно как работает и что там есть. Пробуешь что-то запустить и не понимаешь зачем. Пару месяцев назад я подписался на интересный канал Knowledge Accumulator про RL. Местами проперся, но общей картины не сложилось. Так что попросил Александра (автора канала) дать небольшое интервью и рассказать про современный RL в целом. Где RL применим, какие успехи, что крутого происходит и где ждать проблемы. Надеюсь вам тоже зайдет.
https://youtu.be/dhqh3mJ0-0M
https://youtu.be/dhqh3mJ0-0M
YouTube
RL in 2023: RLHF, AlphaTensor, problems, and thoughts
Alexandr LinkedIn - https://www.linkedin.com/in/alexander-fritzler/
Alexandr Telegram channel - https://t.me/knowledge_accumulator
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:50…
Alexandr Telegram channel - https://t.me/knowledge_accumulator
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:50…
🔥45💩6❤3
Немножко шутеек вам в ленту. Пару недель назад хотели получить от ChatGPT пару функций математических. Достаточно простых: вычисление MEL-спектра и какие-то нормализации картинок. В итоге больше времени потратили на отладку этого кода. Это вывело меня на размышления: "А вообще умеет ли ChatGPT писать математику?", "Насколько сложную?", "Как глубоки будут ошибки?". Как вы понимаете, эксперимент - царь доказательств. Так что вот видео о том почему нельзя верить в математику которую написала какая-то LLM-ка.
https://youtu.be/FbWeieVXjHs
И вот тут в формате текста - https://medium.com/@zlodeibaal/dont-believe-in-llm-math-b11fc5f12f75 (не забывайте ваши хлопочки)
https://youtu.be/FbWeieVXjHs
И вот тут в формате текста - https://medium.com/@zlodeibaal/dont-believe-in-llm-math-b11fc5f12f75 (не забывайте ваши хлопочки)
YouTube
No AI has been able to solve this school problem: ChatGPt-3, ChatGPT-4, Bard, Bing, HugginChat
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:29 - The test
00:00:51 - What is FFT?
00:01:51 - ChatGPT-3.5, working example
00:02:44…
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:29 - The test
00:00:51 - What is FFT?
00:01:51 - ChatGPT-3.5, working example
00:02:44…
🔥27❤2😱1
Записал видео ещё пару недель назад, никак не доходили руки опубликовать. К тому же, сразу после записи появились пару проектов которые явно бьют статью по части бенчмарков (например audiocraft).
https://youtu.be/Go3_JIMSV14
С другой стороны, тут весьма интересная ботва, которая иллюстрирует куда все движется. Это ещё неплохо коррелирует с статьей про которую Арcений рассказывал у себя недели три назад.
https://youtu.be/Go3_JIMSV14
С другой стороны, тут весьма интересная ботва, которая иллюстрирует куда все движется. Это ещё неплохо коррелирует с статьей про которую Арcений рассказывал у себя недели три назад.
YouTube
CoDi - Any-to-Any Generation. What will the future look like?
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
Official site - https://codi-gen.github.io/
00:00:00 - Intro
00:01:25 - Official demo
00:03:52 - How to run…
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
Official site - https://codi-gen.github.io/
00:00:00 - Intro
00:01:25 - Official demo
00:03:52 - How to run…
🔥14😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Давайте поговорим о фейках!
Это видео я вижу в линкедине уже неделю а то и больше. Дня три назад мне его присылала толпа народу со словами "смотри как умеют". И вот сегодня его начали репостить разные ML-каналы с разным текстом. Почему у людей отсутствует критическое мышление?
Я не уверен на 100% что это фейк. Лишь на 90%. Процентов 40 что полностью зафейканы id людей, и число кружек. Ещё 50% что id-шники и кружки очень сильно подогнаны руками, например путем тренировки в тот же день/вырезкой руками момента где все более-менее.
Продолжение и картинки в коментах.
Это видео я вижу в линкедине уже неделю а то и больше. Дня три назад мне его присылала толпа народу со словами "смотри как умеют". И вот сегодня его начали репостить разные ML-каналы с разным текстом. Почему у людей отсутствует критическое мышление?
Я не уверен на 100% что это фейк. Лишь на 90%. Процентов 40 что полностью зафейканы id людей, и число кружек. Ещё 50% что id-шники и кружки очень сильно подогнаны руками, например путем тренировки в тот же день/вырезкой руками момента где все более-менее.
Продолжение и картинки в коментах.
🔥73❤4
Я тут хочу одну видюшку сделать про детекторы. Паралельно на конфе расскажу (ссылка в комментах). Для него хочу сделать небольшой опрос на тему того что кто использует из детекторов в проде. Можно выбирать разные варианты одновременно.
Anonymous Poll
39%
YoloV5
51%
YoloV8/YolV6/YoloV7
11%
YoloX/PP-Yolo/DAMO-Yolo
6%
RT-DETR
6%
NAS-YOLO
17%
YoloV4/YoloV3/SSD (или другие старые сети)
5%
UNINEXT/DINOv2 (или другие претрейны большие)
14%
MMDetection/PaddlePaddle
16%
Прочие сверточные сети
17%
Прочие сети с трансформерами
🔥20
О, выпустили подкаст со мной!
Сразу скажу, никаких откровений по ML не ждите, все вопросы скорее достаточно общие были на тему "а что это такое" и "где оно вообще нужно". Ну и вокруг. О том как статистика в реальном мире применима.
Кажется, что прикольно поболтали :
https://www.youtube.com/watch?v=8VZeTTmxlgM
Да ещё и звук классно поставленный и камера с красивым боке:)
Сразу скажу, никаких откровений по ML не ждите, все вопросы скорее достаточно общие были на тему "а что это такое" и "где оно вообще нужно". Ну и вокруг. О том как статистика в реальном мире применима.
Кажется, что прикольно поболтали :
https://www.youtube.com/watch?v=8VZeTTmxlgM
Да ещё и звук классно поставленный и камера с красивым боке:)
YouTube
The Cramer Cast: Открываем Мир Computer Vision с Адилем Аденовым и Антоном Мальцевым. Август 2023.
Адиль Аденов — Senior Machine Learning Engineer в области компьютерного зрения в 360tech. Выпускник КТМУ Манас и National Chiao Tung (Тайвань). Занимался исследованиями в области моделирования движения водной среды и атмосферы. Помимо машинного обучение ещё…
🔥44❤1
https://youtu.be/8-m4uVPLh-Q
Ещё месяца три назад Арсений (с ним тут уже было два видео) скинул мне свою книжку с предложением покритиковать и опубликовать. Но мне показалось что:
1) В целом каких-то явных ошибок чтобы критиковать нет. А остальное - то точки для разговоров а не для критики.
2) Писать критику без возможности ответить - как-то скучно.
3) Хорошая критика будет требовать очень много времени на написание. Иначе будет обрывочной.
Так что решил записать интервью с Арсением и Валерой (его на моем канале ещё не было). Поговорили не столько даже про книгу, как про то как правильно проектировать систему: нужно ли ставить во главу угла дизайн системы, данные или можно просто все скопировать.
Ещё месяца три назад Арсений (с ним тут уже было два видео) скинул мне свою книжку с предложением покритиковать и опубликовать. Но мне показалось что:
1) В целом каких-то явных ошибок чтобы критиковать нет. А остальное - то точки для разговоров а не для критики.
2) Писать критику без возможности ответить - как-то скучно.
3) Хорошая критика будет требовать очень много времени на написание. Иначе будет обрывочной.
Так что решил записать интервью с Арсением и Валерой (его на моем канале ещё не было). Поговорили не столько даже про книгу, как про то как правильно проектировать систему: нужно ли ставить во главу угла дизайн системы, данные или можно просто все скопировать.
YouTube
System design in ML. A talk with Arseny Kravchenko and Valerii Babushkin.
Arseny and Valerii book - https://arseny.info/ml_design_book,
Valerii Telegram channel - https://t.me/cryptovalerii_en
Arseny Telegram channel - https://t.me/partially_unsupervised (RU)
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter…
Valerii Telegram channel - https://t.me/cryptovalerii_en
Arseny Telegram channel - https://t.me/partially_unsupervised (RU)
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter…
🔥35❤2
На своем канале я стараюсь записывать достаточно тематические видео / писать тематические статьи. Про какие-то интересные мне штуки, про железки, про новые публикации, про то что я узнал нового, и.т.д. Я бы сказал что 90% контента тут требует немного вкуривать в Computer Vision чтобы читать. Но, понятно, что часто меня спрашивают куда более простые вопросы. "Как устроен рынок труда в Computer Vision", "Что надо знать для этого", "С чего начинать", и.т.д.
Обычно я стараюсь избегать таких видео, так как это бесконечная яма, и их обилие на канале будет лишь распугивать специалистов.
Но иногда вопросов накапливается критическое количество, и я понимаю, что все же надо выпустить очередное видео в эту тематику. В последнее время все больше и больше было вопросов о том как сейчас меняется рынок, что из себя он представляет, и что собственно Computer Vision из себя представляет в 2023.
Естественное, все увиденное - субъективно и с моей колокольни. Думаю что будет много комментариев о том что все не так :)
Думаю что многие слушатели с интересом почитают другие взгляды тоже.
https://youtu.be/A3HdPnw8wN4
Обычно я стараюсь избегать таких видео, так как это бесконечная яма, и их обилие на канале будет лишь распугивать специалистов.
Но иногда вопросов накапливается критическое количество, и я понимаю, что все же надо выпустить очередное видео в эту тематику. В последнее время все больше и больше было вопросов о том как сейчас меняется рынок, что из себя он представляет, и что собственно Computer Vision из себя представляет в 2023.
Естественное, все увиденное - субъективно и с моей колокольни. Думаю что будет много комментариев о том что все не так :)
Думаю что многие слушатели с интересом почитают другие взгляды тоже.
https://youtu.be/A3HdPnw8wN4
YouTube
Computer Vision в 2023, где мы сейчас
00:00:00 - Интро
00:01:22 - Если вы открыли канал в первый раз
00:02:13 - Кому нужен Computer Vision? Как устроен рынок?
00:05:09 - Какие компании представлены на рынке
00:07:30 - Рынок труда для Computer Visionв РФ. Кто нанимает?
00:13:55 - Почему зарплаты…
00:01:22 - Если вы открыли канал в первый раз
00:02:13 - Кому нужен Computer Vision? Как устроен рынок?
00:05:09 - Какие компании представлены на рынке
00:07:30 - Рынок труда для Computer Visionв РФ. Кто нанимает?
00:13:55 - Почему зарплаты…
🔥48❤9💩2
Несколько постов назад я собирал статистику по сеткам детекции для доклада на конференции. На конфу я не доехал, так как заболел. Но видео наконец записал:
https://youtu.be/Eb2mz0rv7J0
В целом это соответствует той телеге которую я проговариваю всем раз за разом уже года 3 как:
1) Выбор сети практически не имеет смысла. Очень мало задач где нужны именно доли процентов.
2) В первую очередь вам нужно оптимизировать задачу, данные и работу с данными
3) Во вторую очередь - оптимизируйте скорость инференса. И, если что, берите более жирную сеть на сэкономленное.
4) Смотрите на лицензии
5) Смотрите на претрейны
И ещё небольшой эксперимент. Попробовал сделать небольшой транскрипт этого видео в качестве статьи на LI.
https://youtu.be/Eb2mz0rv7J0
В целом это соответствует той телеге которую я проговариваю всем раз за разом уже года 3 как:
1) Выбор сети практически не имеет смысла. Очень мало задач где нужны именно доли процентов.
2) В первую очередь вам нужно оптимизировать задачу, данные и работу с данными
3) Во вторую очередь - оптимизируйте скорость инференса. И, если что, берите более жирную сеть на сэкономленное.
4) Смотрите на лицензии
5) Смотрите на претрейны
И ещё небольшой эксперимент. Попробовал сделать небольшой транскрипт этого видео в качестве статьи на LI.
YouTube
The Best Detection Network in Computer Vision (2023: YOLOv5, YOLOv8, DAMO-YOLO, etc...)
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:01:13 - What is "The Best" detection network?
00:01:44 - Accuracy. Where you should look.…
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:01:13 - What is "The Best" detection network?
00:01:44 - Accuracy. Where you should look.…
🔥50❤2💩1
Вчера был выпущен RPi 5.
Мне уже раз пять написали и спросили моё мнение. Так что кажется, что лучше описать свои мысли тут. Как его вижу я со стороны Computer Vision.
Что плохо:
1) Нет NPU. Это очень грустно. Большинство прямых конкурентов сейчас имеют NPU: Banana Pi, Rock Pi, Orange PI, Khadas, FireFly, итд. NPU не обязательно позволяет вычислять быстрее чем на процессоре. Но позволяет разгрузить процессор и не перегревать его. Например RPi 4 должен иметь очень хорошее охлаждение чтобы не троттлить при постоянном вычислении.
2) Не самый мощный процессор. Это пока эмпирические оценки. RPi4 где-то в 3-4 раза слабее RK3588S. При этом, про RPi5 пишут что он в 2-3 раза производительнее RPi4. Кажется, что никакого выигрыша с уже существующими конкурентами не будет.
3) Самая большая беда. PCIe. Пока не совсем понятно как будет выглядеть Compute Module. Но на текущей плате пользователю доступна одна линия PCIe 2.0. Это ровно то что было на RPi4 Compute Module. И это в 8 раз меньше пропускной способности PCIe 3.0 x4 (в 16 раз меньше PCIe4.0x4), который использует большинство современных ускорителей (Hailo, sima.ai, axelera.ai, etc). Один из важных вопросов - будет ли работать Google Coral. На прошлом RPi его так и не смогли завести.
4) Невнятная GPU. Судя по тому что остался тот же самый производитель, то для доступа к GPU придется проходить тот же квест - https://qengineering.eu/install-vulkan-on-raspberry-pi.html Хотя пишут что чуть лучше (https://www.phoronix.com/review/raspberry-pi-5-graphics). Но главное - он не будет и близко к процессору по скорости для нейронок. Старый GPU был в 3-4 раза слабее старого проца.
Что хорошо
1) Он все же быстрее.
2) PCIe из коробки. Упрощение прошлой логики. И вообще виден акцент на PCIe. Если появится много новых плат и ускорителей - это будет хорошо.
3) Судя по всему цена. Посмотрим как будет на практике. Но сейчас везде 60-80 USD. Это дешевле чем упомянутые рокчипы и другие альтернативы.
4) Это PRi - а значит огромное комьюнити и поддержка.
Что пока не понятно.
1) Реальная производительность нейросетей. К сожалению, без бенчмарков пока ничего сказать нельзя. Это не только вопрос числа ядер и частоты. Это ещё и вопрос того какие аппаратные ускорители есть (NEON итд.)
2) Необходимое охлаждение. Выросло ли оно пропорционально. Справляется ли вентилятор из коробки?
Мне уже раз пять написали и спросили моё мнение. Так что кажется, что лучше описать свои мысли тут. Как его вижу я со стороны Computer Vision.
Что плохо:
1) Нет NPU. Это очень грустно. Большинство прямых конкурентов сейчас имеют NPU: Banana Pi, Rock Pi, Orange PI, Khadas, FireFly, итд. NPU не обязательно позволяет вычислять быстрее чем на процессоре. Но позволяет разгрузить процессор и не перегревать его. Например RPi 4 должен иметь очень хорошее охлаждение чтобы не троттлить при постоянном вычислении.
2) Не самый мощный процессор. Это пока эмпирические оценки. RPi4 где-то в 3-4 раза слабее RK3588S. При этом, про RPi5 пишут что он в 2-3 раза производительнее RPi4. Кажется, что никакого выигрыша с уже существующими конкурентами не будет.
3) Самая большая беда. PCIe. Пока не совсем понятно как будет выглядеть Compute Module. Но на текущей плате пользователю доступна одна линия PCIe 2.0. Это ровно то что было на RPi4 Compute Module. И это в 8 раз меньше пропускной способности PCIe 3.0 x4 (в 16 раз меньше PCIe4.0x4), который использует большинство современных ускорителей (Hailo, sima.ai, axelera.ai, etc). Один из важных вопросов - будет ли работать Google Coral. На прошлом RPi его так и не смогли завести.
4) Невнятная GPU. Судя по тому что остался тот же самый производитель, то для доступа к GPU придется проходить тот же квест - https://qengineering.eu/install-vulkan-on-raspberry-pi.html Хотя пишут что чуть лучше (https://www.phoronix.com/review/raspberry-pi-5-graphics). Но главное - он не будет и близко к процессору по скорости для нейронок. Старый GPU был в 3-4 раза слабее старого проца.
Что хорошо
1) Он все же быстрее.
2) PCIe из коробки. Упрощение прошлой логики. И вообще виден акцент на PCIe. Если появится много новых плат и ускорителей - это будет хорошо.
3) Судя по всему цена. Посмотрим как будет на практике. Но сейчас везде 60-80 USD. Это дешевле чем упомянутые рокчипы и другие альтернативы.
4) Это PRi - а значит огромное комьюнити и поддержка.
Что пока не понятно.
1) Реальная производительность нейросетей. К сожалению, без бенчмарков пока ничего сказать нельзя. Это не только вопрос числа ядер и частоты. Это ещё и вопрос того какие аппаратные ускорители есть (NEON итд.)
2) Необходимое охлаждение. Выросло ли оно пропорционально. Справляется ли вентилятор из коробки?
Raspberry Pi
Introducing: Raspberry Pi 5! - Raspberry Pi
Announcing Raspberry Pi 5, coming in late October: over 2x faster than Raspberry Pi 4, featuring silicon designed in-house at Raspberry Pi.
🔥31❤7💩2
Я достаточно подробно слежу за современными предтрейненными сетками. DINOv2, вариации CLIP, и.т.д. Очевидно, что потенциал огромен. Очевидно, что за этим будущее. Есть задачи где мы уже интегрировали такие подходы и получили новый эффект. Но сейчас вопрос не про то. А про хайп вокруг (картинки из GPT-4).
Кажется что за последнюю неделю мне уже человек пять присылали разные картинки с описаниями. В целом, никакой разницы с тем что я писал весной нет. Качество улучшилось, но проблемы остались.
А вот медицинские картинки, как человек некомпетентный в медицине - переслал жене. И её бомбануло:
https://t.me/no_one_day_with/2097
Кажется что за последнюю неделю мне уже человек пять присылали разные картинки с описаниями. В целом, никакой разницы с тем что я писал весной нет. Качество улучшилось, но проблемы остались.
А вот медицинские картинки, как человек некомпетентный в медицине - переслал жене. И её бомбануло:
https://t.me/no_one_day_with/2097
Telegram
Ни дня без...
Chat GPT и победа формы над содержанием.
За пятницу я видела 4 примера того, как ChatGPT описывает словами медицинское изображение. Все примеры приводились в позитивном ключе, иногда даже с размахом "не каждый специалист так сможет".
Надо признать, GPT…
За пятницу я видела 4 примера того, как ChatGPT описывает словами медицинское изображение. Все примеры приводились в позитивном ключе, иногда даже с размахом "не каждый специалист так сможет".
Надо признать, GPT…
❤18🔥5💩1
Год назад я уже делал несколько видео про RockChip.
Кажется, что за этот год он стал сильно популярнее. И один из стандартных вопросов "как запустить YOLO". Мне его задавало человек 10. Русские, индусы, американцы, и.т.д. И мой совет "сделайте ровно как в документации" более половины не смогли ослить:)
Забавно, но из китайской документации это действительно сложно понять. Плюс надо немного понимать как работают сети и что надо доделать. Так что решил выпустить видео-гайд как все засетапить.
https://youtu.be/pN8mKZ5wpdQ
Кажется, что за этот год он стал сильно популярнее. И один из стандартных вопросов "как запустить YOLO". Мне его задавало человек 10. Русские, индусы, американцы, и.т.д. И мой совет "сделайте ровно как в документации" более половины не смогли ослить:)
Забавно, но из китайской документации это действительно сложно понять. Плюс надо немного понимать как работают сети и что надо доделать. Так что решил выпустить видео-гайд как все засетапить.
https://youtu.be/pN8mKZ5wpdQ
YouTube
Running YOLO (Yolov8, Yolov5, Yolov6, YoloX, PPYolo) on RockChip NPU (RK3566, RK3568,RK3588, RK3576)
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
Update after RKNN-Toolkit 1.6.0 - https://youtu.be/VjmnH910fac
00:00:00 - Intro
00:01:46 - What system should…
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
Update after RKNN-Toolkit 1.6.0 - https://youtu.be/VjmnH910fac
00:00:00 - Intro
00:01:46 - What system should…
🔥36❤5💩1
Давно хотел сделать некоторое общее видео о том как в последний год pre-train сеточки изменяют ландшафт CV. Кажется, что уже в 3-4 проектах использовали что-то из того что в этот год появилось. А тот же CLIP уже давно есть.
Это видео - достаточно общий верхнеуровневый обзор на тему с какой стороны можно заходить в претрейны, какие плюшки и бенефиты будут. Но понятно, что про каждую из сетей можно очень далеко и глубоко копать. Собственно вопросы: а вообще видео на эту тему интересны? Если да - есть 3-4 идеи о том как развить тему.
https://youtu.be/r47xyaPUrcY
Это видео - достаточно общий верхнеуровневый обзор на тему с какой стороны можно заходить в претрейны, какие плюшки и бенефиты будут. Но понятно, что про каждую из сетей можно очень далеко и глубоко копать. Собственно вопросы: а вообще видео на эту тему интересны? Если да - есть 3-4 идеи о том как развить тему.
https://youtu.be/r47xyaPUrcY
YouTube
Pre-trained neural networks for Computer Vision
My LinkedIn - https://www.linkedin.com/in/maltsevanton
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:39 - What types of pretrained models exists (Dinov2, SAM, etc.)?
00:01:46 - Straightforward…
My Twitter - https://twitter.com/Serious_WK
My Telegram channel - https://t.me/CVML_team
00:00:00 - Intro
00:00:39 - What types of pretrained models exists (Dinov2, SAM, etc.)?
00:01:46 - Straightforward…
🔥81❤7😱1💩1