Заметки Computer Vision инженера
5.84K subscribers
36 photos
13 videos
333 links
Мои статьи из разных мест.
Моя телега - @wk_zb

Про консультации - https://telegra.ph/Pro-konsultacii-03-19
Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19
Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Download Telegram
Я достаточно подробно слежу за современными предтрейненными сетками. DINOv2, вариации CLIP, и.т.д. Очевидно, что потенциал огромен. Очевидно, что за этим будущее. Есть задачи где мы уже интегрировали такие подходы и получили новый эффект. Но сейчас вопрос не про то. А про хайп вокруг (картинки из GPT-4).
Кажется что за последнюю неделю мне уже человек пять присылали разные картинки с описаниями. В целом, никакой разницы с тем что я писал весной нет. Качество улучшилось, но проблемы остались.
А вот медицинские картинки, как человек некомпетентный в медицине - переслал жене. И её бомбануло:
https://t.me/no_one_day_with/2097
18🔥5💩1
Год назад я уже делал несколько видео про RockChip.
Кажется, что за этот год он стал сильно популярнее. И один из стандартных вопросов "как запустить YOLO". Мне его задавало человек 10. Русские, индусы, американцы, и.т.д. И мой совет "сделайте ровно как в документации" более половины не смогли ослить:)
Забавно, но из китайской документации это действительно сложно понять. Плюс надо немного понимать как работают сети и что надо доделать. Так что решил выпустить видео-гайд как все засетапить.
https://youtu.be/pN8mKZ5wpdQ
🔥365💩1
Давно хотел сделать некоторое общее видео о том как в последний год pre-train сеточки изменяют ландшафт CV. Кажется, что уже в 3-4 проектах использовали что-то из того что в этот год появилось. А тот же CLIP уже давно есть.
Это видео - достаточно общий верхнеуровневый обзор на тему с какой стороны можно заходить в претрейны, какие плюшки и бенефиты будут. Но понятно, что про каждую из сетей можно очень далеко и глубоко копать. Собственно вопросы: а вообще видео на эту тему интересны? Если да - есть 3-4 идеи о том как развить тему.
https://youtu.be/r47xyaPUrcY
🔥817😱1💩1
Как и обещал - небольшое продолжение. О том как на практике можно использовать Dinov2 и CLIP (ну, либо любую другую из предтрейненных моделей). В первую очередь это различные anomaly-detection задачи, или задачи где есть всего несколько примеров для обучения (например когда вы отдаете инструмент "запомни" в руки пользователя).
Почти все задачи можно сделать быстрее и лучше, чем через CLIP и DINO. Но эти SSL сети дают важную особенность - универсальность, возможность быстро и дешево экспериментировать, возможность изменять поведение системы в реальном времени.
https://www.youtube.com/watch?v=CVEPrr7iaDQ
🔥359💩1
Изначально я хотел сделать небольшой пост в канале в стиле "А кто порекомендует какую следующую NPU плату для тестов?". Но пост стал обрастать подробностями плана: "вот эта плата есть на рынке, эта уже устарела, эта то же самая что и эта". И я понял что проще сделать видео на тему с обзором что сейчас есть в продаже. И задать те же самые вопросы: "а что интереснее в продаже" и "а что я упускаю"?
https://youtu.be/Jr5_Cuto7Rg
🔥1817💩1
Ну и продолжении позапрошлого видео. Запускаем CLIP и DINOv2 на эмбеддед устройствах. Через ONNX и RKNN. Мне было интересно потянет ли или нет и сколько времени будет на инференс.
В итоге 2-3 секунды на DINOv2 small на RPi и 0.5 на RK3568.
Но мне показалось что это прикольная тема о которой можно сделать видео. Есть ряд проблем которые проще собрать под одной крышей.
https://youtu.be/gYIMYd2x52A
🔥392💩1
Немного научпопа. У меня уже было видео где я рассказывал о том как работает распознавание лиц и как его обмануть. Видео стало самым популярным у меня на канале. И в моменты принятия очередных законов явно видны пики просмотров. Одним из доминирующих вопросов в том видео было "но ведь камеры умеют распознавать не только лица!". Собственно это видео - дополнение к прошлому/ответ на вопрос "а чем ещё камеры могут повредить обычному человеку".
Но сразу предупрежу, что видео именно ближе к научпопу, глубоко в алгоритмы не залезаю.
https://www.youtube.com/watch?v=rRQAAMQanfs
🔥206
И ещё немного научпопа (ничего, новая плата с RK уже пришла, думаю сделаю небольшое видео скоро).
Одна из вещей которая меня бесит в военной аналитике последние два года - абсолютное большинство экспертов временами начинают нести дичь про дроны. Особенно, когда дело касается Computer Vison и AI. Даже мои любимые Conflict Intelligence Team.
Да, я принципиально не занимаюсь дронами последние два года. И не сказать что до того был какой-то большой опыт. Но принципы CV везде остаются общие. Так что в своих размышлениях уверен на 99%.
В статье попробовал собрать мысли на тему того что дроны могут/что не могут/и что судя по всему смогут в ближайшее время.
https://medium.com/@zlodeibaal/drones-at-war-and-computer-vision-a16b8063be7b
🔥39😱2
Недавно захотел потратить немного времени чтобы таки разобраться с тем как в RK3588 устроен инференс на разных NPU ядрах. Как-раз пришла новая плата. Но внезапно оказалось что RockChip выкатил новую версию фреймворка. И он сильно отличается от того что было. Так что решил сначала записать видео с апдейтом что поменялось.
Надо признать что платформа становится все более и более человеческая. Более адекватные примеры, все больше и больше вещей работает из коробки, адекватная документация. Глядишь так через годик догонят и Hailo и Google TPU по адекватности поддержки.
В видео небольшой осмотр нововведений + рассказываю как скорректировались мои прошлые гайды.
Следующее видео о том как вытащить максимальную производительность из RK3588 уже на 50% готово, думаю до конца недели выложу.

https://youtu.be/VjmnH910fac
🔥325💩1
И немного вдогонку. Про Friendly Elk NanoPC-t6. Вдруг кому интересно.
Сначала думал сделать обзор на него в видео небольшой, но потом подумал "а нафига?". Есть видюшка где подробно конструктив показан. А все остальное будет идентично для других RK3588 плат. Так что просто напишу несколько мыслей сюда.

Когда я выбирал себе борду с RK3588 (RK3588s почти идентичен), то выбирал из десятка вариантов. Есть Radxa RockPi 5b, Orange Pi 5, Khadas Edge2, FireFly и куча других вендоров. Плата нужна в одном проекте + хотел потестить сам.

Когда выбирал, то понимал что не хочу Radxa - так как с RockPi 3А большие проблемы с прошивкой под NPU были. А NanoPC-t6 я в начале осени уже по SSH тестил и проблем не видел. При этом по цене он неплох. За 100$ как на официальном сайте я его не смог купить, но за ~140-160 без проблем можно взять с доставкой через неделю. Это лучше чем 2/3 конкурентов. Единственный конкурент чуть дешевле - OrangePi5. Но там почему-то адекватного CSI нет. Плюс кто-то жаловался на прошивки.

Коробочкой я скорее доволен:
1) Хорошая сборка. Ничего не дрожит, много портов и коннекторов.
2) Есть ощущение что от пыли неплохо защищено.
2) Система предустановлена, особых проблем в ней нет. Образов есть много но не экспериментировал с ними. Очень много установлено из коробки.

Из минусов:
1) На процессоре полностью нагруженном можно увести в троттлинг (минут за 15). Все же теплоотвод без вентилятора не справляется. Думаю что если грузить CPU+NPU+видео - быстро перегреется.
2) По умолчанию в RK3588 нет wifi. Надо использовать один из m.2 слотов.
3) Свой разъем питания. Странно что не type-c.
🔥152
Как и обещал - небольшая видюшка про оптимизацию скорости RockChip. В инете есть много упоминаний на эту тему. Но только не в официальной документации.
Быстрее всего инференс работает если распараллелить его по разным NPU и считать все одновременно. Это, конечно, убивает latency, но зато хороший перформанс. Так же попробовал несколько других способов с которыми никто не сравнивал:
1) Запуск сразу на всех NPU
2) Запуск батчами
Любопытно, что это приводит к ухудшению скорости даже по сравнению с батчем 1 в один поток. Подробнее рассматриваю все варианты в видео:
https://youtu.be/mDRfXNuIMBE

Я тут ничего не показываю ещё с квантизацией и оптимизацией через неё. Кажется что это будет когда-то отдельная серия видео.
🔥274
Всем привет!
С наступающим Новым Годом!

Недавно канал набрал 4к подписчиков (YouTube канал взял эту цифру месяц назад). Большое спасибо что смотрите и читаете:)

Новый Год близиться. Так что подведу некоторые мысли о том куда канал развивается, куда движется, что за год нового понял, и какая текущая статистика.
А так же отвечу на самый популярный вопрос:)

https://telegra.ph/Zametki-Computer-Vision-inzhenera-20232024-12-30
🔥625💩1
Всем привет!
Небольшое видео про RPi5. Рассказал о том какой фреймворк лучше, как экспортнуть на него сеточку. Ну и почему RPi хорошо, а почему плохо для Computer Vision.
Ну и забенчмаркал, конечно.
https://youtu.be/vZGecjoUiAI
🔥313
Признаюсь, у меня немного пригорело:)
На одном из популярных каналов про Computer Vision вышло видео с примером того как не надо делать распознавание скорости. Под соусом правильной системы. При этом я бы понял, если бы автор говорил что это наглядный пример для начинающих, но реальность будет другой. Для этих целей видео более чем годиться.
Но нет, в видео автор говорит что так и надо делать. Такие гайды, если становятся популярными - на годы вперед начинают генерить системы с неправильным дизайном. Я видел много такого для трекинга, подсчета людей, и.т.д.
Так что решил по-быстрому сделать видео-ответ где показал почему приведенный подход не очень, и в какую сторону надо смотреть. А тем кто смотрит/читает меня давно, напомню что у меня есть видео на русском где я разбираю тему как решать задачу подробнее.
https://youtu.be/bjljUgpLloM
🔥576😱3
На Хабре не писал уже давным давно. Как-то сейчас получается что проще сделать видео или небольшую узкоспециализированную статью на медиуме. Но какую-то длинную и сложную мысль с большим числом отсылок однозначно надо публиковать на Хабре. Собственно некоторое суммирование о всех больших моделях про которые я говорил на своём канале с весны решил сделать - https://habr.com/ru/companies/recognitor/articles/786646/
В тексте обзор + немного мыслей о том куда это все идет. Сейчас явно не волна хайпа на тему "ресерчеры не нужны", но кажется что тема иногда витает в воздухе:)
🔥4216
Думал ещё записать видео, но пожалуй обойдусь без.
Диаграмма это лишь малая часть того что есть в Computer Vision. И конечно, не полная. Тут почти ничего нет про One-Shot, про роботов, про медицину (а там много специфики!). Многие ссылки из приведенных - из моих обзоров. Там где их не было - попробовал добавить хорошие статьи обзорные, которые знаю. Или ссылки на метрики. Так же условно разделение на "блоки".

Я попробовал сделать схему такой чтобы новичкам или мидлам было интересно почитать что они упускают. Если хотите скинуть ссылку на хорошую обзорную статью по темам, где ссылок мало - кидайте, попробую добавить:)

Полистать оригинал можно тут - https://miro.com/app/board/uXjVN3JBiS4=/?share_link_id=549100776746
🔥10214💩1
Я уже вскользь упоминал про эту железку. Наконец добрался потестить LuckFox Pico Max Pro (RV1106).
Что ж. Это интересно. Нейроночки на МК становятся все удобнее и удобнее. Да, это не Питон. Но это уже "используй адеватный фреймворк для подготовки и экспорта, заинфери на плюсах". А это уже неплохо.
Есть странности с int8. Есть кривости с прошивкой. Но, в целом, при сохранении направления движения у РокЧипа через пару лет все должно стать сильно лучше. Так что получите, распишитесь:
https://www.youtube.com/watch?v=PdgeH8H5iN0
🔥41
Мне кажется, что Шахизат становится моим главным поставщиком плат:)
Уже вторая схема появилась по схеме: "Антон, тебе точно надо затестить вот эту плату. Я уже договорился с производителями, сейчас они тебе её бесплатно вышлют":)
Короче, спасибо Шахизату и Seeed Studio!

А поговорим мы сегодня про Grove Vision Ai 2. Мне кажется, что плата забавная. Последний раз на Grove AI v1 я смотрел давным-давно, и осмысленности там было мало. Очень слабый вычислитель, сложно загружать сетки.

Но со временем экосистема решила часть этих проблем. И вторая версия уже не может рассматриваться вне контекста экосистемы.
Экосистема нацелена на умные дома. Есть связка с MQTT, есть готовый скрипт постинга по UART. И большая библиотека готовых сеток. Загрузка своих сеток тоже есть, но весьма ограниченная. И кажется, что для этой платы это и не нужно.
А вот решить задачу детекции котика перед дверью теперь можно сильно проще чем раньше.

Короче, видео - https://youtu.be/vZoFVr-3xLw
🔥28
Сегодня думал доделать ещё одно видео выложить.
Но слишком грустно.
Если вдруг кого-то скрутят менты при попытке возложить цветы на памятники - напоминаю, есть ОВД-инфо, которое пробует вам помочь.
Если что, не стесняйтесь писать мне/сюда.
💔188💩462
Хочу сделать небольшую серию из видео где рассказать о проектах которые нам попадались. Первое видео в серии про забавные проекты. Самые смешные пока под NDA но собралась забавная подборочка.
https://youtu.be/8vjGkh8SN88
🔥303