Заметки Computer Vision инженера

Что-то все спрашивают. Не вытерпел бахнуть.
Короче, SAM3 это вам не SAM2 и уж тем более не SAM.
Это вам целый комбайн с свистелками и перделками, к науке имеющий мало отношения:)
Но то что все из коробки (почти все) - прикольно.

А вы поняли что там сложные запросы через итерационный "Agentic mode"?:)
https://youtu.be/66e23O8utXg

YouTube

SAM3 - Great, but...

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.me/CVML_team
e-mail: anton@rembrain.ai
Twitter - https://twitter.com/Serious_WK

🔥14❤3💩2

5.05K views15:05

Заметки Computer Vision инженера

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Всем нравиться немного нейрослопа, я знаю.
А поговорим мы сегодня про SpacemiT Muse Pi Pro.
И тут прямо целая настоящая детективная история.
1) Оказалось что процессор я уже ревьювил на канале
2) Оказалось что все ревью было неправильным (так как OrangePi не удосужился написать а что собственно поддерживается)

Короче, исправляем ошибки с новой платой:)
И спасибо ребятам за то что прислали её на обзор:)

https://youtu.be/DHSrJ2PoPvo
https://medium.com/@zlodeibaal/spacemit-muse-pi-pro-review-c7bdadeb23f4

❤13💩9🔥2

4.35K views20:28

Заметки Computer Vision инженера

А какой был ваш первый фреймворк для обучения более-менее современных нейронок?
Мой первый вот этот. На тот момент у меня была GPU от AMD + Винда. И ничего нормального как Theano или Caffe запустить было нельзя.

Конечно, я ещё до этого обучал полносвязные сети разными фреймворками (но названия сейчас не вспомню). А свёрточные сам писал ещё в 2014 году чтобы поэкспериментировать перед защитой диссера.

Но именно отсутствие доступного железа и кода чтобы поэкспериментировать 1-2 дня служило блокером от того чтобы начать это применять массово.

Картинка на превью - это я сейчас случайно откопал из отчета 2015 года, когда я обучил и получил 83% точности против 82% точности которые у нас тогда были через хитронастроенный ансамбль из 5 моделей + haar c бустингом поверх.

/сделал опрос в комментах. Если будет что-то вне списка - обязательно пишите:)

🔥30😱4💩2

5.15K viewsedited 13:36

Заметки Computer Vision инженера

Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.

Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.

В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.

Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo

YouTube

Is Nvidia Jetson dying?

00:00:00 - Intro
00:03:51 - Reasons for Jetson in 2026?
00:04:06 - Accelerators alternatives: Axelera, Sima, Saphon, etc.
00:04:30 - The Second advantage of Jetson alternatives
00:04:51 - Intel, Qualcomm, AMD
00:06:33 - Jetson Thor (?)
00:09:10 - Nvidia containers?…

❤20🔥8💩1

5.47K views14:58

Заметки Computer Vision инженера

Меня каждый раз удивляет насколько люди падки на дешевый пиар. В прошлый раз про кафе 99.9% каналов поверила что это реально. Сейчас Promobot Aidol падает на сцене. Почему я пишу промобот? Потому что это компания того же фаундера. Чем известен промобот? Тупым…

Я очень стараюсь не говорить постоянно "я же говорил". Очень, очень сложно. Извините.
Но интервью прекрасно:
"Теперь масса инвесторов и заказов"
"Это факап? Нет, у нас был этот план, ничего неожиданного не случилось"
"Решение принимал я"
МУХАХА

Мне такой подход, как я говорил, далёк. Но, интервью забавное. Алексей очень много интересного говорит о том как работать с командой в таких условиях. Что им говорить и как мотивировать в таких условиях.
В целом много чему поучиться в этом плане.

💩7🔥5😱3

4.16K viewsedited 14:00

Заметки Computer Vision инженера

В продолжении вчерашнего поста. Записал небольшое видео на второй канал что я думаю о гуманоидных роботах и почему это не "скам-скам". Но с другой стороны рассказываю в чем их реальные проблемы и ограничения.
https://youtu.be/RhmtWgY5geM

YouTube

Роботы гуманойды. Почему это сейчас не работает и почему все в них инвестируют.

Основной канал - @AntonMaltsev
Телега - https://t.me/CVML_team

🔥21💩2

4.2K views01:17

Заметки Computer Vision инженера

Короче. Последние пару месяцев активно изучал OAK 4. Я думаю что кто-то уже догадался из подписчиков.
Это прямо настоящий NPU + стереокамера.
Мне его прислали до релиза. А вот сегодня официальное открытие продаж.
Было интересно! За последние пару месяцев у них много чего нового появилось. В том числе, пару недель назад у них появился "Neuro Depth" - это первая сеточка для Stereo Depth которая работает на NPU и выдаёт пристойное качество.
Текущее видео и статьи обзорные. В них о том что это за платформа.
1) Как выглядят пайплайны (они тут необычные)
2) Как готовить сеточки (оно пересекается с моим прошлым видео про Qualcomm)
3) Что тут за Stereo Depth и с чем его едят
4) Latency!

Через неделю выкачу более подробное видео про их Depth Estimation, покажу чем он отличается, где лучше а где хуже. Чуть позже подумаю как сравнить с другими стереокамерами.
Видео - https://youtu.be/j8uXZ7qC8V0
Статья - https://medium.com/@zlodeibaal/c22c87f6a5f2

Medium

Luxonis OAK-D 4D: A Closer Look at the Next-Gen Smart 3D Camera

OAK 4D is a new camera from Luxonis. Let’s discuss how is it working, if it good and how you can use it.

🔥20❤7💩2

4.56K viewsedited 14:03

Заметки Computer Vision инженера

Из смешных моментов вчерашней официальной презы OAK. Было прикольно в презе OAK увидеть кадр работы системы которую мы разработали для другой компании года три назад. Иногда забываешь как тесен мир:)

❤32💩1

4.64K views13:37

Заметки Computer Vision инженера

Почему я люблю видео про 3д камеры.

Они перформят лучше всего в большом временном окне. Это не 100% правило. Но именно 3д камеры - наиболее живущий продукт на рынке. И если видео хорошее - его будут смотреть больше и больше. Даже если изначально его посмотрело 200 человек (OrbBec). NPU и разные железки на втором месте. Там где-то 2 года до начала замедления и 3-4 года до момента сильного замедления. Если сравним с другими видео (обзоры, интервью, гайды, и.т.д.) - то изначальный перформанс меньше, результирующий сильно выше.

Исключения есть. Но это все же правило.

🔥18❤4😱2

4.82K views12:11

Заметки Computer Vision инженера

https://youtu.be/lNNdMavmPTw

Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии

При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.

YouTube

Neural Stereo Depth estimation with OAK 4D (LENS network)

Here is the article from Luxonis, which is interesting IMHO - https://discuss.luxonis.com/blog/6553-neural-stereo-depth-estimation-with-lens

00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…

🔥15❤1

4.1K views23:55

Заметки Computer Vision инженера

Я давно хотел рассказать в своём канале о том, какие инструменты я использую для его ведения. Часть идей использую и в работе.

1) Транскрибирование и структурирование мыслей
В первую очередь я использую ChatGPT для транскрибирования своих заметок.
Я просто надиктовываю длинный поток мыслей — часто с повторами, отступлениями и не очень связанной структурой — а потом прошу привести этот текст в порядок:

1) убрать повторы,
2) разложить мысли по пунктам,
3) сделать более логичную структуру.

Это особенно удобно, когда у тебя много разрозненных замечаний про какую-то платформу или железо.
Раньше я всё это писал в огромный текстовый документ, а сейчас просто наговариваю голосом.
Иногда, конечно, модель что-то теряет или забывает, но в целом:
русский язык чатгпт распознает хорошо,
логику и структуру держит вполне прилично.

2. Один текст — сразу в нескольких форматах
Следующий шаг — я прошу сразу несколько вариантов одного и того же текста.

Во-первых, скрипт для видео. Получается не идеально, но:

появляются опорные точки,
становится проще рассказывать,
не нужно держать всё в голове.

Во-вторых статья. Из-за этого в последнее время статьи часто выходят одновременно с видео — просто потому, что это удобно.
Если раньше написание статьи занимало у меня плюс 1,5–2 часа, то сейчас это 15–20 минут.

3. Картинки и превью
Различные картинки и превью я, понятно тоже генерю. Но:
Я не использую нейросети для:
1) внутренних технических схем,
2) логики,
3)детальной структуры
5) примеро

Иногда могу попросить:
нарисовать общую блок-схему,
сделать простую диаграмму — не более того. С этим пока все плохо работает
Так же генерю подводки иногда

4. Анализ платформ и документации
Отдельная большая тема — анализ платформ и железа.
Сейчас многие производители:
раскидывают документацию по куче разных мест,
1) плохо её структурируют,
2) почти не делают нормальных гайдов и how-to.

Что я делаю:
собираю пачку ссылок,
закидываю их в ChatGPT, Gemini или что-то подобное,
прошу найти в этой документации, как сделать конкретные вещи.
Это такой «поиск на коленке», но как первая отправная точка он работает вполне неплохо.
Есть, конечно, проблемы:
не всегда хватает контекста,
модель может чего-то не видеть,
иногда говорит, что что-то невозможно или что код не работает.
В таких случаях уже идёшь и разбираешься руками, но для старта — нормально.

5. Codex
Иногда, базовый запуск делаю через Codex
1) ставлю его на плату или железку,
2) начинаю говорить: «сделай это», «сделай то».
Если это какая-то странная китайская платформа — чаще всего не взлетает.
Но как первичное приближение — всё равно полезно.
Бывают даже приятные сюрпризы:
ты уже думаешь, что ничего не получится, а Codex через полчаса–час вдруг находит какое-то рабочее решение.

6. Итог
Ускоряет раза в 2 где то по сравнению с тем что было. Немного поднимает качество.

А вы используете для ведения каналов и как?😁

❤28🔥22💩9😱2

3.68K views19:46

Заметки Computer Vision инженера

Так, надо подвести итоги за год наверное.
И, наверное, главный итог, что в этом году фокус был далёк от канала:)

Главные достижения:
1️⃣ Родилась дочь 👧. Надо сказать что детей мы рожаем странно. Сын родился в середине ковидных ограничений. А дочь через месяц после переезда.
2️⃣ Переехали из Ставангера в Берлин 🇳🇴➡️🇩🇪
3️⃣ Получил Норвежские права - тот ещё был квест 🚙. В Норвегии и Германии РФ права не работают, надо было делать с нуля там или там. Решил в Норвегии.
4️⃣ Для протокола - ещё есть прикольное, но об этом как-нибудь потом расскажу 😄

Канал тоже как-то он развивался. Но видно по статам что 1-4 из списка занимало больше времени:)

Статы
1️⃣ Впервые замедлился рост TG канала (прошлый год + 1300 подписчиков, в этом 500)
2️⃣ Ютуб тоже замедлился (1.291 против 2.189)
3️⃣ Линкедин (934 против ~1500)

Остальные платформы не столь важны. На мой взгляд причины замедления:
1️⃣ Уменьшил время которое тратил на канал
2️⃣ Для людей Ютуб уменьшает значимость при работе с техникой. Ведь можно спросить ChatGPT. И я даже вижу оттуда трафик. Но ещё больше народу который не проходит по ссылке.
3️⃣ Не было "киллер видео". В прошлом году было 4 видео где просмотров больше 5к. В этом два (и одно из них было записано в прошлом году).
4️⃣ Телега превратилась из камерной в ботоводку:)

Контент
Внезапно было обзоров ~ на 13 новых разных девайсов. Из них ~6 были мне присланы бесплатно ~4 дали погонять по SSH, остальные покупал сам.
Всего было 29 видео (было +1 записанное, но его походу не получится выложить 😂). В прошлом году было 43.
Ещё было 11 статей на медиуме.

Что дальше
Пока что планирую оставлять канал в прошлом формате
1️⃣ Фокус на железках и их тесте. Новые NPU + тестировать новые алгоритмы + новые 3д камеры.
2️⃣ Рассказывать что новое и интересное в CV и роботах вокруг
3️⃣ Хочу таки сделать нормальные интервью. Но каждый раз это ужасно болезненно записывать. Очень много надо тратить времени, а выходит далеко от того что я хочу. Надо найти схему которая работает.

Всех с наступающим!

🔥67❤36💩3

2.98K views11:00

Заметки Computer Vision инженера

Ну ладно, новогодние праздники. Время не особо разумного контента.
Так что записал видео с размышлениями "Где ML-щику живётся хорошо". Но, конечно, это бесполезно рассматривать без анализа конкретных обстоятельств. Так что сфокусировался на себе и своей логике
https://youtu.be/SzlrLhbSS9I

🔥19💩5❤3

2K viewsedited 19:27

About

Blog

Apps

Platform