Заметки Computer Vision инженера
5.84K subscribers
36 photos
13 videos
333 links
Мои статьи из разных мест.
Моя телега - @wk_zb

Про консультации - https://telegra.ph/Pro-konsultacii-03-19
Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19
Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Download Telegram
Что-то все спрашивают. Не вытерпел бахнуть.
Короче, SAM3 это вам не SAM2 и уж тем более не SAM.
Это вам целый комбайн с свистелками и перделками, к науке имеющий мало отношения:)
Но то что все из коробки (почти все) - прикольно.

А вы поняли что там сложные запросы через итерационный "Agentic mode"?:)
https://youtu.be/66e23O8utXg
🔥143💩2
This media is not supported in your browser
VIEW IN TELEGRAM
Всем нравиться немного нейрослопа, я знаю.
А поговорим мы сегодня про SpacemiT Muse Pi Pro.
И тут прямо целая настоящая детективная история.
1) Оказалось что процессор я уже ревьювил на канале
2) Оказалось что все ревью было неправильным (так как OrangePi не удосужился написать а что собственно поддерживается)

Короче, исправляем ошибки с новой платой:)
И спасибо ребятам за то что прислали её на обзор:)

https://youtu.be/DHSrJ2PoPvo
https://medium.com/@zlodeibaal/spacemit-muse-pi-pro-review-c7bdadeb23f4
13💩9🔥2
А какой был ваш первый фреймворк для обучения более-менее современных нейронок?
Мой первый вот этот. На тот момент у меня была GPU от AMD + Винда. И ничего нормального как Theano или Caffe запустить было нельзя.

Конечно, я ещё до этого обучал полносвязные сети разными фреймворками (но названия сейчас не вспомню). А свёрточные сам писал ещё в 2014 году чтобы поэкспериментировать перед защитой диссера.

Но именно отсутствие доступного железа и кода чтобы поэкспериментировать 1-2 дня служило блокером от того чтобы начать это применять массово.

Картинка на превью - это я сейчас случайно откопал из отчета 2015 года, когда я обучил и получил 83% точности против 82% точности которые у нас тогда были через хитронастроенный ансамбль из 5 моделей + haar c бустингом поверх.

/сделал опрос в комментах. Если будет что-то вне списка - обязательно пишите:)
🔥30😱4💩2
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.

Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.

В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.

Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
20🔥8💩1
Заметки Computer Vision инженера
Меня каждый раз удивляет насколько люди падки на дешевый пиар. В прошлый раз про кафе 99.9% каналов поверила что это реально. Сейчас Promobot Aidol падает на сцене. Почему я пишу промобот? Потому что это компания того же фаундера. Чем известен промобот? Тупым…
Я очень стараюсь не говорить постоянно "я же говорил". Очень, очень сложно. Извините.
Но интервью прекрасно:
"Теперь масса инвесторов и заказов"
"Это факап? Нет, у нас был этот план, ничего неожиданного не случилось"
"Решение принимал я"
МУХАХА

Мне такой подход, как я говорил, далёк. Но, интервью забавное. Алексей очень много интересного говорит о том как работать с командой в таких условиях. Что им говорить и как мотивировать в таких условиях.
В целом много чему поучиться в этом плане.
💩7🔥5😱3
Короче. Последние пару месяцев активно изучал OAK 4. Я думаю что кто-то уже догадался из подписчиков.
Это прямо настоящий NPU + стереокамера.
Мне его прислали до релиза. А вот сегодня официальное открытие продаж.
Было интересно! За последние пару месяцев у них много чего нового появилось. В том числе, пару недель назад у них появился "Neuro Depth" - это первая сеточка для Stereo Depth которая работает на NPU и выдаёт пристойное качество.
Текущее видео и статьи обзорные. В них о том что это за платформа.
1) Как выглядят пайплайны (они тут необычные)
2) Как готовить сеточки (оно пересекается с моим прошлым видео про Qualcomm)
3) Что тут за Stereo Depth и с чем его едят
4) Latency!

Через неделю выкачу более подробное видео про их Depth Estimation, покажу чем он отличается, где лучше а где хуже. Чуть позже подумаю как сравнить с другими стереокамерами.
Видео - https://youtu.be/j8uXZ7qC8V0
Статья - https://medium.com/@zlodeibaal/c22c87f6a5f2
🔥207💩2
Из смешных моментов вчерашней официальной презы OAK. Было прикольно в презе OAK увидеть кадр работы системы которую мы разработали для другой компании года три назад. Иногда забываешь как тесен мир:)
32💩1
Почему я люблю видео про 3д камеры.

Они перформят лучше всего в большом временном окне. Это не 100% правило. Но именно 3д камеры - наиболее живущий продукт на рынке. И если видео хорошее - его будут смотреть больше и больше. Даже если изначально его посмотрело 200 человек (OrbBec). NPU и разные железки на втором месте. Там где-то 2 года до начала замедления и 3-4 года до момента сильного замедления. Если сравним с другими видео (обзоры, интервью, гайды, и.т.д.) - то изначальный перформанс меньше, результирующий сильно выше.

Исключения есть. Но это все же правило.
🔥184😱2
https://youtu.be/lNNdMavmPTw

Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии

При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
🔥151
Я давно хотел рассказать в своём канале о том, какие инструменты я использую для его ведения. Часть идей использую и в работе. 

1) Транскрибирование и структурирование мыслей
В первую очередь я использую ChatGPT для транскрибирования своих заметок.
Я просто надиктовываю длинный поток мыслей — часто с повторами, отступлениями и не очень связанной структурой — а потом прошу привести этот текст в порядок:

1) убрать повторы,
2) разложить мысли по пунктам,
3) сделать более логичную структуру.

Это особенно удобно, когда у тебя много разрозненных замечаний про какую-то платформу или железо.
Раньше я всё это писал в огромный текстовый документ, а сейчас просто наговариваю голосом.
Иногда, конечно, модель что-то теряет или забывает, но в целом:
русский язык чатгпт распознает хорошо,
логику и структуру держит вполне прилично.

2. Один текст — сразу в нескольких форматах
Следующий шаг — я прошу сразу несколько вариантов одного и того же текста.

Во-первых, скрипт для видео. Получается не идеально, но:

появляются опорные точки,
становится проще рассказывать,
не нужно держать всё в голове.

Во-вторых статья. Из-за этого в последнее время статьи часто выходят одновременно с видео — просто потому, что это удобно.
Если раньше написание статьи занимало у меня плюс 1,5–2 часа, то сейчас это 15–20 минут.

3. Картинки и превью
Различные картинки и превью я, понятно тоже генерю. Но:
Я не использую нейросети для:
1) внутренних технических схем,
2) логики,
3)детальной структуры
5) примеро

Иногда могу попросить:
нарисовать общую блок-схему,
сделать простую диаграмму — не более того. С этим пока все плохо работает
Так же генерю подводки иногда

4. Анализ платформ и документации
Отдельная большая тема — анализ платформ и железа.
Сейчас многие производители:
раскидывают документацию по куче разных мест,
1) плохо её структурируют,
2) почти не делают нормальных гайдов и how-to.

Что я делаю:
собираю пачку ссылок,
закидываю их в ChatGPT, Gemini или что-то подобное,
прошу найти в этой документации, как сделать конкретные вещи.
Это такой «поиск на коленке», но как первая отправная точка он работает вполне неплохо.
Есть, конечно, проблемы:
не всегда хватает контекста,
модель может чего-то не видеть,
иногда говорит, что что-то невозможно или что код не работает.
В таких случаях уже идёшь и разбираешься руками, но для старта — нормально.

5.  Codex 
Иногда, базовый запуск делаю через Codex
1) ставлю его на плату или железку,
2) начинаю говорить: «сделай это», «сделай то».
Если это какая-то странная китайская платформа — чаще всего не взлетает.
Но как первичное приближение — всё равно полезно.
Бывают даже приятные сюрпризы:
ты уже думаешь, что ничего не получится, а Codex через полчаса–час вдруг находит какое-то рабочее решение.

6. Итог
Ускоряет раза в 2 где то по сравнению с тем что было. Немного поднимает качество.

А вы используете для ведения каналов и как?😁
28🔥22💩9😱2
Так, надо подвести итоги за год наверное.
И, наверное, главный итог, что в этом году фокус был далёк от канала:)

Главные достижения:
1️⃣ Родилась дочь 👧. Надо сказать что детей мы рожаем странно. Сын родился в середине ковидных ограничений. А дочь через месяц после переезда.
2️⃣ Переехали из Ставангера в Берлин 🇳🇴➡️🇩🇪
3️⃣ Получил Норвежские права - тот ещё был квест 🚙. В Норвегии и Германии РФ права не работают, надо было делать с нуля там или там. Решил в Норвегии.
4️⃣ Для протокола - ещё есть прикольное, но об этом как-нибудь потом расскажу 😄

Канал тоже как-то он развивался. Но видно по статам что 1-4 из списка занимало больше времени:)

Статы
1️⃣ Впервые замедлился рост TG канала (прошлый год + 1300 подписчиков, в этом 500)
2️⃣ Ютуб тоже замедлился (1.291 против 2.189)
3️⃣ Линкедин (934 против ~1500)

Остальные платформы не столь важны. На мой взгляд причины замедления:
1️⃣ Уменьшил время которое тратил на канал
2️⃣ Для людей Ютуб уменьшает значимость при работе с техникой. Ведь можно спросить ChatGPT. И я даже вижу оттуда трафик. Но ещё больше народу который не проходит по ссылке.
3️⃣ Не было "киллер видео". В прошлом году было 4 видео где просмотров больше 5к. В этом два (и одно из них было записано в прошлом году).
4️⃣ Телега превратилась из камерной в ботоводку:)

Контент
Внезапно было обзоров ~ на 13 новых разных девайсов. Из них ~6 были мне присланы бесплатно ~4 дали погонять по SSH, остальные покупал сам.
Всего было 29 видео (было +1 записанное, но его походу не получится выложить 😂). В прошлом году было 43.
Ещё было 11 статей на медиуме.

Что дальше
Пока что планирую оставлять канал в прошлом формате
1️⃣ Фокус на железках и их тесте. Новые NPU + тестировать новые алгоритмы + новые 3д камеры.
2️⃣ Рассказывать что новое и интересное в CV и роботах вокруг
3️⃣ Хочу таки сделать нормальные интервью. Но каждый раз это ужасно болезненно записывать. Очень много надо тратить времени, а выходит далеко от того что я хочу. Надо найти схему которая работает.

Всех с наступающим!
🔥6736💩3
Ну ладно, новогодние праздники. Время не особо разумного контента.
Так что записал видео с размышлениями "Где ML-щику живётся хорошо". Но, конечно, это бесполезно рассматривать без анализа конкретных обстоятельств. Так что сфокусировался на себе и своей логике
https://youtu.be/SzlrLhbSS9I
🔥19💩53