Заметки Computer Vision инженера

https://youtu.be/lNNdMavmPTw

Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии

При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.

YouTube

Neural Stereo Depth estimation with OAK 4D (LENS network)

Here is the article from Luxonis, which is interesting IMHO - https://discuss.luxonis.com/blog/6553-neural-stereo-depth-estimation-with-lens

00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…

🔥16💩2❤1

5.28K views23:55

Заметки Computer Vision инженера

Я давно хотел рассказать в своём канале о том, какие инструменты я использую для его ведения. Часть идей использую и в работе.

1) Транскрибирование и структурирование мыслей
В первую очередь я использую ChatGPT для транскрибирования своих заметок.
Я просто надиктовываю длинный поток мыслей — часто с повторами, отступлениями и не очень связанной структурой — а потом прошу привести этот текст в порядок:

1) убрать повторы,
2) разложить мысли по пунктам,
3) сделать более логичную структуру.

Это особенно удобно, когда у тебя много разрозненных замечаний про какую-то платформу или железо.
Раньше я всё это писал в огромный текстовый документ, а сейчас просто наговариваю голосом.
Иногда, конечно, модель что-то теряет или забывает, но в целом:
русский язык чатгпт распознает хорошо,
логику и структуру держит вполне прилично.

2. Один текст — сразу в нескольких форматах
Следующий шаг — я прошу сразу несколько вариантов одного и того же текста.

Во-первых, скрипт для видео. Получается не идеально, но:

появляются опорные точки,
становится проще рассказывать,
не нужно держать всё в голове.

Во-вторых статья. Из-за этого в последнее время статьи часто выходят одновременно с видео — просто потому, что это удобно.
Если раньше написание статьи занимало у меня плюс 1,5–2 часа, то сейчас это 15–20 минут.

3. Картинки и превью
Различные картинки и превью я, понятно тоже генерю. Но:
Я не использую нейросети для:
1) внутренних технических схем,
2) логики,
3)детальной структуры
5) примеро

Иногда могу попросить:
нарисовать общую блок-схему,
сделать простую диаграмму — не более того. С этим пока все плохо работает
Так же генерю подводки иногда

4. Анализ платформ и документации
Отдельная большая тема — анализ платформ и железа.
Сейчас многие производители:
раскидывают документацию по куче разных мест,
1) плохо её структурируют,
2) почти не делают нормальных гайдов и how-to.

Что я делаю:
собираю пачку ссылок,
закидываю их в ChatGPT, Gemini или что-то подобное,
прошу найти в этой документации, как сделать конкретные вещи.
Это такой «поиск на коленке», но как первая отправная точка он работает вполне неплохо.
Есть, конечно, проблемы:
не всегда хватает контекста,
модель может чего-то не видеть,
иногда говорит, что что-то невозможно или что код не работает.
В таких случаях уже идёшь и разбираешься руками, но для старта — нормально.

5. Codex
Иногда, базовый запуск делаю через Codex
1) ставлю его на плату или железку,
2) начинаю говорить: «сделай это», «сделай то».
Если это какая-то странная китайская платформа — чаще всего не взлетает.
Но как первичное приближение — всё равно полезно.
Бывают даже приятные сюрпризы:
ты уже думаешь, что ничего не получится, а Codex через полчаса–час вдруг находит какое-то рабочее решение.

6. Итог
Ускоряет раза в 2 где то по сравнению с тем что было. Немного поднимает качество.

А вы используете для ведения каналов и как?😁

❤29🔥24💩10😱2

5.26K views19:46

Заметки Computer Vision инженера

Так, надо подвести итоги за год наверное.
И, наверное, главный итог, что в этом году фокус был далёк от канала:)

Главные достижения:
1️⃣ Родилась дочь 👧. Надо сказать что детей мы рожаем странно. Сын родился в середине ковидных ограничений. А дочь через месяц после переезда.
2️⃣ Переехали из Ставангера в Берлин 🇳🇴➡️🇩🇪
3️⃣ Получил Норвежские права - тот ещё был квест 🚙. В Норвегии и Германии РФ права не работают, надо было делать с нуля там или там. Решил в Норвегии.
4️⃣ Для протокола - ещё есть прикольное, но об этом как-нибудь потом расскажу 😄

Канал тоже как-то он развивался. Но видно по статам что 1-4 из списка занимало больше времени:)

Статы
1️⃣ Впервые замедлился рост TG канала (прошлый год + 1300 подписчиков, в этом 500)
2️⃣ Ютуб тоже замедлился (1.291 против 2.189)
3️⃣ Линкедин (934 против ~1500)

Остальные платформы не столь важны. На мой взгляд причины замедления:
1️⃣ Уменьшил время которое тратил на канал
2️⃣ Для людей Ютуб уменьшает значимость при работе с техникой. Ведь можно спросить ChatGPT. И я даже вижу оттуда трафик. Но ещё больше народу который не проходит по ссылке.
3️⃣ Не было "киллер видео". В прошлом году было 4 видео где просмотров больше 5к. В этом два (и одно из них было записано в прошлом году).
4️⃣ Телега превратилась из камерной в ботоводку:)

Контент
Внезапно было обзоров ~ на 13 новых разных девайсов. Из них ~6 были мне присланы бесплатно ~4 дали погонять по SSH, остальные покупал сам.
Всего было 29 видео (было +1 записанное, но его походу не получится выложить 😂). В прошлом году было 43.
Ещё было 11 статей на медиуме.

Что дальше
Пока что планирую оставлять канал в прошлом формате
1️⃣ Фокус на железках и их тесте. Новые NPU + тестировать новые алгоритмы + новые 3д камеры.
2️⃣ Рассказывать что новое и интересное в CV и роботах вокруг
3️⃣ Хочу таки сделать нормальные интервью. Но каждый раз это ужасно болезненно записывать. Очень много надо тратить времени, а выходит далеко от того что я хочу. Надо найти схему которая работает.

Всех с наступающим!

🔥74❤37💩4

6.77K views11:00

Заметки Computer Vision инженера

Ну ладно, новогодние праздники. Время не особо разумного контента.
Так что записал видео с размышлениями "Где ML-щику живётся хорошо". Но, конечно, это бесполезно рассматривать без анализа конкретных обстоятельств. Так что сфокусировался на себе и своей логике
https://youtu.be/SzlrLhbSS9I

🔥23💩7❤3

6.69K viewsedited 19:27

Заметки Computer Vision инженера

На CES анонсировали интересную штуку. Некоторый внешний инференс сервак для моделек - https://tiiny.ai/
Выглядит интересно, даже показывают демо.
Но по характеристикам как-то странно, такого никогда не видел.
Несколько гипотез после быстрого гугления:
1) Процессор с NPU на борту похож на CIX P1 CD8180. Сам NPU чип похож на Houmo.ai. Ни тот ни другой я не щупал. Зная железо у китайских ноунеймов - я бы удивился что это заработало из коробки. Но опять же, на демо могут показывать фейк и надеятся что соберут всё сами.
2) Какая-то комбинация Qualcomm/Mediatek. Сама коробка похожа на смартфон. И у тех и у тех есть чипы под 100NPU. Питание должно быть примерно похожим. Но очень сомнительно.
3) Кто-нибудь известный по типу Axelera. Но там числа не бьются. И, конечно, там у них будет очень много сложностей на этом пути.

Короче дико интересно. Ваши ставки?

🔥13❤2💩2😱1

6.44K views23:31

Заметки Computer Vision инженера

Всем привет!
В одной из компаний с которыми я работал последние несколько лет в понедельник решили сократить половину ML команды. Из 4х человек которых сократили двое уже нашли работу:)
Но остальных двух вы можете успеть нанять.
Если вдруг вы ищете сильного синьера по CV, который разбирается в LLM-ках и VLM-ках, тогда могу посоветовать вам Кирилла и Алексея. С обоими я работал в нескольких компаниях последние 8 лет и очень рекомендую.
Кирилл (linkedin, @kirillfish)
Алексей (linkedin, @avihirev)

💔37🔥18💩4😱3

5.2K views10:57

Заметки Computer Vision инженера

Небольшой проект который я запилил месяц назад. Хотелось сделать какой-нибудь телеоп робот для бабушек и внуков. В целом, идея сработала.
https://medium.com/@zlodeibaal/a-simples-telepresence-robot-60c27bbeff5f
Но достаточно забавно следующее:
* Два года назад на рынке таких роботов вообще не было
* Пол года назад когда я заказал робота и запланировал всё - я смог найти телеоп роботов для питомцев, но не для детей
* За эти пол года в продаже появилось несколько роботов оптимизированных именно под детей.

Так что сегодня я бы такое не делал:)
Но так как сделал - решил сделать небольшую статейку.

Medium

A Simples Telepresence Robot

A short guide to building one of the cheapest teleop robots for children. Simple robot + rpi + a little bit streaming.

❤32🔥8💩2

4.31K views02:25

Заметки Computer Vision инженера

Когда я брал робота из прошлого поста, то у меня, конечно, был план не только с телеопом поэкспериментировать. Думал и с VLA и какими-то другими подходами.
Сейчас, когда я смотрю на механику и реализацию - сомневаюсь что это надо делать. Разве что полностью управление переписать. Так что одно из следующих видео про VLA будет на базе другого сетапа.
Но всё же пару экспериментов я решил провести. Тех которые были быстрее всего и почти не вселяли надежды:)
Один из них был. "А насколько State-Of-The-Art модели решают задачу навигации?".

Я знал про бенчмарк с часами. Так что у меня не было больших ожиданий. Но я не ожидал что всё настолько плохо. (Ещё один пример в комментариях).

Я тестировал с десяток разных промптов, накладывал разные линейки, и.т.д. Результат один - ни разу ни одна модель не попала в точку с соблюдением критериев.

❤22💩2

5.39K views18:09

Заметки Computer Vision инженера

Ок. Как я и говорил - следующее видео будет про тренировку VLA.
Давно хотел сделать что-то подобное. А сегодня это клепается за 2 вечера. Короче супер интересно, заодно вспомнил как в кваке кнопки нажимать
https://youtu.be/FrAxpEhobfA
И ещё статья
https://medium.com/@zlodeibaal/vla-training-robots-to-kill-a723d731b810

YouTube

Training SmolVLA to kill people without trial

00:00:00 - Intro: why VLAs?
00:00:53 - Why VLAs?
00:01:44 - What is everyone trying to pitch you
00:02:37 - What most people experience at the start (So arm 100 / Push T)
00:04:42 - What I did: Quake, LeRobot Dataset, inference
00:05:49 - Real result. What…

❤19🔥7💩3

6.02K views19:47

Заметки Computer Vision инженера

Как вам драма с OpenClaw/Moltbot/Clawdbot? Я с интересом наблюдаю последние дни (1,1,1,1,1, итд, итп).
При этом, как бы, ваш капитан намекает что реальность там часто не та же что и видна снаружи.
Опрос ща добавлю:)
Но если кто-то участвует пишите!

🔥3😱2💩2❤1

4.18K views19:31

Заметки Computer Vision инженера

Что у вас с OpenClaw?

Anonymous Poll

Зачем ставить, уже сам там сижу как бот

💩14🔥4

710 voters4.06K views19:32

Заметки Computer Vision инженера

У Gemini и у ChatGPT есть две больших проблемы. Причем одна проблема у Gemini, а вторая у ChatGPT.

И то и то последние пол года-год, и то и то становится только хуже.

1) ChatGPT считает что он умеет работать с аудиофайлами. Настолько упорно считает что расшифровывает текст которого внутри нет.
При этом русский он воспринимает хорошо (если надиктовывать прямо туда). И через API он аудио тоже хорошо распознаёт.
2) Gemini очень плохо работает с контекстом последнего года. До последнего уверяет что того что я прошу не существует. Пока не ткнёшь ссылку отказывается использовать новый синтаксис, эвойдит просьбу гуглить все термины, и.т.д. Более того - ацки галлюцинирует время выхода любых вещей. Например я просил его найти VLM модели за последние пол года. И, надо заметить, что SmolVLM2 это февраль 25ого.
———
Ах, ещё вспомнил в огород ChatGPT. Он не умеет генерировать картинки заданного размера. Gemini тоже не очень умеет, но его можно обмануть через "рисуй поверх", а вот ChatGPT уверен в своей непогрешимости

😱12❤8🔥4💩2

4.32K views20:58

Заметки Computer Vision инженера

После прошлого видео я не удержался и захотел натренировать Qwen-3VL на той же кваке. Но он оказался чудовищно медленным для неё. Так что таки решил обучить робота про которого раньше рассказывал.
Он все же сильно проще нормальной роборуки, да и раздолбать не так жалко😈
Видео - https://youtu.be/Vd8sQ-O7blI
Статья - https://medium.com/p/551cf9bf2e60

Мне кажется что когда VLM-ки можно применять вместо VLA - так делать и надо. Они проще поддерживаются всем, проще обучать.
Но, конечно, я не вижу пока что смысла для реальных производственных задач ни в VLA ни в VLM. Знание мира в них пока никакое, а обучать проще простую свертку.

🔥23❤4💩2

5.45K views22:41

Заметки Computer Vision инженера

Давно что-то на Хабр ничего не постил.
Решил собрать прошлые три статьи в стройную статью и бахнуть туда
https://habr.com/ru/companies/recognitor/articles/992476/

Хабр

VLM / VLA / World Models / Physical AI

Нейроночки в последнее время заполонили всё. Ну, почти всё. Вот, сейчас подбираются к роботам. И реального прогресса там почти так же много как нейрослопа, пиара и преувеличений . Короче, прогресс...

🔥42💩2

5.88K views01:35

Заметки Computer Vision инженера

За последние пару недель вышло пару алгоритмов которые могут принципиально поменять как выглядит StereoDepth.
Эта область зависала в прошлом последние 5 лет. И наконец кто-то сделал что-то новое. Я надеюсь что эти алгоритмы через пару лет придут в дешевый сегмент камер. Эти алгоритмы смогут бегать на обычных NPU + давать разумный FPS.
https://youtu.be/m6WsI_pxvYw

YouTube

Breakthrough in 3D depth: LingBot Depth and Neural-Assisted Stereo

00:00:00 - Intro. A breakthrough
00:02:38 - LingBot Depth
00:05:55 - Luxonis Neural-Assisted Stereo
00:09:40 - Summary

LingBot Depth - https://github.com/Robbyant/lingbot-depth/
Neural-Assisted Stereo - https://discuss.luxonis.com/blog/6656-neural-assisted…

🔥28❤5💩3

5.42K views11:28

Заметки Computer Vision инженера

Не на все комментарии на YouTube отвечаю, но читаю все.
И, надо сказать, что среди всех вендоров NPU/3д камер/бордов есть только один который не брезгует нагнать ботов под видео.
Причем обычно волнами идёт:)

Самое забавно в это ситуации: видео негативное.
И это настолько очевидно что под него даже пришёл представитель Radxa и сказал что да, у них тут с OpenSource коллабом с медиатеком не вышло, и плата вышла не очень по софту.

😱20💩9

5.77K views12:19

Заметки Computer Vision инженера

Как только говорю "следующее видео будет такое" - почти сразу значит что что-то пойдёт не так.
Так вот. 4 месяца назад я подумал что следующее видео после A7A будет про A5E. Но что-то пошло не так:)
Оказалось что Radxa прислала мне версию без NPU. Это не было написано на коробке, надо было прочитать надпись на чипе.
Попробовав раза 3 переустановить разные системы стало понятно что что-то не так.
Новая плата пришла перед НГ, но там уже был план и не было лишних сил. Так что добрался только что.

По сути видео - короткое добавление к A7A. Плюс пара картинок.

https://youtu.be/dcBqIn4fu18

YouTube

Radxa A5E - a small NPU powered board

Board - https://docs.radxa.com/en/cubie/a5e
Thanks, Radxa, for providing it to test

Article about A7A (similar pipeline) - https://medium.com/@zlodeibaal/radxa-cubie-a7a-f7401a185694

00:00:00 - Intro
00:01:39 - Difference with A7A
00:02:55 - Speed
00:03:13…

🔥8❤3😱3💩2

4.92K viewsedited 19:06

Заметки Computer Vision инженера

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Сыну в мае будет 6. Но в целом уже вполне дорос до понимания того что такое "вайб-кодинг":)
Результатом что у него получилось был очень доволен.

Ну а я записал небольшое видео о том насколько важны сейчас агенты и вайбкодинг, что надо делать через них в Computer Vision'е и нейронках:

https://youtu.be/TkWXotR-rLM

(видео на русском на втором канале)

🔥43❤13💩6😱2

5.81K viewsedited 17:04

Заметки Computer Vision инженера

В своих видео я неоднократно говорил что следующий шаг в нейроночках - печать сетки напрямую на кремнии. Либо какие-то промежуточные варианты, например "загружать веса при прошивке". Даже как-то помогал товарищам оценивать перспективы одного такого стартапа.
Я думаю все уже видели эти недавные картинки. А вот тут можно потыкать и почувствовать это в реальном времени - https://chatjimmy.ai/

Что прикольного. Вместо "загрузить веса напрямую" Taalas делают это всё через LORA.
У всего этого есть существенный минус. Если ты делаешь что-то заточенное на определённую сетку/архитектуру/веса - то ты зарелизишь железку через год-полтора. А сетка уже может устареет. А когда ты подтянешь маркетинг и продажи - уже сетка безвозвратно устареет.
Год назад был Qwen 2. Сейчас уже Qwen 3.5. Даже Qwen 2 -> Qwen 2.5 это был огромный скачок.
В эту железку Taalas загружена Llama3.1 (23 Jul 2024). Полтора года - это огромный срок сегодня. Да, Lora чуть чуть патчит, но не сильно.

Сегодня такие проекты могут существовать:
1) Либо если срок печати сети будет в пределах нескольких месяцев. Я видел стартапы которые такое обещали. Но пока не видел результата:)
2) Либо если нейроночки глобально прекратят менять архитектуру. Но мы видим за последний год появление мультимодальности, цепочки размышлений, мультиагентности, и.т.д. Часть это аффектило архитектуру.
3) Либо если цена на такую железку будет ~100 USD или меньше. Тогда можно будет заменять напрямую для edge устройств. Но тут и 15к токенов / сек не надо

Я верю что 1-2-3 произойдёт в течении лет двух. Наблюдаем:)

🔥34❤7💩3

5.34K views15:43

Заметки Computer Vision инженера

Я думаю вы сегодня уже видели этот ресерч от OpenAI 😆🤣😌. Если что, там даже пропагандисты засветились, наряду с вашим умершим дядюшкой из Нигерии.

Короче, всё достаточно предсказуемо.
Когда я ходил и показывал всем SnitchBench - все ржали и никто не верил что это будет внедрено в реальности.
Но да, внедрено будет. Но не надо бегать кругами и кричать "the end in near! 🔔" и отказываться от AI. Разве что если у вас есть много денег и сил.
А для нищебродов типа нас надо грамотно разделать сущности:
▪️Для личного использования - используйте что хотите, до момента пока вы не грузите личные документы / компрометирующие вас сведения / свои бизнес планы. Вы не сможете сделать результат лучше чем OpenAI/Antropic из коробки. И глупо не использовать эту мощь.
▪️Для корпоративного использования:
🔹Минимальная предосторожность - корпоративная подписка. OpenAI / Antropic / Gemini мамой клянутся что не будут использовать ваши данные для обучения. Но вот стучать.... Хз-хз. Не должны. Но вы сами помните как Antropic отрубал всем налево и направо подписку. Уверен это было не на бесплатном/персональном тире.
🔹Чуть лучше - использовать через корпоративные AWS / Azure аккаунты. Они типа как "SOC compliance". Я не лазил глубоко в эти дебри. Есть кто-то кто знает - могут ли как-то понять что происходит или нет? Подозреваю что могут.
🔹Идеально - самохостинг.
▪️Что делать точно не надо в бизнесе?
🔹Наши сотрудники сами купят себе подписки / пусть сами разбираются. НЕТ, НЕТ, НЕТ. Стратегия использования должна быть согласована на уровне компании. Начиная с 5 человек. Вы же не хотите чтобы ваши сотрудники использовали бесплатный Qwen для ваших секретиков?
🔹Ща сделаем всё через Open Agent и Open Router через открытые модели! Нет! Вы не знаете кто эти модели хостит и что делает с вашими промптами!
▪️Вы делаете что-то сомнительное / goverment-related? Только самохостинг:) Все кто таким занимается - должны страдать.

🔥13😱5❤4💩2

5.08K viewsedited 12:30

About

Blog

Apps

Platform