Заметки Computer Vision инженера
5.83K subscribers
35 photos
13 videos
332 links
Мои статьи из разных мест.
Моя телега - @wk_zb

Про консультации - https://telegra.ph/Pro-konsultacii-03-19
Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19
Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Download Telegram
Сегодня скину немножко не своего. Что делаю редко. Но мне кажется что это очень важное исследование, которое прошло мимо сообщества, одна из немногих попыток разобраться "а помогает ли распознавание лиц в обеспечении приватности". В странах где такие исследования являются нормой жизни никто не делал такие системы. А в Китае такое исследование, очевидно, никто делать не будет.
Понятно, что на текущий момент это все борьба с ветряными мельницами. И за авторов немного страшно. Но я надеюсь что когда-то эти результаты помогут переосмыслить необходимость всего этого безумия в недалеком будущем.

Немного контекста:
Последние три года в Москве вводят системы распознавания лиц которые работают везде. На подъездах, в метро, на митингах. У себя на канале я уже рассказывал про это, как это работает и почему это плохо. Формально вся эта деятельность прикрывается как "экспериментальный проект". Но нет никаких отчетов ни по эффективности, ни по негативной составляющей. Если смотреть публичное поле, то единственные упоминания этого проекта - задержание за нарушение ковидных ограничений + поиск митингующих.
Авторы исследовали доступную статистику и попробовали подступиться к вопросу "а повысило ли это все безопасность хоть чуть-чуть". Данных мало, но единственное что можно сказать по ним "на текущий момент в публичном поле нет ни единого доказательства повешения безопасности". Ресерч представлен в качестве круглого стола в МГД. Собственно записи на этот стрим прилагаю. Понятно, что депутаты которые туда пришли в большей части оппозиционные. Понятно, что из пользователей системы никто на этот круглый стол не пришел. Но само происходящее помогает немного погрузиться во все это.

Полный стрим: https://www.youtube.com/watch?v=VV6vZNxo91w (В комментах накидаю таймкодов)
Краткая выжимка: https://www.youtube.com/watch?v=v3mrR7YfMwU
🔥363
Давно не было видео на русском. И я нашел одну тему на которую можно. Мне кажется она уже стала притчей. Про неё регулярно говорят. И, если честно, я частенько это наблюдаю сам.
Кто-то называет это "токсичность", но на мой взгляд правильнее это называть "не умение дать негативный фидбек". Такой фидбек очень нужен когда вы что-то пытаетесь улучшить и указать на недостатки текущего продукта. Как это сделать аккуратно и не вызвать отторжения? Попробовал немного рассказать почему это важно и как к этому подстроиться.
Думаю что много людей могут рассказать свой экспирианс на эту тему и много чего добавить в комментарии!:)
https://youtu.be/FWL7nDiqJBk
17🔥7
Добрался до платы MAIX-III. Она до меня добралась ещё до нового года, но тесты как-то не быстро шли. В целом, виден тренд - все становиться быстрее, дешевле и удобнее. Да, есть некоторые проблемы и странности, но сдвиг в парадигме "надо сделать удобно" - был.
Плата интересная, но, безусловно, не топовая. Подробнее в видео.
https://youtu.be/3q89nC_tHE0
🔥22😱1
А вот вам замечательное видео на пятницу. Роскошное интервью о том как выстраивать систему сбора данных, автоматизировать обучение новых задач и файнтьюнинг старых. Не все решается современной математикой и нейронными сетями. Часто для успеха надо просто все подумать и написать правильную логику процессинга.
Наслаждайтесь.
https://youtu.be/W_UshPAsD18
🔥333😱1
Меня очень часто спрашивали на тему того "а какое адекватное сообщество по DS есть на русском?". Это был сложный вопрос, особенно последний год. Как бы понятно, что основное сообщество ODS. Было много проблем и странностей, понятно. Но год назад все поменялось. ODS начал разваливаться. Туда стало почти невозможно зарегистрироваться, отвалилась история. Админы попробовали перевести его в Matrix. Идея хороша, но клиент Elements крайне неприятный. И народ туда не начал переезжать сам. А организация - не сильная черта ODS.
Это я к чему. Судя по всему Slack удалит ODS меньше чем через месяц. Но какого-то движа к переводу в Matrix так и не пошло. Плюс вскрылись прочие неприятные моментики (чтобы не захламлять пост ссылка на это в первом комменте). Я надеюсь ODS все же откроет регистрацию до тех пор.
Но в целом ущербность ODS ощущалась уже всеми. И последние пол года начали появляться сообщества его замещающие. Особенно последние 3 недели. В этом посте я попробую сделать небольшую подборку. А в будущем буду пробовать её апдейтить.
1) Собственно сам ODS, и ссылка на то как пробовать попадать внутрь - https://ods.ai/tracks/odsmatrix101
2) Некоторое время назад я рассказывал какие сообщества есть для живого общения. И одним из них был Data Breakfast в дискорде - https://discord.gg/sZkePhaWSZ. Оно скорее акцентируется на живом общении, но там есть некоторая составляющая и комьюнити. Единственный минус - я не фанат дискорда когда сообщений слишком много. Все же это говорилка.
3) В интервью с Владимиром, которое было пару месяцев назад он рекламировал свое сообщество - https://discord.gg/XRGFBGfrCE. Это не прямая замена ODS. Оно скорее на стыке ML и стартапов. Мне интересно его читать, но народу там пока мало.
4) Самый перспективный наследник ODS, которому всего 2 дня, но там уже 2к человек - https://singularis.ai/ . В качестве админов там множество админов из ODS. Читающие мой канал регулярно могли видеть минимум двух из них тут:) По сути попытка скопировать ODS 1*1. Ссылку с сайта они забывают апдейтить. Вроде вот эта должна работать - https://join.slack.com/t/singularis-ai/shared_invite/zt-1tb3z66pd-mHtqfGOIBQFz7MpeeYM_bg

Несколько каналов в телеге. Меня угнетает как сейчас сделаны сообщества в телеге, но надеюсь что со временем и треды появятся и прочие плюшки. Я не читаю эти сообщества, но наверное, для полноты следует их сюда добавить. Я уверен что что-то ещё забыл (видел пару чатов месяц назад), так что пишите, добавлю:

5) https://t.me/betterdatacommunity
6) https://t.me/cleandatascience
7) https://t.me/sberlogadataclub

8) Есть ещё какой-то частный чат на RocketChat, который позиционирует себя как наследних ODS, но я даже не регался там - https://ods-chat.ru/home

Собственно 2-4 это рекомендации от меня. А остальные - вполне легитимные варианты.
59💩1
Давно хотел записать небольшое видео с базовой терминологией по юридическим рискам вокруг Computer Vision. Какие лицензии лучше всего брать. Какие ухищрения существуют при работе с GPL-3 лицензией, и почему их лучше избегать. Какие сюрпризы вам могут готовить данные. Я бы сказал что после 3-4 лет работы в теме это все становится само по себе разумеющееся. Но я знаю много новичков которые на эту тему совсем не задумывались. А потом внезапно находят проблемы в коде. Поехали!
https://youtu.be/8P7vYImzjUY
🔥293😱1💩1
Чуть больше года назад я выпускал статью про Action Recognition на хабре. За год достаточно много устарело, так что решил её перевести для Медиума и заапдейтить. Кажется, что через год качество и простота работы с пониманием видео очень сильно вырастет для повседневных применений.
https://medium.com/@zlodeibaal/action-recognition-in-the-wild-9eb7f12b4d12
🔥264
Как я и писал на несколько постов выше - ODS кончился с концами.
Миграции в Martix не случилось, он такой же неудобный как и был, инвайтов нет. Помянем.

Артём (админ Singularis) сделал хорошую штуку, и попробовал собрать все каналы и чаты по ML в один список. Тут есть много из того что у меня не проскакивало, так что продублирую: https://www.notion.so/41c84831441c4f1d818777557d2927d4?v=861dc6ad9c1e4681a8f23528bc654e35
26😱6💩1
Когда только-только начали появляться нейронные сети для генерации изображений у меня начала появляться надежда. Что когда-нибудь технология дойдет до той стадии что делать блокбастеры смогут школьники на коленках. Не то, что я бы хотел смотреть такие блокбастеры. Но у меня была надежда что инди-разработчики смогут выпускать фантастику которая осталась за бортом современного кинематографа. Конечно, даже сейчас можно найти такие проекты. Kung Fury, BLOOD MACHINES, Moon, etc. Но это проекты на которые собирают деньги всем кикстартером, которые производятся по классической технологии. Очень высокая цена эксперимента. Нельзя сделать слишком сложные сцены, ограничение по декорациям, качестве игры актера, и.т.д...
Но я вырос на хорошей фантастике! Я хочу увидеть и "Джека-из-тени", и "Пламя над бездной", и "Дом в котором..." и десятки других книг. Причем, желательно, в 2-3 прочтениях:)
Каждый раз когда появлялись какие-то новые технологии я думал: "ну что ж, пока ещё нет". Завсегдатаи блога может быть помнят статью где я размышляю что походу стек уже частично появился, но сил ещё много надо. С появлением Stable Diffusion все стало сильно ближе. Но было понятно, что будущее ещё не тут. Control Net? Я много экспериментировал с ним, но все же для видео его очень сложно использовать. Он нестабилен, нужны съемки на белом фоне, и.т.д. Да, уже были небольшие видео с ним снятые, но пока ещё не достаточно сильные.
Вчера Runway выпустили таки в массовое тестирование Gen-1. И это ближе чем что бы то ни было.
Да, генерация стоит дорого (ждем OpenSource аналогов). Да, пока что ограничение по 3 секунды (и я не уверен с стабильности стиля на соседних фрагментах). Но и то и то будет решено в течении года-двух. А будущее можно увидеть уже сейчас. Короче, я в восторге куда больше чем от GPT-4
26🔥13💩2😱1
На прошлой неделе обещал сделать видео по своей статье о Action Recognition. Попробовал в 5 минут сделать краткий обзор статьи и проговорить логику решения задач в общем случае.
https://youtu.be/VKhKoY7QoRs
🔥18
Давно не рассказывал про то как поживает наш стартап про роботов. Прошлым летом мы поняли, что наша модель по которой мы начинали двигаться - очень медленная и сложная для продажи. Всем очень нравиться, и 2/3 компаний вместо того чтобы купить начинают думать "сейчас сделаем сами!". Где-то через пол года-год они понимают что не справились, приходят к нам, начинается пилот, после пилота они думаю ещё пол года... Для стартапа несколько медленно.
Так что решили больше переходить к модели конечных услуг. Не все могу рассказать, но один из примеров мы недавно опубликовали в нашем linkedin. Если вы читали что мы делали раньше, то вспомните что все эти последовательности - обучаемые. Достаточно показать каждое действие несколько десятков раз - и мы можем его запомнить!
Надеюсь, в ближайшее время будет больше видео. И не только с кофе!
🔥406😱1
Недавно в чате сингулярис меня спросили достаточно интересный вопрос, на который я раньше не отвечал. Кажется, что вопрос достаточно насущный и интересный, и на него есть короткий ответ. Так что скопирую сюда.
Вопрос (немного переформулированный): "Jetson дорогие, но удобные. Там есть много полезного софта: TensorRT, Deepstream, Triton, etc.. Насколько болезнен переход без всех этих инструментов на другие Edge платформы?"

Важно отделять сущности инструментов, и понимать что нужно, что заменяется, а что маркетинговый булшит:
1) TensorRT - это конвертация нейронной сети в примитивы которые быстро выполняются на железе. Это есть у всех железяк. OpenVino для Intel, HailoRT для Hailo, RKNN для RockChip. Для каких-то железок нет своих форматов, и там обычно TFlite или NCNN.

2) "deepstream" я знаю, что сейчас скажу вещь с которой рванут пуканы, но все же. Deepstream - только мешает. Я знаю 3 компании которые начинали делать на deepstream, но потом с него ушли.
a) Он ужасно кривой. Наборы багнутых скриптов которые без пол литра не пофиксишь. Да, там низкий порог входа, 2 дня. Но правка каждой проблемы - это 1-2 недели. При этом переписать пайплайн на Gstreamer + CUDA -это 2-3 недели. Потом добавление любой другой сети станет очень просто. Для любителей садомазо есть ещё TAO. Но это уже за гранью.
b) Deepstream решает проблему которой на большинстве железок просто нет. У NVIDIA есть разделение памяти. Это RAM и VRAM. Он может быть физический, а может программный (Jetson). Цель DeepStream - это избегать лишних копирований/передач между этими памятями. И инференс всего что можно на GPU. Но NPU модули работают не так. Там нет своей памяти и результат инференса возвращается в RAM. А там можно это уже обрабатывать через CPU, можно через GPU, если хочется, либо MKL если это Intel.

3) Что касается "Triton server" - да, вот это удобно. Но:
a) Сам Triton, если что, мультиплатформенный. Он умеет и под OpenVino, и ещё куда-то. Это не значит что надо его использовать. Например под Intel он не умеет IntelGPU использовать.
b) У большинства вендоров есть свои серверы. Это и OpenVino inference server, и Hailo inference server, и.т.д.
c) Для Edge-устройств от инференс сервера обычно нужно достаточно мало опций. Не нужно жонглировать загрузкой/выгрузкой 20 моделей из памяти, не надо профилировать десять сеток которые одновременно что-то считают. Без этого нормальный serving пишется за день. Если что, гуглиться по "model serving". Для Khadas, RockChip и еще кого-то такое было просто в примере сорсов.

Ну а дальше, пайплайн пишется уже исходя из конкретного железа, его архитектуры и задачи. Но в целом это либо аналог цепочного инференса, либо serving модель обычно.
🔥425💩2
Вот бывает же так. Давно думаешь о том что надо бы написать небольшую статью про One-Shot подходы и куда это все движется. Садишься её писать. И в момент когда её дописал - выходит что-то новое, ради чего теперь придется поменять логику статьи. Обидно! Но что ж. Зато вот вам небольшое гонзо-видео о том что хорошего в Segment Anything от Meta, и какие там ограничения
https://youtu.be/FjYE0tKWOiY
🔥41💩2😱1
Так. Что-то число интересных моделей в которые надо потыкаться становиться чудовищным. На этот раз miniGPT-4. Лингвистическая модель поверх изображений. Если честно, то я ожидал большего. Неплохо, но никакой магии нет. Все же она больше не про детекционную часть, а про поиск связей частей изображения друг с другом.
https://youtu.be/OCGBSPmMXes
🔥19
Есть ощущение что на небе только и разговоров как про one-shot сети.
С кем не поговоришь, вот тебе: "SAM", "CLIP", "GroundingDINO", итд. И, что печалит, не все понимают где там ограничения. А бывает наоборот, люди разочаровываются и говорят "не работает". Именно для этого я решил сделать обзор проблем one-shot подходов. Когда будет работать, а когда лучше повременить. Статья. Видео.
🔥423
Мы уже разговаривали с Ромой года полтора назад. С тех пор многое поменялось. И в первую очередь - появились SAM и ChatGPT. Как они изменили разметку. Куда все движется. Как размечать сегодня.
Кстати! Рома в этом году админ потока в DataFest'е ( Data Collection & Labelling ). Датафест начинается завтра, а про поток - хз. Ну, и не забывайте подписываться на Ромин канал - @toloka. Про разметку там много прикольного.
https://youtu.be/VtM10keYsl0
🔥183😱1💩1
Есть одна тема, на которую я поглядываю из-за забора последние лет 7-8. Это Reinforcement Learning. Вроде интересно, но не понятно как работает и что там есть. Пробуешь что-то запустить и не понимаешь зачем. Пару месяцев назад я подписался на интересный канал Knowledge Accumulator про RL. Местами проперся, но общей картины не сложилось. Так что попросил Александра (автора канала) дать небольшое интервью и рассказать про современный RL в целом. Где RL применим, какие успехи, что крутого происходит и где ждать проблемы. Надеюсь вам тоже зайдет.
https://youtu.be/dhqh3mJ0-0M
🔥45💩63
Немножко шутеек вам в ленту. Пару недель назад хотели получить от ChatGPT пару функций математических. Достаточно простых: вычисление MEL-спектра и какие-то нормализации картинок. В итоге больше времени потратили на отладку этого кода. Это вывело меня на размышления: "А вообще умеет ли ChatGPT писать математику?", "Насколько сложную?", "Как глубоки будут ошибки?". Как вы понимаете, эксперимент - царь доказательств. Так что вот видео о том почему нельзя верить в математику которую написала какая-то LLM-ка.
https://youtu.be/FbWeieVXjHs
И вот тут в формате текста - https://medium.com/@zlodeibaal/dont-believe-in-llm-math-b11fc5f12f75 (не забывайте ваши хлопочки)
🔥272😱1
Записал видео ещё пару недель назад, никак не доходили руки опубликовать. К тому же, сразу после записи появились пару проектов которые явно бьют статью по части бенчмарков (например audiocraft).
https://youtu.be/Go3_JIMSV14
С другой стороны, тут весьма интересная ботва, которая иллюстрирует куда все движется. Это ещё неплохо коррелирует с статьей про которую Арcений рассказывал у себя недели три назад.
🔥14😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Давайте поговорим о фейках!
Это видео я вижу в линкедине уже неделю а то и больше. Дня три назад мне его присылала толпа народу со словами "смотри как умеют". И вот сегодня его начали репостить разные ML-каналы с разным текстом. Почему у людей отсутствует критическое мышление?
Я не уверен на 100% что это фейк. Лишь на 90%. Процентов 40 что полностью зафейканы id людей, и число кружек. Ещё 50% что id-шники и кружки очень сильно подогнаны руками, например путем тренировки в тот же день/вырезкой руками момента где все более-менее.
Продолжение и картинки в коментах.
🔥734