💭 Production QA 💬
Если вам когда-то придется делать вопросно ответную систему для продакшена, возможно я нашел для вас решение.
Эта штука предоставляет набор уже готовых тулов, моделей и интерфейсов, чтобы запустить QA на больших масштабах.
* Внутри есть возможность конвертации базы документов во внутренний формат из PDF и DocX
* Готовые препроцессоры текстов
* Совместимость с ElasticSearch, FAISS, SQL и InMemory
* Различные движки поиска от Elastic Search, до поиска по векторам
* Встроенные Reader модели на базе трансформеров претренированные на SQuAD (это только английский, если что)
* RestAPI
* А так же тулзу для разметки ваших датасетов внутри веб интерфейса!
https://github.com/deepset-ai/haystack
Если вам когда-то придется делать вопросно ответную систему для продакшена, возможно я нашел для вас решение.
Эта штука предоставляет набор уже готовых тулов, моделей и интерфейсов, чтобы запустить QA на больших масштабах.
* Внутри есть возможность конвертации базы документов во внутренний формат из PDF и DocX
* Готовые препроцессоры текстов
* Совместимость с ElasticSearch, FAISS, SQL и InMemory
* Различные движки поиска от Elastic Search, до поиска по векторам
* Встроенные Reader модели на базе трансформеров претренированные на SQuAD (это только английский, если что)
* RestAPI
* А так же тулзу для разметки ваших датасетов внутри веб интерфейса!
https://github.com/deepset-ai/haystack
GitHub
GitHub - deepset-ai/haystack: AI orchestration framework to build customizable, production-ready LLM applications. Connect components…
AI orchestration framework to build customizable, production-ready LLM applications. Connect components (models, vector DBs, file converters) to pipelines or agents that can interact with your data...
🔉Facebook denoiser🎧
Понадобилось тут почистить датасет с записью голоса человека и убрать из него лишний шум. Зашел на гитхаб в поиске подходящией либы и с удивлением нашел готовый к использованию инструмент из коробки.
Тулза работает сразу из консоли и позволяет вам почистить ваши аудио.
(примеры ниже)
https://github.com/facebookresearch/denoiser
Понадобилось тут почистить датасет с записью голоса человека и убрать из него лишний шум. Зашел на гитхаб в поиске подходящией либы и с удивлением нашел готовый к использованию инструмент из коробки.
Тулза работает сразу из консоли и позволяет вам почистить ваши аудио.
(примеры ниже)
https://github.com/facebookresearch/denoiser
GitHub
GitHub - facebookresearch/denoiser: Real Time Speech Enhancement in the Waveform Domain (Interspeech 2020)We provide a PyTorch…
Real Time Speech Enhancement in the Waveform Domain (Interspeech 2020)We provide a PyTorch implementation of the paper Real Time Speech Enhancement in the Waveform Domain. In which, we present a ca...
🏎Modin speed up ur pandas🏃♂️
Недавно рассказывал про pandaparllel, который позволяет легко сделать операцию apply в pandas быстрее, благодаря параллелизму.
Нашёл более прокаченную тулзу. Она позволяет вам продолжать писать код в рамках pandas api, но при этом под капотом будут работать другие движки на выбор, например dask.
Это позволяет многократно увеличить производительность даже на таких задачах, как чтение датасета.
Если ваша табличка особенно большая, советую к осмотру.
Сами бэкэнды поддерживают вычисления на кластерах, но в этой обертке это пока экспериментальная фича. В общем, будем посмотреть.
https://github.com/modin-project/modin
Недавно рассказывал про pandaparllel, который позволяет легко сделать операцию apply в pandas быстрее, благодаря параллелизму.
Нашёл более прокаченную тулзу. Она позволяет вам продолжать писать код в рамках pandas api, но при этом под капотом будут работать другие движки на выбор, например dask.
Это позволяет многократно увеличить производительность даже на таких задачах, как чтение датасета.
Если ваша табличка особенно большая, советую к осмотру.
Сами бэкэнды поддерживают вычисления на кластерах, но в этой обертке это пока экспериментальная фича. В общем, будем посмотреть.
https://github.com/modin-project/modin
GitHub
GitHub - modin-project/modin: Modin: Scale your Pandas workflows by changing a single line of code
Modin: Scale your Pandas workflows by changing a single line of code - modin-project/modin
🐞Open CV resize bug 🖼
Неожиданно оказалось, что resize в cv2 работает с критическим недостатком.
А именно сглаживание при понижении разрешении картинки работает неправильно, при этом resize в PIL работает правильно и это редкий пример такой библиотеки.
Казалось бы - и что?
Но на самом деле это значительно влияет на качество алгоритмов повышения разрешения картинки - super resolution, которые тренировались с различными параметрами сглаживания.
Подробнее в треде.
https://twitter.com/kl_div/status/1333906978100297728?s=21
Неожиданно оказалось, что resize в cv2 работает с критическим недостатком.
А именно сглаживание при понижении разрешении картинки работает неправильно, при этом resize в PIL работает правильно и это редкий пример такой библиотеки.
Казалось бы - и что?
Но на самом деле это значительно влияет на качество алгоритмов повышения разрешения картинки - super resolution, которые тренировались с различными параметрами сглаживания.
Подробнее в треде.
https://twitter.com/kl_div/status/1333906978100297728?s=21
Twitter
Ke Li 🍁
Beware of cv2.resize(): apparently downsampling with it gives aliased results, and PIL is one of the few libraries that does anti-aliasing correctly (thanks to @rzhang88 for pointing this out!) We fixed it and saw a substantial improvement in our 16x super…
Еще один интересный пример Resize уже в Pytorch.
Здесь сравнили два варианта изменения размера картинки в 32 раза: передать размер скейла параметром в функцию resize, либо же повторить уменьшение в два раза в цикле 16 раз.
Результат поражает, я даже не мог об этом подумать
https://twitter.com/rzhang88/status/1258222917986312195
Здесь сравнили два варианта изменения размера картинки в 32 раза: передать размер скейла параметром в функцию resize, либо же повторить уменьшение в два раза в цикле 16 раз.
Результат поражает, я даже не мог об этом подумать
https://twitter.com/rzhang88/status/1258222917986312195
Twitter
Richard Zhang
@jaakkolehtinen Bilinear downsampling with F.interpolate in PyTorch (Top) Directly downsampling the original by 2x, 4x, ... 32x aliases (Bottom) Recursively applying 2x downsampling looks okay They should be equivalent, but it seems that 2x is safe and other…
И еще маленький пример, как это влияет на super resultion.
https://twitter.com/jaakkolehtinen/status/1258102168176951299
https://twitter.com/jaakkolehtinen/status/1258102168176951299
Twitter
Jaakko Lehtinen
Reducing resolution by OpenCV's resize() yields arbitrarily bad results due to lack of prefiltering. From left: default, cubic, Lanczos4 interpolation in CV2; right: the kinda-correct (but otherwise broken) Lanczos in PIL. Surprisingly common to see this…
📷 Вычислительная фотография 🖼
Очень интересный лонгрид от вастрика, про то как развивалась вычислительная фотография.
Коротко - текст про то, как инженеры и программисты решали вопрос, как сделать фотографии качества зеркалки в маленькой матрице телефона.
В статье достаточно подробно описаны подходы от самых начальных (интстаграм фильтров 2010 годов), до оптимизации освещения с помощью нейросетей.
Так же, оказывается гугловое определение глубины по одной камере, это не просто “neural network doing brrr”
Короче, точно стоит почитать, чтобы понять как делаются ваши пиздатые фотки в инстаграм.
https://vas3k.ru/blog/computational_photography/
Очень интересный лонгрид от вастрика, про то как развивалась вычислительная фотография.
Коротко - текст про то, как инженеры и программисты решали вопрос, как сделать фотографии качества зеркалки в маленькой матрице телефона.
В статье достаточно подробно описаны подходы от самых начальных (интстаграм фильтров 2010 годов), до оптимизации освещения с помощью нейросетей.
Так же, оказывается гугловое определение глубины по одной камере, это не просто “neural network doing brrr”
Короче, точно стоит почитать, чтобы понять как делаются ваши пиздатые фотки в инстаграм.
https://vas3k.ru/blog/computational_photography/
vas3k.blog
Вычислительная Фотография
На презентациях любого смартфона сегодня отдельное место уделяют успехе его камеры. Pixel научился снимать в полной темноте, Huawei зумит лучше бинокля, Samsung получил восемь объективов, а в iPhone ваши друзья выглядят на 30% богаче.
📔 Пару слов про Jupyter 📓
Встретил на работе такой репозеторий, где лежал только один ноутбук для подгрузки и обучения модели.
Раньше я не видел в этом никакой проблемы, т.к. вроде все казалось весьма удобно. Со временем я поднабрался опыта и понял, что jupyter это отстой, т.к. это хороший инструмент в целом, но не то, в чем стоит хранить обучение моделей в продакшене.
Чем раньше вы перейдете на формат проекта, когда у вас в отдельных модулях лежит обработка, в отдельных модель, а в других обучение, тем раньше вы перейдете на новый грейд понимания в удобстве версионирования экспериментов, рефакторинга кода и запуска экспериментов.
Jupyter - главное зло, если он у вас есть в боевых проектах.
https://towardsdatascience.com/5-reasons-why-jupyter-notebooks-suck-4dc201e27086
Встретил на работе такой репозеторий, где лежал только один ноутбук для подгрузки и обучения модели.
Раньше я не видел в этом никакой проблемы, т.к. вроде все казалось весьма удобно. Со временем я поднабрался опыта и понял, что jupyter это отстой, т.к. это хороший инструмент в целом, но не то, в чем стоит хранить обучение моделей в продакшене.
Чем раньше вы перейдете на формат проекта, когда у вас в отдельных модулях лежит обработка, в отдельных модель, а в других обучение, тем раньше вы перейдете на новый грейд понимания в удобстве версионирования экспериментов, рефакторинга кода и запуска экспериментов.
Jupyter - главное зло, если он у вас есть в боевых проектах.
https://towardsdatascience.com/5-reasons-why-jupyter-notebooks-suck-4dc201e27086
Medium
5 reasons why jupyter notebooks suck
I’m working since roughly 3 years up to 60% of my time with jupyter notebooks. I think they are a wonderful tool for many tasks like…
✍️ Best image labeling tool 🔨
Кажется, я нашел царь-разметчик, который я пытался найти достаточно давно.
Я перепробовал кучу разных штук, но у них либо была стремная реализация с точки зрения интерфейса (одна программка была написана на джаве с супер не удобным интерфейсом), другие предоставлялись как сервис и не позволяли легко скейлить разметку внутри компании или размечать самому, в итоге в любом варианте имели кучу ограничений и просили за это деньги.
В итоге я нашел CocoAnnotator: https://github.com/jsbroks/coco-annotator
Он позволяет из коробки легко настроить разметку разных датасетов под задачи:
* Image labeling
* Image detection
* Image segmentation
* Keypoints detection
Имеет встроенный API, базу данных пользователей, датасетов и лейблов, позволяет легко импортировать датасет и экспортировать его в формате Coco. При этом имеет очень приятный интерфейс.
Запускается легко через docker compose. Короче must have!
И вот вам пару скриншотиков интерфейса
Кажется, я нашел царь-разметчик, который я пытался найти достаточно давно.
Я перепробовал кучу разных штук, но у них либо была стремная реализация с точки зрения интерфейса (одна программка была написана на джаве с супер не удобным интерфейсом), другие предоставлялись как сервис и не позволяли легко скейлить разметку внутри компании или размечать самому, в итоге в любом варианте имели кучу ограничений и просили за это деньги.
В итоге я нашел CocoAnnotator: https://github.com/jsbroks/coco-annotator
Он позволяет из коробки легко настроить разметку разных датасетов под задачи:
* Image labeling
* Image detection
* Image segmentation
* Keypoints detection
Имеет встроенный API, базу данных пользователей, датасетов и лейблов, позволяет легко импортировать датасет и экспортировать его в формате Coco. При этом имеет очень приятный интерфейс.
Запускается легко через docker compose. Короче must have!
И вот вам пару скриншотиков интерфейса
GitHub
GitHub - jsbroks/coco-annotator: :pencil2: Web-based image segmentation tool for object detection, localization, and keypoints
:pencil2: Web-based image segmentation tool for object detection, localization, and keypoints - jsbroks/coco-annotator
Давайте попробуем ввести лайки к постам. Оцените, будет ли болезна штука выше для вас?
🍎 Apple M1 vs Tesla v100🔥
Может прозвучать глупо, но не спешите делать свои выводы. На презентации чипа m1 Apple, заявили, что у них будет аппаратная поддержа для Deep learning штук. Ранее я думал, что он будет способен применяться только для инференса всяких TFLite моделек, но сегодня на Reddit наткнулся на интересный пост.
https://wandb.ai/vanpelt/m1-benchmark/reports/Can-Apple-s-M1-help-you-train-models-faster-cheaper-than-NVIDIA-s-V100---VmlldzozNTkyMzg
Чувак просто взял и сравнил работу чипа M1 с карточкой от Nvidia Tesla V100 и получил интересные результаты.
Понятное дело, что в общем и целом V100 выигрывает, но эта штука и весист как полмакбука, а электричества кушает как чайник.
На задачах с малым количеством весов, например тренировка последнего полносвязного слоя сети на MacMini проходит быстрее, чем на Tesla V100.
Только представьте, вы уже можете решать часть задач на Mac быстрее чем на топовых карточках. При этом потребление элетричества процессором M1 в 4 раза меньше.
На больших сетках пока, понятное дело проигрыш. Автор так же заметил, что learning rate на чипах m1 более привередливый и модель иногда не сходится, возможно это баги в ранних реализациях библиотеки.
Конечно, использовать все это еще рано, но это выглядить очень многообещающе, от того интересно, что покажут Pro версии девайсов от Apple. (Macbook pro не в счет)
Может прозвучать глупо, но не спешите делать свои выводы. На презентации чипа m1 Apple, заявили, что у них будет аппаратная поддержа для Deep learning штук. Ранее я думал, что он будет способен применяться только для инференса всяких TFLite моделек, но сегодня на Reddit наткнулся на интересный пост.
https://wandb.ai/vanpelt/m1-benchmark/reports/Can-Apple-s-M1-help-you-train-models-faster-cheaper-than-NVIDIA-s-V100---VmlldzozNTkyMzg
Чувак просто взял и сравнил работу чипа M1 с карточкой от Nvidia Tesla V100 и получил интересные результаты.
Понятное дело, что в общем и целом V100 выигрывает, но эта штука и весист как полмакбука, а электричества кушает как чайник.
На задачах с малым количеством весов, например тренировка последнего полносвязного слоя сети на MacMini проходит быстрее, чем на Tesla V100.
Только представьте, вы уже можете решать часть задач на Mac быстрее чем на топовых карточках. При этом потребление элетричества процессором M1 в 4 раза меньше.
На больших сетках пока, понятное дело проигрыш. Автор так же заметил, что learning rate на чипах m1 более привередливый и модель иногда не сходится, возможно это баги в ранних реализациях библиотеки.
Конечно, использовать все это еще рано, но это выглядить очень многообещающе, от того интересно, что покажут Pro версии девайсов от Apple. (Macbook pro не в счет)
W&B
Can Apple’s M1 Help You Train Models Faster & Cheaper Than NVIDIA’s V100?
In this article, we analyze the runtime, energy usage, and performance of Tensorflow training on an M1 Mac Mini and Nvidia V100. .
Кстати, на секундочку подумайте, что в новых IPad и IPhone будут стоять схожие чипы, а значит запускать какие-то более сложные сетки в виде GPT и прочего стафа на носимых девайсах не будет такой болью.
🔨 Запуск сеток в продакшен 📐
Часто, при прохождении собеседования в компании на позиции DL разработчика, меня спрашивали про вывод сеток в продакшен. Так получается, что делать fit/predict делать умеют примерно все, а вот запускать что-то на реальном железе, так чтобы оно не работало со скоростью 5 fps в секунду никто не умеет (мало кто).
Так сложилось, что в последнее время я достаточно сильно приближен к этой теме, поэтому решил замутить серию постов, где я не сколько буду объяснять вам как запустить что-то в прод, сколько буду скидывать различные материалы, которые могут вам помочь в этой не простой задаче, с некоторыми пояснениями. В принципе это мой стандартный формат постов.
И так приступим.
Часто, при прохождении собеседования в компании на позиции DL разработчика, меня спрашивали про вывод сеток в продакшен. Так получается, что делать fit/predict делать умеют примерно все, а вот запускать что-то на реальном железе, так чтобы оно не работало со скоростью 5 fps в секунду никто не умеет (мало кто).
Так сложилось, что в последнее время я достаточно сильно приближен к этой теме, поэтому решил замутить серию постов, где я не сколько буду объяснять вам как запустить что-то в прод, сколько буду скидывать различные материалы, которые могут вам помочь в этой не простой задаче, с некоторыми пояснениями. В принципе это мой стандартный формат постов.
И так приступим.
🏗 Верхнеуровневый обзор фремворков для инференса сеток.
Нашел интересную статью на Хабре, где автор делает обзор множества фреймворков для инференса сетей. Подчеркну, что это не фремворки для обучения, аля TF, Pytorch, Keras, а именно стек, который позволит вам запускать сетки быстро для работы в проде.
Автор хорошо структурировал их по типу применения: от серверов, то мобилок и встраиваемых девайсов. Советую к прочтению как новичкам, так и бывалым. Так например, автор раскрывает следущие темы:
* OpenCV еще живее всех живых
* GPU не всегда лучше CPU
https://m.habr.com/ru/company/recognitor/blog/524980/
Нашел интересную статью на Хабре, где автор делает обзор множества фреймворков для инференса сетей. Подчеркну, что это не фремворки для обучения, аля TF, Pytorch, Keras, а именно стек, который позволит вам запускать сетки быстро для работы в проде.
Автор хорошо структурировал их по типу применения: от серверов, то мобилок и встраиваемых девайсов. Советую к прочтению как новичкам, так и бывалым. Так например, автор раскрывает следущие темы:
* OpenCV еще живее всех живых
* GPU не всегда лучше CPU
https://m.habr.com/ru/company/recognitor/blog/524980/
Хабр
Как запихать нейронку в кофеварку
Мир машинного обучения продолжает стремительно развиваться. Всего за год технология может стать мейнстримом, и разительно измениться, придя в повседневность. За прошедший год-полтора, одной из таких...
Ставь лайк, если хочешь узнать больше про запуск сеток на реальном железе.
А еще будет круто, если ты поделишься этим каналом с коллегой или сокурсником.
А еще будет круто, если ты поделишься этим каналом с коллегой или сокурсником.