Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Про разметку данных в машинном обучении

Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.

Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)

Совершенно недавно узнал про новый инструмент https://labelstud.io

Почему вам стоит на него посмотреть?

— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает

Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов

Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.

#ml #data #labeling