Про разметку данных в машинном обучении
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
GitHub
GitHub - HumanSignal/awesome-data-labeling: A curated list of awesome data labeling tools
A curated list of awesome data labeling tools. Contribute to HumanSignal/awesome-data-labeling development by creating an account on GitHub.