Рома Толоку
438 subscribers
8 photos
4 videos
2 files
41 links
Всем привет! Меня зовут Куцев Роман, и я уже больше 4 лет занимаюсь разметкой данных с помощью Толоки в компании TrainingData.ru. У меня накопилось много инсайтов, опыта и интересных моментов, о которых я хочу вам рассказать!)
Download Telegram
Небольшой камень в сторону Толоки.
Я являюсь сооснователем компании TrainingData.Solutions
Мы занимаемся сбором и разметкой данных для обучения ML.

Обычно мы размечаем данные двумя способами:
1. Внутренним штатом исполнителей
2. Через краудсорсинг, а именно через Толоку

Перед каждым проектом мы выбираем, каким способом его оптимально решить: inhouse или через краудсорсинг.

Inhouse команда в основном используется, когда нужно работать с NDA данными, либо когда для разметки требуются узкоспециализированные специалисты, например, врачи онкологи.

Краудсорсинг отлично заходит, когда необходимо что-то сделать очень быстро, или массово. Через Толоку мы проводим UX исследования, оценку качества поиска, антиспуфинг атаки, простую детекцию, сегментацию, транскрибацию, сбор данных.

Мы работаем официально, у нас в РФ зарегистрирована ООО на УСН, внутренние разметчики устроены по договору как самозанятые. В Толоке мы зарегистрированы как юр лицо из РФ. 
И тут возникает довольно остро вопрос налогообложения. 

Предположим у нас есть Вася, который работает у нас как самозанятый и толокер Петя. И каждому мы хотим выплатить на руки 100 руб. 

Чтобы заплатить Васе 100 руб, нам нужно 106.38 руб (100 Васе и 6% налог на самозанятого).

С Петей все интереснее. Чтобы Петя получил 100 руб, мы должны заплатить 130 руб Яндексу (комиссия 30%). Но это не финальные траты. Так как договор у нас с российским Яндексом, то по закону мы сверх всей суммы должны платить НДС 20%. Таким образом, чтобы заплатить Пете 100 руб, мы должны потратить 152 руб. При этом Толока сама пытается перевести всех исполнителей из РФ на самозанятость и Петя получит 94 руб. 

В таком случае Вася получит 94% от суммы, которую мы потратили, а Петя 61%. 
Если, вдруг, Яндекс сделает комиссию 50%, то Петя уже получит 52%

Мои подписчики, у меня к вам вопрос: какие есть лазейки с этим НДС? Может ли РФ компания заключиться на прямую с иностранным Яндексом? Есть ли фирмы посредники из-за границы?

Сейчас из-за этого НДС появляется дискриминация заказчиков из РФ (физлиц и юр лиц на УСН), для них услуги выходят на 20% дороже, чем для иностранных заказчиков.
Посмотрел сегодня Tesla AI Day.
https://youtu.be/j0z4FweCy4M

Больше всего впечатлил блок про
1:24:35 - Manual Labeling 
1:28:11 - Auto Labeling

Интересные факты:
• Тесла имеет внутренний штат разметчиков из 1000+ человек и собственную инфраструктуру для разметки данных
• Тесла перешла от 2D разметки к 4D, что позволило ускорить разметку в 100 раз
• Тесла использует синтетические данные для обучения своих моделей 
• По реальным данным Тесла научилась генерировать виртуальный мир

Как мне кажется, Тесла сейчас на передовой IT индустрии, и мне было интересно узнать какие фишки и идеи они внедряют)
Всем привет! Ровно через час буду выступать на онлайн конференции DataStart c докладом
"Методы оптимизации процесса разметки для обучения нейронных сетей

Расскажу:
• Сколько данных нужно для обучения нейронной сети
• Что выгоднее: улучшать архитектуру нейронной сети или увеличивать датасет
• Зачем использовать Active Learning
• Как предразметка позволяет удешевить создание датасета
• В чем главный плюс концепции Human in the Loop
• Тренды в разметке данных

Регистрация на конференцию бесплатная. Кому интересно присоединяйтесь 😉

P.S Записи не будет, но материал моего доклада на 80% пересекается с материалом, который я читаю в ШАДе и ВШЭ, вот ссылка на него: https://youtu.be/mUI-I74_ydU
Выложил перевод статьи про концепцию Human-in-the-Loop. На мой взгляд статья довольно толковая, на пальцах объясняет плюсы данного подхода и отличия от модели Waterfall.

https://habr.com/ru/post/596353/

А вы используете Human-in-the-Loop для своих задач? Как организуете процесс?

В рамках курса "Сбор и обработка данных с помощью краудсорсинга" мы рассказали студентам ВШЭ и ШАДа, как внедрять HITL, а также сделали интересную домашку. Если вам тоже интересно ознакомиться, вот ссылка: github.com/Kucev/human_in_the_loop_task
Итак, наш 2021 год подходит к концу. Количество подписчиков за год выросло в 7 раз. Мне очень приятно, что вы подписываетесь, комментируете и обсуждаете мои посты. Это значит, что я рассказываю о чем-то интересном и полезном для вас. 
Обещаю и в 2022 радовать вас интересным контентом!

И в предверии нового 2022 года я хочу вам рассказать об одной привычке, которую я внедрил в этом году.
У меня есть две интересные особенности:

•Я крайне любознательный и очень люблю изучать все новое

•Мне интересна разметка данных, и можно сказать, что я живу этим


Поэтому я очень много читаю про эту область. Раньше я просто читал, что-то выписывал, брал к себе на заметку.
Но потом подумал, а почему об этом должен знать только я? И решил все статьи, которые я прочитал и они мне понравились, переводить и выкладывать на хабр. Таким образом за год я перевел 23 интересных статьи. Сейчас решил собрать все ссылки на них в одном месте.
Так что вот мой подарок для вас в виде интересного контента:

· 5 трендов в аннотировании данных в 2021 году
· Как организовать разметку данных для машинного обучения: методики и инструменты
· 6 правил по обеспечению качества данных для машинного обучения
· 5 этапов, гарантирующих успешную разметку данных
· Методика машинного обучения Human-in-the-Loop
· Как создать эффективный план разметки данных?
· Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей
· Зачем вам нужно использовать активное обучение при обучении нейронных сетей
· Как избавиться от проблем при разметке данных для обучения ML моделей?
· Оптимизация разметки данных с помощью активного обучения
· Способы обеспечения качества данных для машинного обучения
· Почему 87% проектов data science не добираются до продакшена?
· Пять альтернатив Scale AI
· Почему за автоматической разметкой данных будущее?
· Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ
· Как размечать данные для машинного обучения
· Руководство по типам аннотирования изображений
· Аннотирование текста для машинного обучения
· Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год
· Лучшие инструменты разметки изображений для компьютерного зрения 2020 года
· Лучшие инструменты аннотирования для компьютерного зрения в 2021 году
· 7 способов получить качественные размеченные данные для машинного обучения
· Топ-5 инструментов для разметки данных в 2021 году
И мой авторский контент:
· Создаем датасет для распознавания счетчиков на Яндекс.Толоке
· Создаем свой датасет с пришельцами
· Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке
· Обзор инструментов для разметки в CV
· Кейс: как с помощью чат-бота создать датасет из более 10 тысяч изображений за пять недель
· Как стать сертифицированным партнёром Толоки
· Собираем датасет для системы антиспуфинга
· Примеры использования краудсорсинга в бизнесе
· Разметка лиц с помощью краудсорсинга
· Методы оптимизации процесса разметки для обучения нейронных сетей
· Как мы выиграли первый в России хакатон по краудсорсингу
· Как собрать данные с помощью Толоки
· Вебинар по сегментации изображений в Толоке
Всем привет! Сегодня в 18:00 буду рассказывать как ускорять и улучшать качество разметки. Кому интересно присоединяйтесь)
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA online seminar on machine learning:
👨‍🔬 Роман Куцев (TrainingData.Solutions) «Методы оптимизации процесса разметки для обучения нейронных сетей.»
⌚️ Четверг 13 января, 18.00 по Москве

Описание:
• Сколько данных нужно для обучения нейронной сети
• Что выгоднее: улучшать архитектуру нейронной сети или увеличивать датасет
• Зачем использовать Active Learning
• Как предразметка позволяет удешевить создание датасета
• В чем главный плюс концепции Human in the Loop
• Тренды в разметке данных

Ссылка на зум будет доступна в чатах: https://t.me/sberlogadataclub ближе к началу доклада.
На прошлой неделе поучаствовал в подкасте Антона Мальцева, автора ТГ канала "Заметки Computer Vision инженера”.

Обсудили с Антоном тренды в разметке, inhouse разметку, краудсорсинг, предразметку и многое другое.
На записи звук у меня получился немного 💩 . Прошу понять и простить.

Прикладываю ссылку на подкаст: https://youtu.be/FH6nwtFR9nU

И таймлайн, чтобы проще найти нужный материал:
0:58 - Роман Куцев, о себе
1:30 - in-house или краудсорсинг 
2:21 - Критерий перехода от in-house на краудсорсинг
3:25 - Подходы для разметки данных на примере
3:40 - Подход с in-house отделом
4:20 - Подход с краудсорсингом
5:39 - Краудсорсинг или in-house?
8:40 - Обзор краудсорсинговых платформ
13:10 - Инструменты для in-house разметки
18:35 - Когда стоит использовать предразметку
21:58 - О защите данных заказчика
24:00 - Часто ли попадаются повторяемые задачи
26:14 -  Какие по размеру фирмы чаще заказывают разметку
29:15 - Много ли встречается сложных/хитрых задач
32:14 - О работе с зарубежными заказчиками
35:24 - Продажа готовых датасетов
39:08 - О найме людей для разметки
41:53 - Как происходит работа над проектом
В последнее время замечаю, как ML отделы различных компаний переходят от Model-Centric подхода к Data-Centric. Считаю это правильным трендом, который позволит делать ML продукты еще лучше. 

Для нас в TrainingData.Solutions от этого конечно хлопот добавляется: все чаще размечаем данные небольшими итерациями, в несколько этапов обсуждаем и дорабатываем инструкцию по разметке, версионируем данные и внедряем новые фишки по контролю качества. Но хороший результат этого стоит)

Специально чтобы осветить новый тренд, на хабре выложил перевод статьи, в которой рассказывается отличие датацентрического подхода от моделецентрического.
https://habr.com/ru/post/661457/
Всем привет! 

В эту пятницу буду выступать на конференции mergeconf с докладом "Краудсорсинг - новый подход к организации работы в 21 веке”, на нем расскажу:
• О концепции краудсорсинга
• Какие задачи можно решить с помощью крауда
• Бесконечное масштабирование: главные плюсы и минусы краудсорсинга
• Почему это тренд 21 века?

Если вы тоже будете на этой конференции, пишите, с радостью встречусь и пообщаюсь с вами вживую😉
Media is too big
VIEW IN TELEGRAM
Все же люблю Теслу за их data-driven подход и то, как они эффективно используют свои данные. 

Выше видосик, в котором они рассказывают о том как собирают у пользователей данные для улучшения моделей.
Всем привет!
Я решил воспользоваться своим положением админа канала и запостить интересную вакансию к себе в команду😀

Ищу backend разработчика к нам в TrainingData.Solutions.

Наша команда собирает и размечает данные на заказ для обучения нейронных сетей.
Мы уже больше 4 лет на рынке, в нашем штате 450 разметчиков и 20 кураторов, каждый год растем в несколько раз и сейчас расширяем IT команду. В связи с этим открылась новая позиция.

Наши разметчики работают через CVAT и Label Studio, это open source инструменты для разметки данных.
Требуется поддержка этих инструментов, а именно:
• Контроль и разворачивание инфраструктуры в Yandex Cloud
• Поддержка работоспособности CVAT и Label Studio на наших серверах
• Написание скриптов по переносу данных и конвертации разметки в разные форматы
• Написание микросервисов по автоматизации рутинных процессов
• Техническая поддержка кураторов проектов

Какие навыки требуются:
• уверенные знания docker для разворачивания инструментов
• python для написания скриптов и микросервисов
• git, s3, bash, FastAPI

Условия:
• гибкий график, главное чтобы задачи делались к дедлайну и CVAT не падал
• удаленная работа, хоть на Бали, хоть в Воронеже
• если вы в РФ, то оформляем как самозанятого, а если нет, то платим с нашего юр лица в ОАЭ
• 20 часов в неделю - идеально, если вы студент или имеете основную работу

За успешную рекомендацию дарим AirPods Pro

По всем вопросам смело пишите в ЛС😉
14 июня выступаю на онлайн конференции DataStart, расскажу “Как получать высокое качество размечаемых данных” . Конференция бесплатная, регистрируйтесь😉
Роман Куцев. Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. CTO TrainingData.Solutions.

Доклад “Как получать высокое качество размечаемых данных”

"В рамках доклада расскажем, чем отличается хороший датасет от плохого, какие необходимые свойства должен иметь хороший датасет и как их достичь. Поговорим о способах контроля качества и о том как выстроить пайплайн разметки внутри компании. Рассмотрим основные ошибки при организации процесса разметки и как их можно избежать."

• Отличия между Data-Centric и Model-Centric подходами
• Итеративный подход к разметке: плюсы и минусы
• Построение эффективного процесса обучения разметчиков
• Методы контроля качества
• Основные ошибки в менеджменте разметчиков

🔥 Регистрация - https://clck.ru/pkj2i
Всем привет!
При работе с Толокой мы в TrainingData.Solutions практически всегда используем следующую схему:
Толокеры собирают/размечают данные
Постприемку заданий осуществляют внутренние асессоры, либо кураторы проекта

В идеальной картине мира и по канонам краудсорсинга нужно делать по-другому: задача должна быть разбита на пул разметки и пул проверки и решаться полностью через крауд.

Но у нас такая схема не заходит по следующим причинам:
Именно от валидаторов зависит качество разметки. Валидатор должен быть вовлеченным в процесс, на 100% понимать какой финальный результат нужно получить, уточнять все вопросы у ML команды. Этого можно добиться только при очень скрупулезной настройке проекта валидации.
Хорошо настроить процесс валидации занимает в 3-4 раза больше времени, чем настройка проекта разметки с постприемкой. Необходимо настроить ханипоты, обучение, экзамен, грамотно написать инструкцию с примерами, покрывающими все кейсы, предусмотреть все возможные варианты обмана со стороны Толокеров. На это расходуется огромное кол-во времени.
Трудно связать проект разметки и валидации. Для этого нужно быть гуру в Toloka-Kit, чтобы с помощью API выстроить пайплайн переливания данных из одного проекта в другой.

По итогу нам дешевле, быстрее, и проще посадить внутренних асессоров на проверку 🙁

И вот я задаюсь вопросом: это только у нас так, или вы тоже сталкиваетесь с похожей проблемой?
Как вы выстраиваете процесс валидации заданий? Поделитесь опытом)

Какие варианты нашел я:
• С помощью jupyter notebook писать виджет по проверке заданий. Видео. Код.
• Выдавать инхаус валидаторам доступ к Толоке и делать отдельно интерфейс для постприемки. Но проблема возникает, когда валидаторов становится много, мы сделали специальное расширение, чтобы контролировать процесс.
Использовать нейронки для автоматической проверки
• Объединять проекты с помощью Pachyderm и организовывать валидацию через private crowd
Всем привет! Приглашаю всех в четверг в 19:00 на доклад😉
🚀 @SBERLOGABIG online seminar on data science:
👨‍🔬 Роман Куцев (Co-founder, CTO Trainingdata ) «Как получать высокое качество размечаемых данных»
⌚️ Четверг 14 июля, 19.00 по Москве

"В рамках доклада расскажем, чем отличается хороший датасет от плохого, какие необходимые свойства должен иметь хороший датасет и как их достичь. Поговорим о способах контроля качества и о том как выстроить пайплайн разметки внутри компании. Рассмотрим основные ошибки при организации процесса разметки и как их можно избежать."

• Отличия между Data-Centric и Model-Centric подходами
• Итеративный подход к разметке: плюсы и минусы
• Построение эффективного процесса обучения разметчиков
• Методы контроля качества
• Основные ошибки в менеджменте разметчиков

Ссылка на зум будет доступна на канале: https://t.me/sberlogabig перед началом доклада - присоединяйтесь.
Поучаствовал в подкасте “Хроники электроники”. Все, кому интересно узнать про самые необычные и интересные кейсы по разметке, welcome.
Audio
Записали небольшой подкаст про разметку данных. Поговорили с СТО в TrainingData Романом Куцевым про то, зачем это вообще нужно, кто такие разметчики и каковы тенденции в отрасли.
Котики, коровки, спящие поросята и др., ― куда же без смешных и необычных кейсов.

По традиции тайм-коды:
00:00 Наш роскошный джингл.
00:04 Представляем экспертного гостя.
00:50 Разбираемся с базой. Что такое разметка данных и какие основные задачи она решает?
02:10 Что сложнее: сбор или разметка данных?
02:54 Методы и инструменты.
04:16 О сложностях, с которыми приходится сталкиваться в процессе обучения нейронки.
06:30 Затрагиваем щепетильный вопрос. Сколько это стоит?
08:22 Про объем рынка и «золотую лихорадку».
11:19 Про автоматическую разметку данных.
12:18 Кейсы по определению тональности голоса человека.
13:10 О мировых супергигантах по разметке данных.
13:45 О конкуренции в России.
14:27 Самые нелепые и смешные кейсы.
16:04 Дорогие и любимые факапы. Автомат Калашникова, плачущие дети и другие любопытные истории.
18:01 Тренды и прогнозы по развитию отрасли в России.

Платформы, где можно послушать подкаст:
Apple Podcasts
Google Подкасты
Яндекс.Музыка