Я подумал: пусть у нас есть датасет, мы посчитали на нём корреляцию и p-value, и прилетает новая точка (x, y).
Пересчитываем p-value и тогда:
* Если реальная зависимость есть, то новая точка скорее всего должна уменьшить p-value. Т.е. более вероятно, что новая точка будет указывать на имеющуюся зависимость.
* Если реальной зависимости нет, то скорее всего новая точка по крайней мере не уменьшит p-value.
Конечно нам может снова неповезти с конкретными точками, поэтому "скорее всего" тут означает "в среднем".
То есть для выборки с настоящей зависимостью добавление новых данных должно чаще подвтерждать эту зависимоть, а не размывать её.
Пересчитываем p-value и тогда:
* Если реальная зависимость есть, то новая точка скорее всего должна уменьшить p-value. Т.е. более вероятно, что новая точка будет указывать на имеющуюся зависимость.
* Если реальной зависимости нет, то скорее всего новая точка по крайней мере не уменьшит p-value.
Конечно нам может снова неповезти с конкретными точками, поэтому "скорее всего" тут означает "в среднем".
То есть для выборки с настоящей зависимостью добавление новых данных должно чаще подвтерждать эту зависимоть, а не размывать её.
На основе этого придумал такой метод:
1. Берем половину выборки, считаем на ней p-value для корреляции
2. Докидываем по 10 точек из второй половины, пересчитываем p-value
3. Получаем завивисомть p-value от количества данных в выборке
4. ???
Вот чё с этим делать я пока не придумал, но первая идея такая: если p-value в среднем уменьшается, то всё круто и делаем вывод о значимости. Чтобы понять уменьшается она или нет, возьмем производную в каждой точке, и посчитаем среднюю производную. Получается что-то типа среднего наклона зависимости p-value от количества данных
1. Берем половину выборки, считаем на ней p-value для корреляции
2. Докидываем по 10 точек из второй половины, пересчитываем p-value
3. Получаем завивисомть p-value от количества данных в выборке
4. ???
Вот чё с этим делать я пока не придумал, но первая идея такая: если p-value в среднем уменьшается, то всё круто и делаем вывод о значимости. Чтобы понять уменьшается она или нет, возьмем производную в каждой точке, и посчитаем среднюю производную. Получается что-то типа среднего наклона зависимости p-value от количества данных
Переформулировал эту штуку как задачу классификации: пусть нам на вход поступает семпл, а нам надо по нему ответить: он из датасета с реальной зависимостью (1) или из шума (0). Далее считаем точность
Запустил кросс-валидацию
Запустил кросс-валидацию
В случае с методом "не выделываться" я предсказывал, что зависимость есть (1), просто если p-value меньше alpha.
В случае с новым методом, я предсказывал 1 если среднее/медианная производная p-value при добавлении данных меньше нуля (p-value умеьшается) и p-value меьнше alpha
В случае с новым методом, я предсказывал 1 если среднее/медианная производная p-value при добавлении данных меньше нуля (p-value умеьшается) и p-value меьнше alpha
Короче говоря, не сработало, но меня не оставляет ощущение, что что-то в этом есть, и что мне не хватает мозгов понять, что именно. Другой вариант в том, что возможно нет никакой информации в добавлении новых данных, потому что все точки независимы между собой. Или корреляция пирсона уже внутри себя учитывает эффект, который я пытаюсь найти.
Можете поиграться: https://colab.research.google.com/drive/1AhAoTAzhvpXyLkk-7xmkzdF7RW29HgyA?usp=sharing
Вопросы в зал:
* Что за велосипед я изобрел? Может кто-то более погруженный в статистику узнает в нём что-то давно изобретенное?
* Как можно это докрутить?
* Как можно это опровергнуть? Моё предположение, что с добавлением новых данных мы ожидаем уменьшения p-value только если зависимость есть, неверное?
Можете поиграться: https://colab.research.google.com/drive/1AhAoTAzhvpXyLkk-7xmkzdF7RW29HgyA?usp=sharing
Вопросы в зал:
* Что за велосипед я изобрел? Может кто-то более погруженный в статистику узнает в нём что-то давно изобретенное?
* Как можно это докрутить?
* Как можно это опровергнуть? Моё предположение, что с добавлением новых данных мы ожидаем уменьшения p-value только если зависимость есть, неверное?
Google
new_method.ipynb
Colaboratory notebook
👍1
Интересно, как всё в науке работает задом-наперед.
Обычно: заказчик ставит задачу, согласует её с исполнителем, исполнитель делает, сдает работу.
В науке: несколько месяцев делаешь что-то, потом пытаешься найти журнал, куда это примут, подгоняешь структуру/результат под требования журнала.
Ещё пример: публикация в журнале стоит $500 - $2000. Если ты афилирован с университетом, то он платит за тебя. Однако процесс тоже задом-наперед: ты сначала платишь из своих денег, а потом подаешь запрос на возмещение. И тебе вполне могут не возместить.
Обычно: заказчик ставит задачу, согласует её с исполнителем, исполнитель делает, сдает работу.
В науке: несколько месяцев делаешь что-то, потом пытаешься найти журнал, куда это примут, подгоняешь структуру/результат под требования журнала.
Ещё пример: публикация в журнале стоит $500 - $2000. Если ты афилирован с университетом, то он платит за тебя. Однако процесс тоже задом-наперед: ты сначала платишь из своих денег, а потом подаешь запрос на возмещение. И тебе вполне могут не возместить.
Forwarded from Small Data Science for Russian Adventurers
Анализ малых данных
Работа DS: зарплаты, занятость и желания
Подводим итоги опроса по работе аналитиков данных, который ранее запускали на телеграм-канале. Спасибо всем, кто принял участие! Было желание опросить 1000 человек, к тому же в предварительном опро…
Обзор на научную статью, попробуем этот формат.
# The Benchmark Lottery, NeurIPS 2021
Минутка meta-science. Прогресс в ML делается во многом за счет бенчмарков. Это датасеты, на которых сообщество оценивает качество новых моделей. Самый известный это ImageNet. Ученые делают новые методы, проверяют их на одной и той же задаче, пытаются превзойти предыдущий лучший результат. Это работает, но авторы статьи утверждают, что текущий процесс не гаранитрует, что если новый метод показал себя лучше на бенчмарке, то он значительно лучше альтернатив. На результативность на бенчмарке влияет очень много параметров помимо качества модели, поэтому выбор новой SOTA напоминает лотерею.
На примере бенчмарка с 8 датасетами SuperGLUE, авторы показывают, что на разных датасетах схожие модели показывают себя как самые лучшие. Грубо говоря всегда можно найти такой датасет, на котором твоя модель будет самой лучшей. Авторы так же приводят примеры, когда при изменении метрик оценки качества, при тех же самых датасетах, ранкинг моделей целиком меняется. Помимо этого, если поправить ошибки разметки в известных бенчмарках, турнирная таблица моделей так же меняется. Эти примеры показывают, что победа модели на текущих бенчмарках не гарантирует, что она будет лучше на новых задачах.
Авторы приводят чрезвычайно интересную мысль: если ученые долгое время работают над одним бенчмарком, то они начинают подгонять новые модели под тестовые данные бенчмарка. Фишка в том, что делая новую модель ученый смотрит на результативность предыдущих подходов на тестовых данных. Таким образом он получает немного обратной связи от тестового сета и делает свою модель с учетом этой связи. Эффект незаметен на коротких промежутках времени, но накапливается если все работают над одним датасетом годами (привет ImageNet-у). Это можно наблюдать по появлению датасет-специфичных трюков, которые кочуют из статьи в статью после того, как они сработали, но не улучшают модель в целом. Я лично наблюдал такое в статьях по Deep Metric Learning: очередная SOTA состоит на 10% из модели 2007 года и на 90% из сотни хаков.
# The Benchmark Lottery, NeurIPS 2021
Минутка meta-science. Прогресс в ML делается во многом за счет бенчмарков. Это датасеты, на которых сообщество оценивает качество новых моделей. Самый известный это ImageNet. Ученые делают новые методы, проверяют их на одной и той же задаче, пытаются превзойти предыдущий лучший результат. Это работает, но авторы статьи утверждают, что текущий процесс не гаранитрует, что если новый метод показал себя лучше на бенчмарке, то он значительно лучше альтернатив. На результативность на бенчмарке влияет очень много параметров помимо качества модели, поэтому выбор новой SOTA напоминает лотерею.
На примере бенчмарка с 8 датасетами SuperGLUE, авторы показывают, что на разных датасетах схожие модели показывают себя как самые лучшие. Грубо говоря всегда можно найти такой датасет, на котором твоя модель будет самой лучшей. Авторы так же приводят примеры, когда при изменении метрик оценки качества, при тех же самых датасетах, ранкинг моделей целиком меняется. Помимо этого, если поправить ошибки разметки в известных бенчмарках, турнирная таблица моделей так же меняется. Эти примеры показывают, что победа модели на текущих бенчмарках не гарантирует, что она будет лучше на новых задачах.
Авторы приводят чрезвычайно интересную мысль: если ученые долгое время работают над одним бенчмарком, то они начинают подгонять новые модели под тестовые данные бенчмарка. Фишка в том, что делая новую модель ученый смотрит на результативность предыдущих подходов на тестовых данных. Таким образом он получает немного обратной связи от тестового сета и делает свою модель с учетом этой связи. Эффект незаметен на коротких промежутках времени, но накапливается если все работают над одним датасетом годами (привет ImageNet-у). Это можно наблюдать по появлению датасет-специфичных трюков, которые кочуют из статьи в статью после того, как они сработали, но не улучшают модель в целом. Я лично наблюдал такое в статьях по Deep Metric Learning: очередная SOTA состоит на 10% из модели 2007 года и на 90% из сотни хаков.
👍1
Самый хот тейк статьи: почему в ML не используют статистические тесты?
Кто-то обучил модель один раз и получил accuracy 95%. Ты обучил новую модель один раз и получил accuracy 96%. Откуда ты знаешь, что улучшение твоей модели статистически значимо и не является случайной ошибкой?
Авторы предлагают рассматривать оценки качества как случайные семплы и использовать статистические тесты.
Смейтесь над DS-ами: они делают статистические модели, но не используют статистику для их проверки. Лично я сейчас испытываю испанский стыд.
Кто-то обучил модель один раз и получил accuracy 95%. Ты обучил новую модель один раз и получил accuracy 96%. Откуда ты знаешь, что улучшение твоей модели статистически значимо и не является случайной ошибкой?
Авторы предлагают рассматривать оценки качества как случайные семплы и использовать статистические тесты.
Смейтесь над DS-ами: они делают статистические модели, но не используют статистику для их проверки. Лично я сейчас испытываю испанский стыд.
👍1
Что с этим делать?
Предложения авторов:
1. Договориться между собой и установить гайдлайны, как делать бенчмарки, как их использовать, как ревьюить статьи (а может не надо отклонять статьи по причине "не SOTA на одном датасете"?)
2. Не делать один трейн-тест сплит в банчмарках, а делать кросс-валидацию. Ну камон ребят, это же очевидно.
3. Делать бенчмарки со статистическими тестами значимости.
4. Тестировать на нескольких датасетах.
5. Вместо того, чтобы годами оверфититься под один датасет, можно использовать контесты, где задача остается одной и той же, но датасет меняется. В качестве примера приводится конференция WMT, где каждый год проводится соревнование по машинному переводу.
Предложения авторов:
1. Договориться между собой и установить гайдлайны, как делать бенчмарки, как их использовать, как ревьюить статьи (а может не надо отклонять статьи по причине "не SOTA на одном датасете"?)
2. Не делать один трейн-тест сплит в банчмарках, а делать кросс-валидацию. Ну камон ребят, это же очевидно.
3. Делать бенчмарки со статистическими тестами значимости.
4. Тестировать на нескольких датасетах.
5. Вместо того, чтобы годами оверфититься под один датасет, можно использовать контесты, где задача остается одной и той же, но датасет меняется. В качестве примера приводится конференция WMT, где каждый год проводится соревнование по машинному переводу.
Forwarded from Серёга Бомбит
Какие-то гайдлайны/стандарты должны быть обязательно. Потому что при существующей во всём мире палочной системе результативности учёных главная цель это срубить "палку" за статью. Если "палку" можно срубить, особо не заморачиваясь над робастностью модели, то зачем париться, если результат исследования со 100 прогонами модели и 1 прогоном модели одинаково хорош? "Неважно, это про этих, там" (с)
Плюс должена быть инициатива со стороны рецензентов, чтобы положительно воспринимать отрицательные результаты исследования. Иначе все будут на 90% хакать определенный бенчмарк и ублажить рецензента, потому что в противном случае их статья просто не пройдёт рецензирование.
Мы вроде все знаем про "ошибку выжившего", когда делались неправильные выводы на основе положительных результатов, но, тем не менее, уважаемое научное сообщества воспроизводит эту же по факту ошибку выжившего раз за разом.
Плюс должена быть инициатива со стороны рецензентов, чтобы положительно воспринимать отрицательные результаты исследования. Иначе все будут на 90% хакать определенный бенчмарк и ублажить рецензента, потому что в противном случае их статья просто не пройдёт рецензирование.
Мы вроде все знаем про "ошибку выжившего", когда делались неправильные выводы на основе положительных результатов, но, тем не менее, уважаемое научное сообщества воспроизводит эту же по факту ошибку выжившего раз за разом.
👍1
Серега дело говорит про отрицательные результаты. Помню наткнулся на статью на архиве, где авторы описывали: "мы потратили на проверку этой идеи 6 месяцев, но не нашли значимого результата. Публикуем это, чтобы кому-то не пришлось повторять". Страшно представить сколько людей занимаются одной и той же заведомо провальной работой
# Фермизация объема рынка монтажа видео
Недавно мне пришла в голову идея проекта. Он бы упростил и ускорил монтаж видео. Проект уменьшил бы время на отсмотр видео на "косяки".
Главный вопрос: стоит ли браться за идею? Для ответа понадобится несколько других вопросов, но в этом посте сфокусируемся на одном: сколько на этом можно заработать? Какой объем рынка? Мой первый интуитивный ответ такой: "хз, я откуда знаю?". Кажется, что любые догадки будут тыканьем пальцем в небо.
"Сколько в Чикаго настройщиков пианино?",- спрашивал своих студентов Ферми, к большому их неудовольствию. Интуитивно кажется, что ответить можно только посчитав настройщиков пианино, а другие способы будут просто попыткой выдать случайное число за ответ. Однако Ферми показал, что если раскладывать проблему на подвопросы, делать догадки и агреггировать их, можно получить удивительно близкий к реальности ответ, в пределах десятки.
Я ничего не знаю о видео, так что сейчас мы будем считать объем рынка по заветам Ферми.
## Разложим вопрос на подвопросы
Вопрос: сколько денег в монтаже видео? Иначе говоря, сколько бы можно было заработать если бы нам заплатил каждый клиент?
Чтобы ответить нам надо знать, сколько всего клиентов, и сколько каждый из них заплатит.
Пусть клиенты это монтажеры видео. Сколько они готовы заплатить? Они буду платить, если им это выгодно (вот это инсайты!). А выгодно тогда, когда цена за сэкономленный час меньше их почасовой ставки.
Итак, получаем подвопросы:
- Сколько в России монтажеров видео?
- Сколько стоит час работы монтажера?
- На сколько можно сократить часы работы монтажера с помощью автоматизации?
Формула для итогового ответа:
Недавно мне пришла в голову идея проекта. Он бы упростил и ускорил монтаж видео. Проект уменьшил бы время на отсмотр видео на "косяки".
Главный вопрос: стоит ли браться за идею? Для ответа понадобится несколько других вопросов, но в этом посте сфокусируемся на одном: сколько на этом можно заработать? Какой объем рынка? Мой первый интуитивный ответ такой: "хз, я откуда знаю?". Кажется, что любые догадки будут тыканьем пальцем в небо.
"Сколько в Чикаго настройщиков пианино?",- спрашивал своих студентов Ферми, к большому их неудовольствию. Интуитивно кажется, что ответить можно только посчитав настройщиков пианино, а другие способы будут просто попыткой выдать случайное число за ответ. Однако Ферми показал, что если раскладывать проблему на подвопросы, делать догадки и агреггировать их, можно получить удивительно близкий к реальности ответ, в пределах десятки.
Я ничего не знаю о видео, так что сейчас мы будем считать объем рынка по заветам Ферми.
## Разложим вопрос на подвопросы
Вопрос: сколько денег в монтаже видео? Иначе говоря, сколько бы можно было заработать если бы нам заплатил каждый клиент?
Чтобы ответить нам надо знать, сколько всего клиентов, и сколько каждый из них заплатит.
Пусть клиенты это монтажеры видео. Сколько они готовы заплатить? Они буду платить, если им это выгодно (вот это инсайты!). А выгодно тогда, когда цена за сэкономленный час меньше их почасовой ставки.
Итак, получаем подвопросы:
- Сколько в России монтажеров видео?
- Сколько стоит час работы монтажера?
- На сколько можно сократить часы работы монтажера с помощью автоматизации?
Формула для итогового ответа:
всего_монтажеров * денег_с_клиента_в_год =Теперь применим тот же процесс для ответов на все подвопросы.
всего_монтажеров * стоимость_услуги_за_экономию_часа * экономия_времени_монтажера =
всего_монтажеров * зп_монтажера_в_час * (часов_на_отсмотр - часов_на_отсмотр_с_автоматизацией)
# Сколько в России монтажеров видео?
Нам придется придумать что-то поинтереснее, чем вбить вопрос в гугл, потому что готового ответа нет. Оценим количество через что-то сильно коррелирующее.
## Подсчет 1, через пользователей редакторов видео
Все монтажеры видео пользуются одной из нескольких программ для редактирования видео. Вот здесь делается оценка количества пользователей, что пользователей Adobe Premier Pro по миру 9 миллионов, а всего остального сотфа в пределах 100 тысяч. Отбросим всё, кроме Adobe Premier Pro: теперь задача свелась к подсчету, сколько людей пользуются Adobe Premier Pro в России.
Спасибо финансовой отчетности Adobe для инвесторов, у нас есть некоторые цифры за 2020 год. Там нет числа пользователей программ, и тем более по странам. Снова придется оценивать.
Итак, Adobe Premier продается в подписке Creative Cloud. На него так же можно подписаться отдельно, но доля покупок без подписки небольшая, так что опустим это. Для начала придется установить, сколько у Adobe подписчиков CC в России.
Находим такие цифры:
> доход от CC subscriptions: $7.5 bn
> 26% дохода пришло из EMEA
Супер, EMEA включает в себя Россию. Ладно, предположим, что доля подписчиков из России в EMEA пропорциональна доле экономики России в EMEA.
Откопаем GDP EMEA и России (тут и тут):
> EMEA total GDP: $27.5 trillion
> Russia GDP: $1.464 trillion
> Russian share of EMEA: 1.464/27.5 = 0.053 ~ 5.3%
Итак, Россия занимает примерно 5.3% в экономике EMEA.
Достанем ещё стоимость подписки на CC в Росии с официального сайта: $32.01 в месяц и $384 в год.
У нас есть все нужные компоненты, расчехляем арифметику:
> Доход Adobe от подписок из России: весь доход от CC * доля дохода от EMEA * доля Росси в EMEA = $7.5 bn * 26% * 5.3% = $103.35 mln
> Число подписчиков CC в России за год: доход от CC в России / стоимость подписки = $103.35 mln / $384 = 268,229
Получили примерно 268 тысяч подписчиков, однако не все из них используют Premier. В пакет CC входит 6 приложений:Photoshop, Premiere, Illustrator, Acrobat DC, InDesign, XD. Если мы предположим равномерное распределение пользователей по продуктам, то Premier пользуются 16.6% из них. Но в реальности мне кажется, что большинство людей пользуются только Photoshop, Illustrator, Acrobat DC. Предположим, что 80% пользователей пользуются этими тремя, оставшиеся 20% распределены равномерно между тремя другими продуктами. Тогда 20%/3 = 6.67% подписчиков CC пользуются Premier. Усредним эти две оценки: (16.6% + 6.67%) / 2 = 11.6%. Получаем ответ: пользователей Premier в России: 268,229 * 11.6% = 31,114.
Тридцать одна тысяча монтажеров видео. Звучит реалистично? Не знаю. Сделаем ещё один подсчет.
## Подсчет 2, через пользователей behance
Почти все люди профессионально занимающеся видео или дизайном пользуются behance.net. Согласно всё той же отчетности Adobe, у Behance всего 25 миллионов пользователей на 2020 год. Согласно этому сайту 4.68% трафика сайта приходится на Россию. Получаем оценку пользователей behance в России: 25m * 4.68% = 1,170,000. Ладно, но сколько из них монтируют видео? Я зашел на главную страницу, открыл просмотр пользователей из России и стал считать, у какой доли указано в тегах что-то связанное с видео. Получилось что-то около один человек с видео на 25 пользователей.
Делаем последнее умножение: 1,170,000 * 1/25 = 46,800. Получилось 46,800 монтажеров видео. Очень близко к ранее полученным 31,114! Вселяет уверенность в оценке. В конце конечно усредним и получаем ответ на подвопрос: 38,957 профессиональных монтажеров видео в России.
Можно так же предположить, сколько в России видео-студий. Я прикину, что в одной студии не нужно больше 10 монтажеров. С учетом маленьких студий и фрилансеров среднее число должно быть ещё меньше. Я предположу 3-10 монтажеров на студию, то есть в среднем 6. Получаем 6,493 студий в России.
Нам придется придумать что-то поинтереснее, чем вбить вопрос в гугл, потому что готового ответа нет. Оценим количество через что-то сильно коррелирующее.
## Подсчет 1, через пользователей редакторов видео
Все монтажеры видео пользуются одной из нескольких программ для редактирования видео. Вот здесь делается оценка количества пользователей, что пользователей Adobe Premier Pro по миру 9 миллионов, а всего остального сотфа в пределах 100 тысяч. Отбросим всё, кроме Adobe Premier Pro: теперь задача свелась к подсчету, сколько людей пользуются Adobe Premier Pro в России.
Спасибо финансовой отчетности Adobe для инвесторов, у нас есть некоторые цифры за 2020 год. Там нет числа пользователей программ, и тем более по странам. Снова придется оценивать.
Итак, Adobe Premier продается в подписке Creative Cloud. На него так же можно подписаться отдельно, но доля покупок без подписки небольшая, так что опустим это. Для начала придется установить, сколько у Adobe подписчиков CC в России.
Находим такие цифры:
> доход от CC subscriptions: $7.5 bn
> 26% дохода пришло из EMEA
Супер, EMEA включает в себя Россию. Ладно, предположим, что доля подписчиков из России в EMEA пропорциональна доле экономики России в EMEA.
Откопаем GDP EMEA и России (тут и тут):
> EMEA total GDP: $27.5 trillion
> Russia GDP: $1.464 trillion
> Russian share of EMEA: 1.464/27.5 = 0.053 ~ 5.3%
Итак, Россия занимает примерно 5.3% в экономике EMEA.
Достанем ещё стоимость подписки на CC в Росии с официального сайта: $32.01 в месяц и $384 в год.
У нас есть все нужные компоненты, расчехляем арифметику:
> Доход Adobe от подписок из России: весь доход от CC * доля дохода от EMEA * доля Росси в EMEA = $7.5 bn * 26% * 5.3% = $103.35 mln
> Число подписчиков CC в России за год: доход от CC в России / стоимость подписки = $103.35 mln / $384 = 268,229
Получили примерно 268 тысяч подписчиков, однако не все из них используют Premier. В пакет CC входит 6 приложений:Photoshop, Premiere, Illustrator, Acrobat DC, InDesign, XD. Если мы предположим равномерное распределение пользователей по продуктам, то Premier пользуются 16.6% из них. Но в реальности мне кажется, что большинство людей пользуются только Photoshop, Illustrator, Acrobat DC. Предположим, что 80% пользователей пользуются этими тремя, оставшиеся 20% распределены равномерно между тремя другими продуктами. Тогда 20%/3 = 6.67% подписчиков CC пользуются Premier. Усредним эти две оценки: (16.6% + 6.67%) / 2 = 11.6%. Получаем ответ: пользователей Premier в России: 268,229 * 11.6% = 31,114.
Тридцать одна тысяча монтажеров видео. Звучит реалистично? Не знаю. Сделаем ещё один подсчет.
## Подсчет 2, через пользователей behance
Почти все люди профессионально занимающеся видео или дизайном пользуются behance.net. Согласно всё той же отчетности Adobe, у Behance всего 25 миллионов пользователей на 2020 год. Согласно этому сайту 4.68% трафика сайта приходится на Россию. Получаем оценку пользователей behance в России: 25m * 4.68% = 1,170,000. Ладно, но сколько из них монтируют видео? Я зашел на главную страницу, открыл просмотр пользователей из России и стал считать, у какой доли указано в тегах что-то связанное с видео. Получилось что-то около один человек с видео на 25 пользователей.
Делаем последнее умножение: 1,170,000 * 1/25 = 46,800. Получилось 46,800 монтажеров видео. Очень близко к ранее полученным 31,114! Вселяет уверенность в оценке. В конце конечно усредним и получаем ответ на подвопрос: 38,957 профессиональных монтажеров видео в России.
Можно так же предположить, сколько в России видео-студий. Я прикину, что в одной студии не нужно больше 10 монтажеров. С учетом маленьких студий и фрилансеров среднее число должно быть ещё меньше. Я предположу 3-10 монтажеров на студию, то есть в среднем 6. Получаем 6,493 студий в России.