Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
По данным из Study on data sharing between companies in Europe [1], исследования по обмену данных в странах Евросоюза в EU присутствует:
- 255 000 компаний поставщиков данных
- 661 000 компаний потребителей данных и продуктов на их основе

В исследовании также немало цифр и анализа того как устроен рынок данных в Евросоюзе, в том числе и его расширительная трактовка на все компании компании которые встраивают сбор данных в свои продукты. К рынку данных относят рынки "Умного сельского хозяйства" и, например, рынки автопроизводителей встраивающих сбор данных в автомобили.

Также там неплохо перечислены основные механизмы обмена данными между компаниями.
Это такие способы как:
- продажа (монетизация) данных
- площадки продажи данных (data markets)
- индустриальные дата платформы
- использование технологических сервисов предоставления данных (technical enablers)
- политика открытых данных

Это большое и интересное исследование о котором я напишу ещё подробнее позже.

Ссылки:
[1] https://publications.europa.eu/en/publication-detail/-/publication/8b8776ff-4834-11e8-be1d-01aa75ed71a1/language-en

#datamarket #data
Каков размер рынков данных? В обзоре OnAudience Global Data Market Size 2016-2018 он измеряется в 18,2 миллиарда долларов США на 2018 год. Это значительно меньше 65 миллиардов евро размера рынка в Европе по оценке Lisbon Group, к примеру, и методология OnAudience не проясняет как они получили их цифры.

Однако даже если считать эту оценку консервативной, то 1 миллиард долларов размер рынка в России, в отчёте OnAudience - это хорошая минимальная оценка объёма рынка данных в России.

Ссылки:
[1] https://www.onaudience.com/files/Global_Data_Market_Size_OnAudience_Report.pdf

#data #datamarket
В NYT статья об огромном, не самом публичном, и довольно скрытом от публики бизнесе разметки данных (data labeling) [1]. До сих пор часто и очень часто выгоднее нанять сотни низкоооплачиваемых сотрудников которые вручную проверят данные по очень базовым правилам чем разрабатывать алгоритмы которые будут делать это автоматически. Да и алгоритмы надо на чём-то тренировать, здесь никак не обойтись без ручной работы.

Основной рынок разметки данных связан с английским языком поэтому неудивительно что он развивается в Индии, где с одной стороны английский на базовом уровне знают многие, а с другой найм людей обходится недорого. Впрочем для других задач, связанной с разметкой изображений, возможно подобное и в других странах.

Подобная разметка также актуальна для тех задач которые не требуют реального времени в принятии решений. Например, разметка объектов на спутниковых снимках или же, расшифровка аудиозаписей.

Ссылки:
[1] https://www.nytimes.com/2019/08/16/technology/ai-humans.html

#data #datalabeling #datamarket
Среди многочисленных проектов и бизнесов на данных, особо интересны имеющие качественное отраслевое применение, даже если сама бизнес модель совсем не про данные.

Molbase - китайский стартап [1], маркетплейс продажи и покупки химических компонентов. Объединяет спрос и предложения от малых и средних китайских компаний на химические вещества совершенно любого типа. У маркетплейсов своя понятная ниша и, казалось бы, ну что тут можно добавить, но вот создатели Molbase добавили базу знаний по всем продаваемым компонентам, поиск по видам и типам химических веществ, по формулам, химической структуре и так далее.

В декабре они вышли на IPO и сейчас их капитализация $205.9 миллиона [2], а бизнес модель построена на автоматизации хранения и логистики и заявленное число клиентов составляет 94 тысячи покупателей и 33 тысячи продавцов [3].

При этом особенный акцент во всех публичных материалах именно на данные и на искусственный интеллект, с рекомендательными возможностями.

Ссылки:
[1] https://molbase.com
[2] https://craft.co/molecular-data/metrics
[3] http://investor.molbase.com/static-files/d06191ae-4466-449d-a56f-ff27faf808d0

#data #datamarket
Блеск и нищета бирж торговли данными, за всё время существования множества стартапов в этой нише, большая часть не выживает. Например, в Европейском каталоге DataLandscape перечислено 14 компаний [1]. Часть из них официально закрылись, часть отключили сайты и продукты и ещё часть, на самом деле, не про биржу данных. Относительно живым выглядит только Davex [2]. Они хотя и предлагают продукт на глобальном рынке данных, но куда больше веры в том что бизнес модель у них через создание и поддержку отраслевых проектов, вроде портала торговли данными в Японии JDEX [3]

За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.

2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.

Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.

И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.

Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp

#data #datamarket #dataexchanges
Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.

Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.

Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.

Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi

#data #datamarket #roi #kpi
Свежая схема THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE [1] в виде PDF файла и в интерактивном режиме. Выглядит любопытно, особенно интерактивная версия [2] поскольку в ней есть ссылки и дополнительная информация о продуктах.

При этом, скажу честно, я лично уже порядком устал смотреть на такие картинки, они пухнут год от года, реальной картины не дают, а скорее создают некий визуальный антураж структуре рынка.

Можно ли делать похожее по смыслу, но приятнее визуально? вот в чём вопрос.

Ссылки։
[1] https://mattturck.com/mad2023/
[2] https://mad.firstmarkcap.com/

#datamarket #datatools #dataproducts #visual
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital