Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
На рынке данных, как и на многих других рынках, те кто реально зарабатывают на них стараются поменьше говорить о своих бизнес моделях и успешности/неуспешности бизнеса, если только это не разговор с инвесторами. Одной из такой, с одной стороны малоизвестных, а с другой стороны хорошо известной в узких кругах нишей является рынок поставки альтернативных данных.

Альтернативные данные - это данные которые, в отличие от официальной статистики, могут собираться чуть ли не ежедневно, обладать высокой детализацией и точностью и охватывать те показатели бизнеса и экономической активности которые ранее было невозможно получить. Примером таких данных являются данные стартапа RSMetal [1] которые регулярно делают спутниковые снимки хранилищ стали, алюминия, меди, цинка и других товаров для автоматического измерения их объёма. Данные собираются ежедневно, в течение 48 часов обрабатываются и дополняются данными прогнозов. И таких сервисов распознавания и трекинга много. Стартап Kler [2] отслеживает по снимкам перемещение грузов, а TerraQuanta [3] в Китае следит за китайским агрорынком с помощью спутников, дроной и интернета вещей.

Один из крупнейших агрегаторов альтернативных данных, Quandl [4] был приобретён NASDAQ [5] в 2018 году после того как число клиентов Quandl превысило 300 тысяч.

Таких компаний десятки на рынке данных спутников и сотни во многих других областях. Большой каталог провайдеров таких данных собран на портале Alternative Data [6] как и общее описание этого рынка [7].

Потребители этих данных - это представители компаний на рынке, в первую очередь представители глобальных корпораций. А также трейдеры, аналитики, участники рынка, крупнейшие потребители и инвесторы. И конечно же, их используют для автоматической биржевой торговли.

Альтернативные данные - это данные всё более заменяющие официальную статистику и этот рынок огромен и в нём огромное количество ниш и возможностей.

Ссылки:
[1] https://rsmetrics.com/
[2] https://www.kpler.com/
[3] https://www.terraqt.com/
[4] http://quandl.com
[5] https://business.nasdaq.com/mediacenter/pressreleases/1855930/nasdaq-acquires-quandl-to-advance-the-use-of-alternative-data
[6] https://alternativedata.org/data-providers/
[7] https://alternativedata.org/alternative-data/

#data #alternativedata
В Defense One пишут о сокращении производства на российских оборонительных заводах [1] из-за COVID-19, а PWC France опубликовали записку о результатах геомониторинга экономической активности на фоне COVID-19 [2] и о падении производства на многих китайских заводах.

В обоих случаях авторы ссылаются на данные от Orbital Insight, стартапа из Palo Alto, в Кремниевой долине. С 2013 года, своего основания, они получили 128,7 миллионов USD инвестиций из которых 50 миллионов USD в 2019 году.

Их основная специализация - это геомониторинг, с распознаванием того для чего используются земельные ресурсы, скоплений людей, машин и объектов и анализу социальной активности.

Orbital Insight - это один из ключевых источников альтернативных данных, используемых параллельно с официальной корп. отченостью или госданными. Они, при этом, безусловно не единственные в этой области. Был обзор платформы Quandl по подобным проектам в 2016 году [3]

Ссылки:
[1] https://www.defenseone.com/technology/2020/05/russian-arms-production-slowed-coronavirus-analysts-find/165071/?oref=d-river
[2] https://www.pwc.fr/fr/assets/files/pdf/2020/04/en-france-pwc-covid-19-insights-from-space.pdf
[3] https://blog.quandl.com/alternative-data-satellite-companies

#alternativedata #data #satellite
Удивительно сколь многие данные о России можно и нужно искать не в России, а в глобальных базах данных, чаще открытых, иногда не до конца открытых, иногда коммерческих.

Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других

Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.

Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com

#opendata #data #alternativedata
Оказывается ещё в сентябре Bloomberg расширили их платформу альтернативных данных [1] и добавили туда предложения от 60 провайдеров данных [2] включая данные по отслеживанию судов, передаче нефти, цепочках поставок и так далее, ещё довольно много всего. Это чем-то напоминает ранее купленную Nasdaq платформу Quandl [3] чуть ли не главным достоинством которой было как раз огромное число источников альтернативных данных.

При этом модель, что Quandl, что сервиса альтернативных данных Bloomberg, что, например, маркетплейса данных внутри Factset [4] показывают что бизнес модель маркетплейса данных работает когда есть большой пул потребителей которые докупают их в добавление к основному продукту, по крайней мере в той части которая касается данных для анализа рынка, оценки компаний и их показателей.

Ссылки:
[1] https://www.tradersmagazine.com/am/bloomberg-expands-alt-data-offering/
[2] https://www.bloomberg.com/professional/product/alternative-data/
[3] https://www.quandl.com/
[4] https://www.factset.com/marketplace

#alternativedata
Fiscal Note [1] компания по мониторингу изменений в законодательстве и решений политиков купили [2] стартап Predata [3]. Predata - это весьма интересный стартап декларирующий использование ИИ для выявления аномалий, трендов и индикаторов в информационной медийной повестке на основе данных СМИ и соцсетей. Основной прицел был на участников рынка. Они привлекли относительно немного инвестиций в $3.3 миллиона [4] и стали частью системы альтернативных данных собираемых Bloomberg'ом [5]

В общем и целом любопытный стартап на растущем рынке альтернативных данных.

Ссылки:
[1] https://fiscalnote.com
[2] https://fiscalnote.com/press-room/fiscalnote-announces-acquisition-of-predata
[3] https://www.predata.com
[4] https://www.crunchbase.com/organization/predata
[5] https://www.businesswire.com/news/home/20190312005155/en/Bloomberg-Offering-Predata’s-Alternative-Data-Set-Data

#alternativedata #data #predata #fiscalnote
Один из больших рынков вокруг данных - это альтернативные данные (Alternative data), данные которые бизнес и инвесторы использует для принятия решений и доступные параллельно официальной статистике и "классическим" официальным источникам данных.

Среди проектов в этой области можно выделить продукты по отслеживанию смены руководства и ключевых сотрудников компаний.
- The Official Board [1] - около 80 тысяч компаний, большая часть в США и Европе, с доходами более $100M. Предоставляют доступ частный за 99 евро на 3 месяца, VIP 1999 евро на год и корпоративное API по запросу для автоматического отслеживания. Существуют с 2008 года, привлекли $150k инвестиций
- Craft [2] стартап с акцентом на проверку контрагентов, не в режиме проверки на комплаенс, а в режиме хотя бы базовой информации с акцентом на компании стартапы. Делают акцент на отслеживании цепочки поставок и также предоставляют сервис Key Executive Tracking с подпиской. Привлекли венчурных инвестиций на $10M
- BoardEx [3] закрытый продукт отслеживающий переходы руководителей, сделки, иную информацию о компаниях и руководителях. Обещают исторические данные за 20+ лет, основаны в 2000 году. Уже далеко не стартап, в 2018 году куплены Euromoney Institutional Investor за неназванную сумму. Продают данные многим стартапам, банкам, инвесторам и тд.
- The Org [4] совсем свежий стартап. Делают красивые графики структуры организации, с фотографиями и тд. Дают возможность владельцам организации заполнять о себе информацию и публиковать новости. Фактически, эдакий перезапуск каталогов компаний с акцентом на прозрачность. Основаны в 2017 г. Привлекли $39.6M инвестиций

А также существуют многие другие похожие компании с фокусом на сбор, переупаковку и продажу данных о структуре руководства, сотрудниках компаний и управлении контактами в B2B.

Есть ли стартапы на альтернативных данных в России? Если есть поделитесь ссылками в личку или в @begtinchat, сделаю их обзор.

Ссылки:
[1] https://www.theofficialboard.com
[2] https://craft.co
[3] https://www.boardex.com
[4] https://theorg.com

#data #alternativedata #startups #executives #contacts
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.

Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.

И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.

Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html

#opendata #alternativedata #china #covid
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
На днях я копался в своих презентациях, часть я уже выкладывал, те что делались онлайн, а сотни их лежат на дисках и не все из них я часто повторял. На днях я выступал перед аудиторией которая, как и я, как и многие, задавалась вопросами о том что делать в ситуации когда официальная российская статистика превращается в тыкву становится бесполезной. И вот на эту тему я лет 7 назад делал презентацию "Альтернативные данные" как развитие направления сбора и поставки данных гораздо более оперативно чем любые официальные источники. По мере того как официальная статистика в РФ будет сжиматься эти альтернативные источники будут всё более важны.

Кстати, по многим малым и развивающимся странам ситуация похожая, но уже по бедности. Государство просто не создаёт многой статистики и иных датасетов и их приходится собирать из других источников. По Армении, например, многие данные которые мы собираем в Open Data Armenia создаются не внутри страны.

А один из наиболее интересных проектов в области альтернативных данных - это Nasdaq Data Link (ранее Quandl). Торговая площадка для данных. Главное тут помнить что продав данные кому-то одному, другие не лишаются такой возможности. Данные не нефть, а электричество.

#opendata #alternativedata #datasource #datadiscovery