Ivan Begtin
8.07K subscribers
1.54K photos
3 videos
100 files
4.29K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
На днях я копался в своих презентациях, часть я уже выкладывал, те что делались онлайн, а сотни их лежат на дисках и не все из них я часто повторял. На днях я выступал перед аудиторией которая, как и я, как и многие, задавалась вопросами о том что делать в ситуации когда официальная российская статистика превращается в тыкву становится бесполезной. И вот на эту тему я лет 7 назад делал презентацию "Альтернативные данные" как развитие направления сбора и поставки данных гораздо более оперативно чем любые официальные источники. По мере того как официальная статистика в РФ будет сжиматься эти альтернативные источники будут всё более важны.

Кстати, по многим малым и развивающимся странам ситуация похожая, но уже по бедности. Государство просто не создаёт многой статистики и иных датасетов и их приходится собирать из других источников. По Армении, например, многие данные которые мы собираем в Open Data Armenia создаются не внутри страны.

А один из наиболее интересных проектов в области альтернативных данных - это Nasdaq Data Link (ранее Quandl). Торговая площадка для данных. Главное тут помнить что продав данные кому-то одному, другие не лишаются такой возможности. Данные не нефть, а электричество.

#opendata #alternativedata #datasource #datadiscovery
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
В рубрике как это работает у них, польский портал Most Wiedzy [1] (Мост к знаниям) на котором публикуются результаты научной деятельности. В отдельном разделе портала Dane Badawcze [2] собраны открытые научные данные.

Всего 4093 набора данных на сегодняшний день, большая часть их под лицензиями CC0 и CC-BY.

У проекта есть открытое API [3] и выгрузка данных для семантического веба RDF/OWL [4].

Создан в университете Гданьска, используется десятком исследовательских центров Польши.

Ссылки:
[1] https://mostwiedzy.pl/pl/
[2] https://mostwiedzy.pl/pl/open-research-data/catalog
[3] https://api.mostwiedzy.pl/
[4] https://mostwiedzy.pl/pl/open-data

#opendata #openaccess #poland #datacatalogs
Вышла вторая версия стандарта Data Package [1] ранее он назывался Frictionless Data. Полезен он будет всем кто публикует табличные CSV файлы которые с его помощью очень хорошо описываются. Это большой плюс, особенно для тех кто не является дата инженерами или аналитиками, а рядовыми учёными, пользователям и тд.

Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.

Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.

Ссылки:
[1] https://datapackage.org

#opensource #standards #opendata #data #okfn
Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.

Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально

И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.

Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf

#opendata #un #sdg #indicators #reports
Интересные ссылки про данные, технологии и не только:
- OmniParse [1] очень интересный open source движок по применению ИИ к парсингу документов. В примерах приводят разбор PDF на картинки и таблицы. Для задач разбора PDF'ок может быть бесценен, и как идея, и как код. Лицензия GPL3, часть облачного продукта стартапа CognitiveLab

- Meta 3D Gen [2] в Meta создали модель ИИ для генерации 3D моделей. Выглядит интересно и очень много прикладного применения у такого есть. Можно начинать гадать сколько 3D дизайнеров и гейм дизайнеров лишаться работы или... сильно повысят свою продуктивность

- Google AI и Pixel 9 [3] похоже что новая версия телефонов Pixel от Google будет иметь на борту мини языковую модель и несколько продуктов на базе ИИ. Даже не знаю что сказать на это. Неужели это начало тренда когда во всех телефонах будут ИИ приложения всегда?

- Google Mesop [4] open-source движок от Гугла по быстрой разработке веб интерфейсов. Ещё бы к нему хороший автогенератор кода из ТЗ в интерфейс и было бы бесценно, как минимум, для создания быстрых демок.

- The 4M Roadmap: A Higher Road to Profitability by Using Big Data for Social Good, by Brennan Lake [5] доклад о применении корпоративных данных для общественного блага. Подробный разбор нескольких глобальных инициатив в этой области

Ссылки:
[1] https://github.com/adithya-s-k/omniparse
[2] https://venturebeat.com/ai/meta-drops-3d-gen-bomb-ai-powered-3d-asset-creation-at-lightning-speed/
[3] https://www.androidauthority.com/google-ai-recall-pixel-9-3456399/
[4] https://google.github.io/mesop/
[5] https://www.sharedvalue.org/resource/the-4m-roadmap/

#opendata #opensource #readings
ОЭСР (Организация экономического сотрудничества и развития) в которой состоят практически все развитые страны обновила свой сайт oecd.org и, наконец-то, они перевели в открытый доступ все свои материалы, а публикации стали дата-ориентированными. Для тех кто не сталкивался ранее поясню, ОЭСР публиковали довольно много интересных докладов и данных о странах, но большая их часть ими продавалась и данные были неудобны в использовании. Учитывая что они сами промоутировали открытость государств, но оставались вот такими полузакрытыми то и получали немало критики. Наконец-то у них это изменилось, может быть нашли другие источники финансирования, но важно что материалы теперь их открыты. Ну и данные, конечно там много датасетов.

#opendata #datasets #datacatalogs #data #oecd
В рубрике интересных наборов данных наборы с данными по измерению скорости интернета от Measurement Lab [1] где их много и разных и почти все архивные датасеты доступны через Google Cloud.

А также датасеты OOKLA [2] по скорости сетей, которые они собирали краудсорсингом и публикуют в рамках своей Open Data Initiative. Заметим что раскрытие идёт от коммерческой компании.

Данные можно использовать самым разным образом, от измерения проникновения 5G, до мониторинга деградации качества связи или поиска мест человеческого обитания там где может показаться что людей не должно быть (шутка).

Ссылки:
[1] https://www.measurementlab.net/data/
[2] https://www.ookla.com/ookla-for-good/open-data


#opendata #datasets #networks
В последнее время у меня было несколько разговоров с разными людьми, но все на одну и ту же тему что открытые данные тесно связаны с развитием свобод и демократии и что без них их не существует или становится меньше.

Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов.

В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям.

Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе.

Почему так происходит? Что общего в этих странах?

У меня нет универсального ответа на этот вопрос, но есть несколько гипотез:
1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах).
2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?"
3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом.
4. Развитие науки, создание проектов с раскрытием открытых научных данных
5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей"
6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает"

Есть и другие, более специфичные для конкретных стран гипотезы и доводы.

А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!".

А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах.

Ссылки:
[1] https://www.democracymatrix.com/ranking

#opendata #data #thoughts