Ivan Begtin
8.09K subscribers
1.61K photos
3 videos
100 files
4.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В IPVM статья [1] о том как в Китае компания Dahua, с 2021 года, помимо классических услуг распознавания лиц и объектов, предоставляет ещё и AI платформу Jinn [2] в которой обещают что могут определять неработающих сотрудников, сотрудников на стройке без касок, людей курящих в помещении и ещё много чего. В том числе среди их продуктов обнаружили пример с распознаванием протестующих с баннерами. Неизвестно умеет ли их продукт считывать с лозунга текст, но умеет определять тех кто с ним стоит. После того как журналисты IPVM запросили у компании комментарии, то сразу же эти примеры исчезли. Причем скорее всего Dahua не единственный вендор с таким продуктом,

Ссылки:
[1] https://ipvm.com/reports/dahua-protestor-alarms
[2] https://ai.dahuatech.com/deviceOpenPlatform

#privacy #surveillance #china #ai
В рубрике как это устроено у них, в Гонконге 9 каталогов открытых данных. Основной из них - это государственный портал data.gov.hk [1] с более чем 5200 наборами данных, а также 3 геопортала:
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx

Геоданные также предоставляются властями города.

Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/

Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)

В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.

Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.

В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.

#opendata #hongkong #china
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая

Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.

Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.

В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.

Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services

#opendata #geodata #china #datasets
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.

Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.

Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.

Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0

#opendata #international #china #readings #datasets
Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.

У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.

А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.

Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.

И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].

Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm

#opendata #data #finances #china #banking
Немногие за пределами Китая знают о масштабах публикации там научных данных. При этом данных там много и, помимо таких проектов как SciDB и Findata существуют десятки крупных научных репозиториев с данными.

В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.

Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.

В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.

А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.

Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn

#opendata #china #datacatalogs #datasets
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china
В рубрике как это устроено у них японский национальный репозиторий результатов научных работ IRDB [1], включает 4.1 миллиона ресурсов, большая часть которых это научные статьи, журналы, публикации после конференций и так далее, а также боле чем 124 тысячи наборов исследовательских данных. Чем то IRDB схож с проектами OpenAIRE и SciDB, хотя и сделан весьма консервативнее.

В его основе харвестинг метаданных из более чем 700 научных репозиториев [2] в которых реализовано раскрытие метаданных по стандарту JPCOAR [3] через интерфейсы OAI-PMH. Сам репозиторий IDRB также поддерживает доступ через OAI-PMH [4] и с ним можно взаимодействовать программным образом.

Простота харвестинга во многом обеспечена тем что значительная часть репозиториев - это репозитории на базе open-source ПО Weko3 которое является доработанной версией репозитория для научных публикаций Invenio 3 и который и обеспечивает предоставление метаданных через OAI и, также, предоставляет иные, API упрощающие сбор данных. Weko3 был разработан Национальным институтом информатики Японии, той же организацией что управляет IRDB

У IRDB множество недостатков тоже есть:
- нет bulk download, нельзя скачать базу целиком
- нет документированного API, даже интерфейс OAI не упомянут на сайте, не говоря уже о том что он устарел для большей части задач
- схемы данных описания датасетов весьма консервативны. Нет даже разметки schema.org, не говоря уже о DCAT.

В целом проект выглядит проработанным, живым, но замершим в развитии.

Кстати, китайский проект SciDb сделан очень похожим образом. Также есть ПО институциональных репозиториев созданный структурой Китайской академии наук и централизованный архив/поиск индексирующий все эти репозитории.

Возвращаясь к IRDB, например, для Dateno проще автоматизировать сбор метаданных из японских репозиториев напрямую чем индексировать IRDB именно из-за отсутствия другого API кроме OAI.


Ссылки:
[1] https://irdb.nii.ac.jp
[2] https://irdb.nii.ac.jp/en/repositorylist
[3] https://schema.irdb.nii.ac.jp/en
[4] https://irdb.nii.ac.jp/oai

#opendata #data #openaccess #japan #china #openscience
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.

А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.

Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.

Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные

А в Китае очень много научных данных доступно через scidb.cn и findata.cn.

Ссылки:
[1] http://ifopendata.fudan.edu.cn

#opendata #china #data