Ivan Begtin
8.04K subscribers
1.72K photos
3 videos
101 files
4.41K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.me/science_policy/833
[2] https://t.me/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.

Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.

При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.

Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527

#privacy #china #facerecognition
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china
В рассылке AlgorithmWatch рассуждения [1] их репортёра Николя Кайзера-Бриля о том как Twitter опубликовал открытый код ранее. Ключевой вывод - большей открытости раскрытие именно этого кода не даёт, больше пользы от поста в блоге Twitter о том как устроены алгоритмы [2]. Я не до конца с ним согласен, всё таки я ближе к технологическим компаниям по складу ума, но, действительно, прозрачность складывается не только их кода.

Интересно и другое, он рассказывает про примеры раскрытия кода по запросу. Для тех кто не знает, в Европейском союзе действует Digital Services Act (DSA) [3] который позволяет исследователям запрашивать данные в целях общественного интереса у очень больших платформ. И уже была история когда французская организация CNAF отвечающая за государственное соцобеспечение по такому запросу опубликовала 7 миллионов строк кода, без сопровождающей документации и на запросы журналистов делали вид что документации не существует [4].

Всё это к тому что почувствуйте разницу в проблемах. В каких-то странах проблема в том что раскрывается слишком много кода и без документации, а в других что просто ничего не раскрывается. Первый вариант тоже не очень, но второй совсем плохой.

Ещё из полезного чтения:
- В Ирландии правительство пытается протащить быстрым образом закон разрешающий полиции использовать технологии распознавания лиц, но часть парламента сопротивляется [5]
- Во Франции служба аудиторов проверяет расходы в 3 миллиарда евро на стратегию Франции в области ИИ и выяснили что деньги тратили на короткие проекты, вместо долгосрочных [6] таких как образовательные программы
- В Швейцарии, в Лозанне местные власти запретили использовать распознавание лиц в общественных местах [7]

И, наконец, новости из Африки.

О том как Зимбабве строят государство тотальной слежки [8], на больших китайских кредитах, китайских технологиях и тд. Если кратко, то быстро и эффективно внедряют всё что возможно чтобы отслеживать всех без исключения и быстро разбираться со всеми кто имеет признаки оппозиционной деятельности.

А знаете почему Россия не Зимбабве? Потому что в России есть свои технологические компании по массовой слежки и достаточно денег чтобы не брать китайские кредиты.

Кстати, не могу не напомнить про проект по отслеживанию китайских технологических компаний в мире Mapping China’s Tech Giants [9] который делают в The Australian Strategic Policy Institute и собирают данные по всем известным китайским технологическим проектам в мире. Там есть наглядная карта, каждый может найти свою страну.

Они же анонсировали проект Critical Technology Tracker [10], я о нём расскажу через какое-то время. Он может быть даже поинтереснее мониторинга только Китая.

Ссылки:
[1] https://r.algorithmwatch.org/nl3/HCBGLxy-H3KfnMpjebKRLw
[2] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:L:2022:277:FULL&from=EN&pk_campaign=todays_OJ&pk_source=EURLEX&pk_medium=TW&pk_keyword=Digital%20service%20act&pk_content=Regulation%20
[4] https://www.nextinpact.com/article/28136/106298-les-allocations-familales-nous-ouvrent-code-source-leur-calculateur-daides
[5] https://www.irishtimes.com/crime-law/2023/04/06/oireachtas-committee-wants-to-scrutinise-use-of-facial-recognition-technology-by-gardai/
[6] https://www.nextinpact.com/article/71408/la-strategie-nationale-recherche-en-ia-passee-au-crible-cour-comptes
[7] https://algorithmwatch.ch/fr/lausanne-interdit-reconnaissance-faciale-lespace-public/
[8] https://globalvoices.org/2023/01/10/how-zimbabwe-is-building-a-big-brother-surveillance-state/
[9] https://chinatechmap.aspi.org.au
[10] https://techtracker.aspi.org.au

#privacy #zimbabwe #china #ai #ethics #twitter
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.

Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.

На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]

Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.

Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir

#china #technology #australia #data #ratings
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.

И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.

В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.

Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.

В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.

Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.

Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/

#opendata #china #data
В IPVM статья [1] о том как в Китае компания Dahua, с 2021 года, помимо классических услуг распознавания лиц и объектов, предоставляет ещё и AI платформу Jinn [2] в которой обещают что могут определять неработающих сотрудников, сотрудников на стройке без касок, людей курящих в помещении и ещё много чего. В том числе среди их продуктов обнаружили пример с распознаванием протестующих с баннерами. Неизвестно умеет ли их продукт считывать с лозунга текст, но умеет определять тех кто с ним стоит. После того как журналисты IPVM запросили у компании комментарии, то сразу же эти примеры исчезли. Причем скорее всего Dahua не единственный вендор с таким продуктом,

Ссылки:
[1] https://ipvm.com/reports/dahua-protestor-alarms
[2] https://ai.dahuatech.com/deviceOpenPlatform

#privacy #surveillance #china #ai
В рубрике как это устроено у них, в Гонконге 9 каталогов открытых данных. Основной из них - это государственный портал data.gov.hk [1] с более чем 5200 наборами данных, а также 3 геопортала:
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx

Геоданные также предоставляются властями города.

Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/

Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)

В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.

Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.

В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.

#opendata #hongkong #china
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая

Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.

Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.

В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.

Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services

#opendata #geodata #china #datasets
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.

Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.

Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.

Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0

#opendata #international #china #readings #datasets
Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.

У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.

А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.

Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.

И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].

Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm

#opendata #data #finances #china #banking
Немногие за пределами Китая знают о масштабах публикации там научных данных. При этом данных там много и, помимо таких проектов как SciDB и Findata существуют десятки крупных научных репозиториев с данными.

В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.

Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.

В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.

А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.

Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn

#opendata #china #datacatalogs #datasets
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china
В рубрике как это устроено у них японский национальный репозиторий результатов научных работ IRDB [1], включает 4.1 миллиона ресурсов, большая часть которых это научные статьи, журналы, публикации после конференций и так далее, а также боле чем 124 тысячи наборов исследовательских данных. Чем то IRDB схож с проектами OpenAIRE и SciDB, хотя и сделан весьма консервативнее.

В его основе харвестинг метаданных из более чем 700 научных репозиториев [2] в которых реализовано раскрытие метаданных по стандарту JPCOAR [3] через интерфейсы OAI-PMH. Сам репозиторий IDRB также поддерживает доступ через OAI-PMH [4] и с ним можно взаимодействовать программным образом.

Простота харвестинга во многом обеспечена тем что значительная часть репозиториев - это репозитории на базе open-source ПО Weko3 которое является доработанной версией репозитория для научных публикаций Invenio 3 и который и обеспечивает предоставление метаданных через OAI и, также, предоставляет иные, API упрощающие сбор данных. Weko3 был разработан Национальным институтом информатики Японии, той же организацией что управляет IRDB

У IRDB множество недостатков тоже есть:
- нет bulk download, нельзя скачать базу целиком
- нет документированного API, даже интерфейс OAI не упомянут на сайте, не говоря уже о том что он устарел для большей части задач
- схемы данных описания датасетов весьма консервативны. Нет даже разметки schema.org, не говоря уже о DCAT.

В целом проект выглядит проработанным, живым, но замершим в развитии.

Кстати, китайский проект SciDb сделан очень похожим образом. Также есть ПО институциональных репозиториев созданный структурой Китайской академии наук и централизованный архив/поиск индексирующий все эти репозитории.

Возвращаясь к IRDB, например, для Dateno проще автоматизировать сбор метаданных из японских репозиториев напрямую чем индексировать IRDB именно из-за отсутствия другого API кроме OAI.


Ссылки:
[1] https://irdb.nii.ac.jp
[2] https://irdb.nii.ac.jp/en/repositorylist
[3] https://schema.irdb.nii.ac.jp/en
[4] https://irdb.nii.ac.jp/oai

#opendata #data #openaccess #japan #china #openscience
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.

А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.

Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.

Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные

А в Китае очень много научных данных доступно через scidb.cn и findata.cn.

Ссылки:
[1] http://ifopendata.fudan.edu.cn

#opendata #china #data
Один из крупнейших проектов с большими научными данными - это Китайский национальный центр биоинформации через сайт которого доступно более 53 Петабайт геномных данных [1]. Причём в августе 2021 года их было всего 5 Петабайт и сейчас можно наблюдать 10-кратный рост за 3 года. Такими темпами к концу 2025 года будут все 100 Пб.

Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.

Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].

Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875

#opendata #china #data #genomics #bigdata
Кстати, помните я расхваливал китайский портал/агрегатор научных данных SciDb [1].

Так вот его можно не только хвалить. После некоторого исследования его содержания он на 100% соответствует подходу "главное не быть, а казаться". Из заявленных 10 миллионов наборов данных лишь 18 тысяч имеют присоединённые файлы и загружены через сам портал, ещё 754 тысячи собраны из нескольких больших открытых порталов научных данных таких как Zenodo и PANGAEA, а всё остальное - это просто слепок поискового индекса по данным DataCite, сильно замусоренного и, объективно, без значимых метаданных, да и не факт что ссылки на сами данные.

С одной стороны, как обидно, так мало данных. С другой стороны, очередное подтверждение приоритетов индексирования и то что из SciDB можно собирать только те данные что туда были загружены. Другой вопрос что отфильтровать их непросто.

В любом случае удивительно то что вместо индексации тех же геномных данных китайцы пошли по этому пути.

Ссылки:
[1] https://www.scidb.cn

#opendata #china #datasets #datacatalogs