Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.

Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.

Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.

Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.

Для полноты картины осталось посмотреть на их инструкции для разработчиков.

Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.me/begtin/4470

#opendata #dataportals #china #shanghai
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.me/science_policy/833
[2] https://t.me/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.

Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.

При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.

Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527

#privacy #china #facerecognition
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china
В рассылке AlgorithmWatch рассуждения [1] их репортёра Николя Кайзера-Бриля о том как Twitter опубликовал открытый код ранее. Ключевой вывод - большей открытости раскрытие именно этого кода не даёт, больше пользы от поста в блоге Twitter о том как устроены алгоритмы [2]. Я не до конца с ним согласен, всё таки я ближе к технологическим компаниям по складу ума, но, действительно, прозрачность складывается не только их кода.

Интересно и другое, он рассказывает про примеры раскрытия кода по запросу. Для тех кто не знает, в Европейском союзе действует Digital Services Act (DSA) [3] который позволяет исследователям запрашивать данные в целях общественного интереса у очень больших платформ. И уже была история когда французская организация CNAF отвечающая за государственное соцобеспечение по такому запросу опубликовала 7 миллионов строк кода, без сопровождающей документации и на запросы журналистов делали вид что документации не существует [4].

Всё это к тому что почувствуйте разницу в проблемах. В каких-то странах проблема в том что раскрывается слишком много кода и без документации, а в других что просто ничего не раскрывается. Первый вариант тоже не очень, но второй совсем плохой.

Ещё из полезного чтения:
- В Ирландии правительство пытается протащить быстрым образом закон разрешающий полиции использовать технологии распознавания лиц, но часть парламента сопротивляется [5]
- Во Франции служба аудиторов проверяет расходы в 3 миллиарда евро на стратегию Франции в области ИИ и выяснили что деньги тратили на короткие проекты, вместо долгосрочных [6] таких как образовательные программы
- В Швейцарии, в Лозанне местные власти запретили использовать распознавание лиц в общественных местах [7]

И, наконец, новости из Африки.

О том как Зимбабве строят государство тотальной слежки [8], на больших китайских кредитах, китайских технологиях и тд. Если кратко, то быстро и эффективно внедряют всё что возможно чтобы отслеживать всех без исключения и быстро разбираться со всеми кто имеет признаки оппозиционной деятельности.

А знаете почему Россия не Зимбабве? Потому что в России есть свои технологические компании по массовой слежки и достаточно денег чтобы не брать китайские кредиты.

Кстати, не могу не напомнить про проект по отслеживанию китайских технологических компаний в мире Mapping China’s Tech Giants [9] который делают в The Australian Strategic Policy Institute и собирают данные по всем известным китайским технологическим проектам в мире. Там есть наглядная карта, каждый может найти свою страну.

Они же анонсировали проект Critical Technology Tracker [10], я о нём расскажу через какое-то время. Он может быть даже поинтереснее мониторинга только Китая.

Ссылки:
[1] https://r.algorithmwatch.org/nl3/HCBGLxy-H3KfnMpjebKRLw
[2] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:L:2022:277:FULL&from=EN&pk_campaign=todays_OJ&pk_source=EURLEX&pk_medium=TW&pk_keyword=Digital%20service%20act&pk_content=Regulation%20
[4] https://www.nextinpact.com/article/28136/106298-les-allocations-familales-nous-ouvrent-code-source-leur-calculateur-daides
[5] https://www.irishtimes.com/crime-law/2023/04/06/oireachtas-committee-wants-to-scrutinise-use-of-facial-recognition-technology-by-gardai/
[6] https://www.nextinpact.com/article/71408/la-strategie-nationale-recherche-en-ia-passee-au-crible-cour-comptes
[7] https://algorithmwatch.ch/fr/lausanne-interdit-reconnaissance-faciale-lespace-public/
[8] https://globalvoices.org/2023/01/10/how-zimbabwe-is-building-a-big-brother-surveillance-state/
[9] https://chinatechmap.aspi.org.au
[10] https://techtracker.aspi.org.au

#privacy #zimbabwe #china #ai #ethics #twitter
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.

Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.

На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]

Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.

Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir

#china #technology #australia #data #ratings