Ivan Begtin
7.98K subscribers
1.76K photos
3 videos
101 files
4.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Что характерно:
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.

Ссылки:
[1] https://t.me/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] http://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS

#data #datainfrastructure
Данные о 10 миллионах полетах самолётов в 2020 году [1] собраны краудсорсингом через OpenSky Network и публикуются в открытом доступе для анализа последствий COVID-19 [2]. Общий объём данных - 4.6 GB в сжатом виде и 61.4 GB в распакованном виде.

Уже есть примеры визуализации [2], но, несомненно есть те кто придумает новые. Обратите также внимание что в этой версии набора данных у всех самолетов уникальный анонимизированный номер, но, в его предыдущей редакции был номер ICAO24 и хвостовой номер самолёта (если он известен) [3]

Эти данные могут, также, заинтересовать и журналистов расследователей заинтересованных в полетах не только отдельных политиков, олигархов, но и с анализом больших данных.

Ссылки:
[1] https://zenodo.org/record/4419082
[2] https://traffic-viz.github.io/scenarios/covid19.html
[3] https://zenodo.org/record/3928550

#opendata #flights
Прекраснейшая визуализация [1] Codex Atlanticus (Атлантического кодекса) Леонардо Да Винчи [2] из более чем 1119 страниц текста и иллюстраций.

В визуализации все его материалы просистематизированы, классифицированы и разделены по хронологии.

Авторы работы The Visual Agency [3], они же публикуют данные проекта в CSV формате [4]

Проекту уже не меньше 1.5 лет, его авторы получили за него несколько престижных премий.

Лично я отнес бы его, как и многие другие проекты по визуализации, к цифровому культурному наследию. К сожалению, недолговечному, потому что пройдет 5-10 лет, сменятся технологии и не факт что останется и сайт и возможность видеть его теми средствами что мы сейчас используем.

Ссылки:
[1] https://codex-atlanticus.it
[2] https://en.wikipedia.org/wiki/Codex_Atlanticus
[3] https://thevisualagency.com/
[4] https://codex-atlanticus.it/data/Leonardo.csv

#visual #data #opendata #italy
Администрация Байдена опубликовала указ о научной честности [1] где декларируется необходимость применения принципов доказательной политики (от слова policy не politics) при принятии решений. А также в органах власти США появляется новая должность Chief science officer или по русски это "руководитель по науке" / "научный директор".

Фактически это возврат и развитие аналогичных принципов декларировавшихся Бараком Обамой и его указов о scientific integrity. И это, конечно, имеет прямое отношение к открытости науки финансируемой государством и открытости данных которые должны публиковаться по итогам исследований.

Ссылки:
[1] https://www.nextgov.com/analytics-data/2021/01/executive-order-creates-chief-science-officers-federal-agencies/171705/
[2] https://www.whitehouse.gov/briefing-room/presidential-actions/2021/01/27/memorandum-on-restoring-trust-in-government-through-scientific-integrity-and-evidence-based-policymaking/

#opendata #openaccess
В Германии в последние дни активно обсуждается и может быть усилено законодательство в защиту копирайта и могут быть введены фильтры на загрузку контента (upload filters). Об этом пишет Euroactive [1] с акцентом на то что это нарушает обещание правительства Германии 2-х летней давности. Правда, похоже, из-за общественного резонанса рассмотрение этого вопроса в прошедшую среду было отложено.

В любом случае можно наблюдать постепенное усиление правообладателей в давлении на крупнейшие цифровые платформы платформы и их пользователей.

Ссылки:
[1] https://www.euractiv.com/section/copyright/news/leak-german-government-reaches-agreement-on-copyright-law/

#copyright #germany
OpenCitation один из крупнейших инфраструктурных проектов по сбору данных о научном цитировании [1] на декабрь 2020 года включает:
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.

Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]

Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.

Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].

В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.

Ссылки:
[1] http://opencitations.net
[2] http://opencitations.net/download
[3] https://scoss.org/
[4] http://opencitations.net/querying

#openaccess #opendata #linkeddata
В 2015 году международная НКО Tactical Tech делали проект Trackography [1].
Это большое исследование национальных и местных СМИ на предмет передачи данных в другие страны.

Для этого они сделали робота который обращался к сайтам СМИ по ссылкам и определяли:
- где сайт хостится
- к каким хостам обращался браузер
- какие веб-трекеры установлены

Проекту уже более 6 лет, он минимум лет 5 не обновлялся, в нем охвачены только СМИ и то, по нынешним временам, далеко не самые популярные, но логика, методология и отчасти визуализация актуальны и сейчас.

Например, один из выводов по России
Russia: 77.78% of national media websites have connections which pass through the network infrastructure of the U.S and the UK.

Исходный код проекта и API полностью открыты [3]

Ссылки:
[1] https://trackography.org
[2] https://myshadow.org/trackography
[3] https://github.com/vecna/trackmap

#tracking #privacy #opendata
Этот год начался у всех с рефлексии о том как прошедший год, даже надежда на этот год была весьма скупой, но тем самым почти потерян был жанр прогнозов и предсказаний.

А такие предсказания есть, как минимум в части приватности, открытости и госуправления, да и про другие темы тоже.
Начну с приватности в привязке к нашим темам

Приватность 2021 году

1. Число госприложений в Google Play достигнет 100 за год(+56 к прошлому году)

Большая их часть будет создана региональными властями которые начнут плодить их массового в этом году, по 1-2 на регион. Они будут касаться госуслуг, единых билетов в музеи, доступа к бюджетам, дистанционной работы служащих, городских и областных гидов и так далее. Те кто поумнее будут покупать их на рынке и делать ребрендинг, остальные будут заказывать у системных интеграторов (с ожидаемым качеством). Примерно столько же приложений будет в AppStore

2. Практически все госприложения продолжат нарушать приватность

Они будут включать встроенные трекеры, запрашивать "опасные" разрешения, собирать избыточную информацию. Систематизированного регулирования этой деятельности не возникнет, а вот гражданских опасений будет много и призывов к тому чтобы запретить использовать эти приложения тоже много. Причем это гражданское беспокойство всё более будет выходить за пределы маргинализированных групп,

3. Тема приватности будет политизироваться

Неизбежно в этом году политика и приватность (политика как politics, не policy) проникнет в публичное пространство. Либо госслежка станет предметом общественных расследований, либо проникнет в активную (публичную) политику, в митинги и тд., либо и то и то вместе, но в любом случае ИТ будет продолжать политизироваться в России в ближайший год и далее. Включая обвинения крупнейших ИТ и телекоммуникационных компаний в слежке в пользу гос-ва.

4. Цифровой профиль заработает до конца года

К нему подключатся банки, крупные цифровые платформы и тд. многие будут приобретать банковские и иные лицензии и лоббировать расширение доступак профилю на другие типы компаний. С одной стороны это станет аналогом бюро кредитных историй с возможностью узнать кто получал доступ к твоим данных, с другой стороны - это будет во многих случаях очень забюрократизированным и единственным способом доступа к информации о гражданине. Очень многое будет зависеть от итоговой реализации.

5. Появятся централизованные государственные шлюзы для доступа в Интернет

Это системы централизованной фильтрации контента, через DNS сервера и прокси сервера. Выход из сетей школ, бюджетных учреждений и тд. постепенно будет переводится на работу только через эти шлюзы, вместо локальной фильтрации контента. Постепенно такие шлюзы будут основным способом фильтрафии в Рунете.

#privacy #foresight #prognoz
Дмитрий Медведев говорит в интервью что обособление России от Интернета возможно [1], а центр НАТО CCDCOE в декабрьской публикации Cyber Threats and NATO 2030: Horizon Scanning and Analysis [2] на полном серьёзе рассуждает о рисках для НАТО от такой формы национальной самоизоляции России.

И здесь хотелось бы сказать о том как умеют "петь хором" милитаристы всех мастей, для кого-то "угроза НАТО", для кого-то "Красная угроза", но суть одна, выгодно это только тем кто ничего не понимает в современной экономике, которая и есть цифровая экономика, не в красивых речах, а в фактической форме своего существования.

В целом даже обсуждать это со стороны публичных лиц - это опасный тренд. Если подобное событие реально станет вероятным то большая часть российских "национальных цифровых чемпионов", либо превратятся в тыкву, или де-факто станут государственными (либо жестко подотчетными гос-ву), либо убегут в другие юрисдикии, если успеют.

Ни один из этих сценариев оптимистичным не является.

Ссылки:
[1] https://tass.ru/obschestvo/10587069
[2] https://ccdcoe.org/uploads/2020/12/Cyber-Threats-and-NATO-2030_Horizon-Scanning-and-Analysis.pdf

#foresight #prognoz #runet
Ещё вчера по запросу "приватность госприложений" [1] или "Инфокультура" Яндекс выдавал ссылки на десятки новостей в СМИ, начиная со статьи в РБК, а теперь ни одной новости, ни одного события.
Если это сбой, то он очень похож на цензуру, а если это цензура то она совсем не похожа на сбой.
А я то всё ждал когда цензоры придут по нашу душу.

Или всё таки сбой? Что-то странное в общем, просветите кто знает.

P.S. Те кто мониторят Яндекс говорят мне что это не сбой, по другим запросам всё нормально, то есть цензура?

Ссылки:
[1] https://newssearch.yandex.ru/yandsearch?text=%D0%BF%D1%80%D0%B8%D0%B2%D0%B0%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%B3%D0%BE%D1%81%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9&rpt=nnews2&grhow=clutop
[2] https://www.rbc.ru/politics/27/01/2021/60115c209a79476980008933

#media
Исследование об исследованиях Systematic Mapping of Open Data Studies: Classification and Trends From a Technological Perspective [1] о том как открытые данные используются в научном сообществе, науке, как сообщества устроены и как ведутся исследования на открытых данных.

Большая работа, значительный акцент на semantic web и других темах связанных с работой с данными.

Вот несколько важных выводов:
1. До 2009 года публикации про открытые данные были незначительны и их рост начался с инициативы Барака Обамы и Open Government Directive.
2. В целом интерес исследователей к теме открытых данных снизился, скорее всего из-за того что тема перестала быть "хайповой", но при этом всё ещё актуальна.
3. Ключевые темы исследований: "software engineering", "government", "semantic web".
4. В исследованиях много тематических пробелов, на которые стоит обратить внимание. Многие темы не раскрыты.

Ссылки:
[1] https://ieeexplore.ieee.org/document/9326343

#opendata #government #ieee #study
Уже почти год Австралийская комиссия по делам конкуренции и потребителей ведет расследование платформ цифровой рекламы и 28 января опубликовали промежуточный отчет [1] с анализом устройства рынка рекламы, какие компании и в каком объёме на нём представлены, как реально устроены процессы размещения и управления рекламой на платформах, у потребителей, в системах подготовки рекламных кампаний и так далее. Это огромный содержательный и подробный отчет на 222 страницы с акцентом австралийский цифровой рынок, но актуально и для других стран, во многих случаях картина идентичная.

Это исследование закончится к августу 2021 года и можно ожидать нового регулирования AdTech индустрии не только в Австралии, но и в мире, поскольку законодатели по всему миру смотрят друг на друга и на то у кого же получится регулировать цифровые корпорации и каким образом.

Ссылки:
[1] https://www.accc.gov.au/system/files/Digital%20Advertising%20Services%20Inquiry%20-%20Interim%20report.pdf

#privacy #dmp #adtech #australia
Solving public problems [1] свежий открытый бесплатный онлайн курс от The Govlab в NYU Tandon School of Engineering. Курс нацелен, в первую очередь, на государственных служащих целью которых является решение общественных проблем современными методами - использованием данных и вовлечением граждан.

Курс основан на свежей книге Solving Public Problems: A Practical Guide to Fix Government and Change the World [2] за авторством Beth Noveck, также посвященной вопросам решения общественных проблем.

Я могу порекомендовать, и курс, и книгу, с тем что тут важно помнить что этот курс и книга про технологии и их применение, созданы без учёта национальных особенностей или законодательных ограничений в разных странах, таких как Россия.

Ссылки:
[1] https://engineering.nyu.edu/news/governance-lab-launches-online-course-innovation-social-good
[2] https://solvingpublicproblems.org/book.html

#governance #thegovlab #courses
Digital Services Act [1] [2] законопроект внесённый в Европарламент 15 декабря 2020 года по новому регулирует отношения стран Евросоюза и цифрового рынка. Прочитать его стоит всем кто оказывает онлайн услуги для жителей Евросоюза или оказывается в юрисдикции Евросоюза.

Для тех у кого нет времени читать документ целиком, сейчас доступна презентация с семинара который Еврокомиссия проводила для балканских стран [3]

Ключевое в нем:
1. Платформы обязаны сообщать правоохранителям о нелегальной активности пользователей, нелегальность регулируется национальным законодательством стран ЕС.
2. У каждой организации регулируемой DSA должен быть юридический представитель в ЕС (не путайте с представительством компании). Регулирование как и GDPR становится экстерриториальным
3. Объём регулирования пропорционален размеру компании
4. Вводится понятие "очень больших платформ" и большой объём отчетности и требований по прозрачности который эти платформы должны соблюдать.
5. При нарушении наказание может составить штраф до 6% оборота.

Бизнес активно против, например, можно почитать позицию Developers Alliance, ассоциации разработчиков ПО [3] где они против регулирования как DSA, так и другого законопроекта, DMA, даже сильнее регулирующего цифровой бизнес.

Я бы обратил особое внимание на определение "очень больших платформ" подвергающихся особому регулированию
‘Value set at 10% of the EU population (45 mil.), as a proxy value for the significant, systemic role and potential impact of such services.

Речь, конечно же, в первую очередь про Google, Facebook, Apple, Twitter и др.

Если говорить про компании значимые в России то вопрос в том подпадут ли под это регулирование Яндекс и Mail.ru как "очень большие платформы" или только как "онлайн платформы" (тогда поменьше отчетности, но тоже есть)?

В любом случае после принятия DSA российские платформы где есть пользователи из Евросоюза должны будут соответствовать этому регулированию и возникнет ситуация неравенства когда граждане евросоюза в "российских платформах" будут иметь больше прав чем граждане России.

Ссылки:
[1] https://en.wikipedia.org/wiki/Digital_Services_Act
[2] https://ec.europa.eu/digital-single-market/en/digital-services-act-package
[3] https://www.euractiv.com/wp-content/uploads/sites/2/2021/02/05_TAIEX-DSA.pdf
[4] https://static1.squarespace.com/static/53864718e4b07a1635424cdd/t/5f9c392507d2aa5b3e812459/1604073766050/Developers+Alliance+Standpoints+On+The+Digital+Services+Act+And+The+Digital+Markets+Act+Next.pdf

#privacy #eu #regulation #digitalmarket
Net Zero Challenge [1] конкурс питчей проектов и идей по использованию открытых данных в борьбе с изменением климата от Open Knowledge Foundation [2].

Поддержку конкурсу оказывают Microsoft и МИД Великобритании (UK Foreign, Commonwealth & Development Office)

Призы до $1000, то есть, проект явно нацелен на отдельных разработчиков и активистов, а не на организации. Правда, сумма, прямо скажем, совсем не велика и скорее он нацелен на активистов в развивающихся странах. И на тех кто хочет добавить международного признания и ещё немного денег для своих уже созданных проектов.

Ссылки:
[1] https://www.netzerochallenge.info/
[2] https://blog.okfn.org/2021/01/28/launching-the-net-zero-challenge-a-global-pitch-competition-about-using-open-data-for-climate-action/

#opendata #climate
State of ... / Состояние в области ... - это большой жанр отчетов/докладов/обзоров состояний в отраслях который стал довольно популярен у исследовательских и коммерческих компаний в последние несколько лет. Я регулярно пишу со ссылками на подобные обзоры за 2020 годи собрал их в одну публикацию:

- State of CSS - состояние CSS фреймворков за 2020 год
- State of JS - состояние движков для Javascript за 2020 год
- State of devops - состояние технологий development operations от Puppet
- State of remote work - состояние дистанционной работы от Buffer
- State of AI 2020 - состояние технологий искусственного интеллекта
- State of profession - состояние профессий от GreenBiz
- State of work - состояние труда от Workfront
- State of European Tech - состояние технологий в Евросоюзе
- State of Application Service - состояние рынка приложений от F5
- State of Enterprise open source - состояние корпоративного рынка открытого кода от Redhat
- State of software supply chain - состояние рынка цепочки поставок ПО от Sonatype
- State of API - состояние рынка API от Postman

Не привожу примеры State of data science, их ежегодно публикуют пара десятков организаций

Все эти обзоры разного качества, но примерно одного жанра. Хотя они и составляются с оглядкой на рыночное позиционирование компаний, но имеют ценность в отличие от большей части маркетинговых материалов. Лично я отслеживаю пару десятков источников таких отчетов поскольку часто в них проскакивают тренды которые по другому не найдешь и не заметишь.

В принципе же такого жанра не хватает во многих отраслях в России.

#reports #data #tech
У DuckDuckGo (УткаУткаИди) [1] есть проект Tracker Radar в котором они собирают сведения о наиболее часто встречающихся скриптах и трекерах третьих сторон и используют эту информацию для последующего составления блок-листов.

На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].

Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).

Данные интересные, на них можно построить немало исследовательского и полезного.

Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json

#opendata #privacy