Ivan Begtin
8.07K subscribers
1.54K photos
3 videos
100 files
4.29K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В догонку про геоданные и их доступность, Максим Дубинин из NextGIS поделился статистикой их проекта [1] облачного, не государственного, сервиса российского происхождения и международной аудиторией:
- 2.1 млн скачиваний клиента для QGIS, 0.7 за последний год
- 1800+ сервисов
- 1000 авторов сервисов из 50 стран.

Максим был одним из основателей ГИС Лаборатории [2], одного их первых сообществ по открытым геоданным в России. А NextGIS - это пример коммерческого проекта на открытых данных и с открытым кодом для общественной пользы.


Ссылки:
[1] https://www.facebook.com/maxim.dubinin/posts/10111830597349957
[2] https://gis-lab.info/

#opendata #tech #opensource
Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.

Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].

Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.

Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.

Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.

Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.

Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN

#opendata #data #politicalscience #science #datascience
Lichess [1], бесплатный сервер с открытым кодом для игры в шахматы, основан в 2010 году французским программистом Тибо Дюплесси [2] предоставляет открытые данные по всем играм начиная с января 2013 года [3].

Открытые данные объёмом 434 гигабайта в сжатом виде охватывают 1.7 миллиарда партий. Данные можно скачать напрямую файлами или через торрент, они представлены в PGN формате [4], стандарте публикации шахматных записей ещё с 1993 года.

А в декабре к этим данным добавились данные шахматных паззлов [5], пока небольшого объёма.

Все данные доступны под лицензией Creative Commons Zero.

И, вдогонку, для тех кто интересуется шахматами, существует также, база PGNMentor с играми крупнейших игроков и с крупнейших турниров [6] с охватом, как минимум, с 1886 года.

Ссылки:
[1] https://lichess.org/about
[2] https://ru.wikipedia.org/wiki/Lichess
[3] https://database.lichess.org/
[4] https://en.wikipedia.org/wiki/Portable_Game_Notation
[5] https://lichess.org/blog/X-S6gRUAAGjNX4ki/new-puzzles-are-here
[6] http://www.pgnmentor.com/files.html

#opendata #chess
С 9 января в США наблюдается резкий всплеск популярности альтернативных мессенжеров и соцсетей. Помимо Telegram'а, это ещё и Signal, CloutHub, MeWe и Rumble.

Источник: Axios (http://axios.com), данные из Apptopia (http://apptopia.com)

#mobile
Archive Team, команда которая архивирует умирающие проекты, оказалась в центре внимания после того как они запустили процесс архивации Partler'а [1].

Впрочем публичная позиция Archive Team в том что архивируется только общедоступное, а взломанный контент из Parler они не используют [2]

Лично я считаю что архивы вне политики, какой бы ни был контент, он должен быть сохранён.

Ссылки:
[1] https://www.vice.com/en/article/n7vqew/the-hacker-who-archived-parler-explains-how-she-did-it-and-what-comes-next
[2] https://twitter.com/archiveteam/status/1349054073589420036

#opendata #data #archives
Продолжаю читать книгу Nadia Engball Working in Public: The Making and Maintenance of Open Source Software [1] и среди многих интересных вопросов которые которые она упоминает:
- зависимость миллионов проектов, от нескольких которыми управляет всего несколько десятков человек. Пример npm - c 3 500 000 зависимыми проектами и командой разработки из 35 человек.
- то что открытый код - это экономика внимания (attention economy), но это не про внимание клиента (customer attention), а внимания авторов проекта (maintainers attention).
- важный фактор усталости open source разработчиков не от открытости, а от необходимости участия в обсуждениях (participatory), поэтому часто важно делать общедоступным контент, но ограничивать коммуникации комфортным кругом обсуждения.

И, чуть ли не самое главная тема, любого открытого проекта - это tragedy of public good. Когда если что-то бесплатно, то оно немедленно сверхиспользуется.

Я знаю немало проектов по открытости которые на открывают код или данные или другие наработки зная что кто-то будет, либо сверхиспользовать их результаты, либо изначально обладает низкой этикой и большими ресурсами, финансовыми или административными, и открытые наработки использует исключительно в свою пользу, без пользы сообществу.

Много такого наблюдаю вокруг. Помню что Ричард Столлман ещё несколько лет назад говорил и писал об использовании инструментов GNU в облачных сервисах, при этом без раскрытия кода этих сервисов (явный кивок в сторону Google и др.). Или когда Wikipedia используется всеми дата-корпорациями в своих контентных, исследовательских и иных проектах, но финансируют её очень немногие и финансирования всегда недостаточно.

Таких кейсов очень много и они, часто, имеют отраслевую/предметную специфику. Когда понятно что в какой-то области любые проекты по открытости будут быстро "каннибализированы", то и оказывается что там есть коммерческие проекты и дефицит открытых.

С открытыми данными отдельная история в том что они не укладываются бизнес модели и модели существования сообществ открытого кода. Если открытый код - это сборка инструментов, то открытые данные - это топливо.

Это можно сравнить как если Вы выпиливаете деревянные игрушки, то:
- открытый код - это инструкции как делать бесплатно инструменты не покупая их в магазине
- открытые данные - это бесплатные пиломатериалы.

Хотя это и не совсем корректно, поскольку данные не являются исчерпаемым ресурсом, тем не менее отличие от исходного кода существенно с точки зрения существования сообществ, устойчивых бизнес моделей и тд.

Беда многих сообществ открытого кода по всему миру была в том что без институционализации выжили немногие. Часть активистов были поглощены цифровыми командами государства (digital teams, data teams) такими как 18F, AlphaGov, TeamDigitale по разным странам (не стоит их путать с отечественными "командами цифровой трансформации", ничего общего между ними нет). Другая часть активистов ушли в коммерческий или долгосрочные международные проекты изменяющиеся в сторону проектов на данных.

И модель устойчивости существования открытых данных как сообщества сообществ до сих пор не найдена.

Эта рефлексия по поводу открытости есть у всех. Внутри нашей команды мы тоже часто думаем над тем что можно и нельзя открывать, что можно делать общественным проектом, а что нельзя делать потому что одним из ключевых вопросов возникает вопрос: "Вот мы опубликуем вот этот код/данные, но ты же понимаешь что ими просто воспользуются вот эти ... или вот эти ... и нам даже спасибо не скажут". В нашем отечестве это важный вопрос, отражающийся на качестве любой профессиональной работы. Отсев профанации на институциональном уровне не происходит или происходит так что лучше бы не происходил.

Как бы то ни было, опыт сообществ открытого кода важен для понимания что происходит в других сообществах открытости.

Ссылки:
[1] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33

#OpenData #opensource #books
Что читать, на кого подписаться в телеграм, я порекомендую несколько каналов и сообществ, не стесняйтесь присылать дополнения если есть что-то важное.

Данные и технологии
- @data_csv - блог о журналистике данных
- @data_events - о мероприятиях про данные онлайн
- @data_publication - дата-сторителлинг и журналистика данных
- @infoculture - официальный канал АНО Инфокультура, о данных, приватности, проектах на открытых данных
- @roskomsvoboda - Роскомсвобода, регулярные публикации о приватности
- @urbandata - канал о данных в городском отражении
- @zatelecom - Михаил Климарев с регулярными новостями и мнением о телекоме
- @Persdata - канал с новостями персональные данные

Государство
- @begtin - мой канал где я пишу про технологии, данные, цифровизацию и наборы данных
- @auditgov - официальный телеграм канал Счетной палаты
- @CynExp - канал "Координация профанации", нелицеприятно о цифровой трансформации
- @drussia - канал издания Цифровая Россия
- @ahminfin - канал Ольги Пархимович об открытых государственных финансовых данных

Бизнес
- @businesssecrets - канал Секрет Фирмы, среди публикаций много о том что касается цифрового бизнеса
- @CNewsDaily - канал CNews, трансляция новостей с их сайта
- @tadviser - канал издания TAdvizer, чаще про ИТ бизнес около гос-ва

Чаты и дискуссии
- @opendatarussia - чат по открытым данным в России
- @gislab - чат про открытые геоданные
- @begtinchat - чат к этому каналу, обсуждение открытых данных, госполитики и тд.

Зарубежное
- @bloomberg - канал Bloomberg на английском языке

За рамками привычных тем
- @fond_khamovniki - канал Фонда Хамовники со ссылками на публикации и анонсами о том как устроена Россия на самом деле

#lists
Честно говоря только в виде исключения, надеюсь, которое больше повторяться не будет, я дам ссылку на интервью Игоря Ашманова от 14 января в газете Завтра [1] из которого можно сделать много разных выводов, главный из которых, лоббирование "чебурнета" (вспоминаем 147-ю серию Масяни [2], замкнутой на себя росссийской сети).

Многое можно сказать про прозвучавшие там тезисы. Я сформулирую три ключевых:
1. Мир движется не по спирали и "ретрофутуристика" российского ИТ через рефлексию несбывшегося в СССР вызывает только улыбку. Не только Россия, весь мир существует в с очень сильной степенью связности которая только нарастает.
2. Утверждать что зарубежные решения в России внедрялись только через взятки, это, мягко говоря, лукавство. Во первых потому как, если говорить на чистоту, то весь интеграторский бизнес в России коррупционен, это, как бы, "условие входа на рынок". А во вторых технологическая зрелость, поддержка и ещё много чего в российских продуктах много лет оставляли желать лучшего.
3. Красивые картины великого российского будущего без зарубежных сервисов разбивается в то что на это нужна политическая воля такого масштаба которого у нас в стране нет, не было и не ожидается. Если даже полиция сопровождающая кортеж президента координируется через WhatsApp, то о чём мы говорим?

Мне ещё много что есть сказать по этому поводу, но я сдержусь, напомню лишь что Игорь Ашманов был доверенным лицом Президента РФ на выборах 2018 года и входит в совет по правам человека сейчас. Несмотря на то что он не является лицом принимающим решения в нашем государстве, недооценивать его разрушительные усилия не стоит.

Если кто-то хочет обсудить подробнее, приглашаю в чат @begtinchat

Ссылки:
[1] https://zavtra.ru/blogs/tcifrovaya_bitva_nachalas_
[2] https://www.youtube.com/watch?v=F4HvmHdtpiw

#it #russia #freakmonitor
Где искать данные исследователям?

- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру

Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM

#opendata #researchdata
Интересные наборы данных по всему миру:

- Не только в России проходят киберучения, есть жанр игр кибернетической безопасности. Например, кибернетические игры CyberCzech проходят в Чехии [1].
По их итогам появляются публикации включающие данные о сетевом трафике и логах [2]. В мире, не в России, довольно часто подобные данные публикуются вместе с научными статьями по итогам учений.

- Коллекция геоданных о 3-й французской республике (1870–1940) [3], 16 наборов данных с объектами и границами территорий.

- Данные системы World Factbook [4] были преобразованы энтузиастом в JSON формат удобный для быстрого использования [5].

- База переворотов Coup D'état Project (CDP) [6], в Университете Иллинойса, включает набор данных о более чем 900 переворотах [7]

Ссылки:
[1] https://csirt.muni.cz/projects/cyber-czech
[2] https://www.sciencedirect.com/science/article/pii/S2352340920306788
[3] https://dataverse.harvard.edu/dataverse/TRF-GIS
[4] https://www.cia.gov/library/publications/the-world-factbook/
[5] https://github.com/factbook/factbook.json
[6] https://clinecenter.illinois.edu/project/research-themes/democracy-and-development/coup-detat-project-cdp
[7] https://databank.illinois.edu/datasets/IDB-0433268

#datasets
Согласие без власти ведет к неравенству.

Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.

В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.

Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.

Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.

А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf

#ai #regulation #discussion #papers #ubuntu
Малоизвестный, но существующий, проект OpenDRI по открытости данных в области изменения климата и природных катастроф [1]. С довольно сильным фокусом в сторону открытости городов и их планирования [2], включая проект Open Cities Africa [3] по сбору городских данных африканских крупнейших игроков.

А кроме того у OpenDRI есть индекс открытости данных [4] где ничего нет о России, но есть многое о других странах. Видно что этот индекс всё ещё в активной разработке и незавершён, хотя ему и несколько лет, но помнить о нём немаловажно, тем более что российское МЧС сложно назвать открытым ведомством да и данные по изменению климата официальные органы власти в России не то чтобы не публикуют, но системно этого не делают.

Я отмечу что многие международные проекты шаг за шагом преобразуют свои индексы и создают новые индексы сравнений стран по открытости данных и этому можно только порадоваться.

Ссылки:
[1] https://opendri.org/
[2] https://opendri.org/resource/planning-an-open-cities-mapping-project/
[3] https://opencitiesproject.org/
[4] https://index.opendri.org

#opendata #hazards #opendri
Блеск и нищета бирж торговли данными, за всё время существования множества стартапов в этой нише, большая часть не выживает. Например, в Европейском каталоге DataLandscape перечислено 14 компаний [1]. Часть из них официально закрылись, часть отключили сайты и продукты и ещё часть, на самом деле, не про биржу данных. Относительно живым выглядит только Davex [2]. Они хотя и предлагают продукт на глобальном рынке данных, но куда больше веры в том что бизнес модель у них через создание и поддержку отраслевых проектов, вроде портала торговли данными в Японии JDEX [3]

За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.

2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.

Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.

И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.

Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp

#data #datamarket #dataexchanges
На фоне исхода из Facebook'а, WhatsApp и других систем быстрой связи, важно помнить что одним из ключевых изменений в коммуникациях за последние лет 10 было в то что системы обмена сообщения слились с социальными сетями и медиа платформами. Это сочетание оказалось эффективным для бизнес моделей, даже если эти бизнес модели только про инвестиционные деньги, но для пользователя это превратилось в те самые цифровые монополии.

Здесь важно напомнить что у Telegram'а эта же особенность присутствует в полной мере и исход значительной части медиапроизводителей и медиапотребителей в телеграм - это ни в коем случае не подтверждение защищённости личной переписки.

Для защищённой переписки есть специализированные инструменты:
- Signal - один из наиболее популярных защищённых мессенжеров
- Keybase - специализированная соцсеть для шифро-панков, просто для всех кто озабочен собственной безопасностью и приватностью. Команду Keybase в мае 2020 года купил Zoom. Если хотите безопасно мне написать то мой аккаунт в Keybase ibegtin
- Cyph - единственный близкий к Keybase продукт по функционалу. Активно развивается после покупки Keybase со стороны Zoom

Большая подборка защищённых мессенжеров есть на PrivacyTools

#privacy #tools
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Госпрограммы стали доступнее: новый раздел портала «Госрасходы» поможет разобраться в финансировании.

На сайте проекта «Госрасходы» Счетной палаты РФ заработал новый раздел, посвященный финансированию действующих Государственных программ РФ (https://spending.gov.ru/gp/). В разделе представлены данные о 46 действующих на сегодняшний день программах, которые сгруппированы в пять направлений в соответствии с принятой классификацией. Раздел предоставляет агрегированные данные за 2016-2020 годы из трех основных источников: паспорта госпрограмм, данные соглашений о субсидиях, данные государственных закупок.

Пользователи портала-агрегатора «Госрасходы» получили доступ к сведениям о крупнейших контрактах и субсидиях в разрезе госпрограмм. В карточке каждой из них можно сравнить данные о плановом и фактическом бюджете (на основе данных Казначейства России) с суммой контрактов и субсидий за рассматриваемый период. Доступны агрегированные и детализированные сведения по соответствующим подпрограммам, главным распорядителям бюджетных средств (ГРБС), расходующим средства в рамках госпрограммы, и о получателях этих средств.

К примеру, в рамках госпрограммы «Развитие образования» основная доля расходов (57%) ожидаемо приходится на Минобрнауки и Минпросвещения. Лидеры в списке получателей средств: МГУ им. М.В. Ломоносова (38,5 млрд за 2016-2020 годы) и НИУ ВШЭ (30 млрд за тот же период).

В разделе «Аналитика» портала «Госрасходы» дополнены индикаторы, рассчитанные на основе данных о контрактах, заключаемых на федеральном уровне в рамках госпрограмм (https://spending.gov.ru/analytics/indicators/):

- Доля субъектов МСП среди исполнителей контрактов по госпрограммам;
- Распределение контрактов по суммам контрактов по госпрограммам;
- Объем и доля средств, уходящих 1% крупнейших поставщиков по госпрограммам;
- Конкурентность закупок по госпрограммам;
- Доля единственных поставщиков по госпрограммам;
- Доля социально ориентированными некоммерческими организациями (СОНКО) среди исполнителей контрактов по госпрограммам.

Индикаторы рассчитаны по годам, начиная с 2016-го. Для каждого из них приводится методика расчета, а данные для самостоятельного анализа можно скачать в формате CSV.
А вот и анонс нового раздела "Госпрограммы" на портале Госрасходы [1], проекта Счетная палата Российской Федерации

Он сделан по аналогии с предыдущим разделом "Национальные проекты" и его цель в том чтобы сделать декомпозицию госпрограммы по контрактам, субсидиям, участникам и получателям.

Декомпозиция эта непростая в виду того что современный бюджет - это почти полностью госпрограммы контрактов там миллионы, но полезная с точки зрения того чтобы понимать то как распределяются средства.

Пытливый читатель быстро обнаружит госпрограммы и подпрограммы в которых есть чуть ли не 100% государственной монополии и большая часть средств уходила от одной до 10 организаций.

Ссылки:
[1] https://ach.gov.ru/news/novyy-razdel-na-portale-gosraskhody-gosprogrammy-stali-bolee-ponyatnymi
[2] https://spending.gov.ru/gp/

#spending #opendata #opengov #achgovru