В Евросоюзе окончательно объединили портал данных стран ЕС и портал данных структур Евросоюза в единый портал data.europa.eu [1] с более чем 1.1 миллионами наборов данных.
На что стоит обратить внимание:
1. Наличие измерение качества данных как минимум на уровне оценки достаточности метаданных к наборам данных.
2. Подавляющее число данных - это геоданные. Их там под 90% от всех наборов данных.
3. Данные агрегируются из 81 каталога, национальных каталогов стран, регионов стран и организационных структур и проектов ЕС.
4. Только у одного каталога всё отлично с метаданными, у 16 хорошо и у всех остальных достаточно или плохо [2]
5. Все порталы ЕС отдают списки наборов данных по стандарту DCAT-AP [3] и это позволяет агрегировать данные на центральном портале.
Также любопытно свежее исследование об устойчивости инфраструктуры открытых данных и модели Community Data Spaces [4], там пока только прототип из скриншотов, но логика про построение Github'а для данных
Ссылки:
[1] https://data.europa.eu
[2] https://data.europa.eu/mqa?locale=en
[3] https://op.europa.eu/en/web/eu-vocabularies/dcat-ap
[4] https://data.europa.eu/sites/default/files/sustainability-data-portal-infrastructure_6_distributed-version-control.pdf
#opendata #eu #data
На что стоит обратить внимание:
1. Наличие измерение качества данных как минимум на уровне оценки достаточности метаданных к наборам данных.
2. Подавляющее число данных - это геоданные. Их там под 90% от всех наборов данных.
3. Данные агрегируются из 81 каталога, национальных каталогов стран, регионов стран и организационных структур и проектов ЕС.
4. Только у одного каталога всё отлично с метаданными, у 16 хорошо и у всех остальных достаточно или плохо [2]
5. Все порталы ЕС отдают списки наборов данных по стандарту DCAT-AP [3] и это позволяет агрегировать данные на центральном портале.
Также любопытно свежее исследование об устойчивости инфраструктуры открытых данных и модели Community Data Spaces [4], там пока только прототип из скриншотов, но логика про построение Github'а для данных
Ссылки:
[1] https://data.europa.eu
[2] https://data.europa.eu/mqa?locale=en
[3] https://op.europa.eu/en/web/eu-vocabularies/dcat-ap
[4] https://data.europa.eu/sites/default/files/sustainability-data-portal-infrastructure_6_distributed-version-control.pdf
#opendata #eu #data
EU Vocabularies
DCAT-AP for data portals in Europe - EU Vocabularies - Publications Office of the EU
The DCAT Application profile for data portals in Europe (DCAT-AP) is a specification based on the Data Catalogue vocabulary (DCAT) for describing public sector datasets in Europe.
Sandeep Uttamchandani
Sandeep Uttamchandani автор весьма неплохой книги "The Self-Service Data Roadmap: Democratize Data and Reduce Time to Insight" о работе с платформами управления данными в статье Why is reliable metadata becoming important? [1] пишет о изменении подхода к работе с метаданными и переход от "схема-при-записи" к "схема-при-чтении" когда вместо подготовки описания метаданных при их загрузке в хранилище, они загружаются как есть, а уже после загрузки метаданные добавляются. Подход близкий к замене классической стратегии обработки данных ETL на ELT, когда большая вместо обработки данных до загрузки работа с данными, включая их преобразования, происходят уже внутри облака/озера данных и тд.
Иначе говоря вначале получаем данные в любом виде и только после того как их загрузили в хранилище начинаем их преобразовывать, документировать и описывать метаданные.
Мои мысли во многом коррелируют с тем что автор пишет, работа с метаданными должна адаптироваться под задачи для которых они собираются. Самая популярная/актуальная тема каталогизации данных сейчас - это машинное обучение и вокруг неё сейчас и массово открываются проекты корпоративных каталогов данных.
Ссылки:
[1] https://towardsdatascience.com/why-reliable-metadata-is-becoming-important-f29e01b01d4d
#data #metadata
Sandeep Uttamchandani автор весьма неплохой книги "The Self-Service Data Roadmap: Democratize Data and Reduce Time to Insight" о работе с платформами управления данными в статье Why is reliable metadata becoming important? [1] пишет о изменении подхода к работе с метаданными и переход от "схема-при-записи" к "схема-при-чтении" когда вместо подготовки описания метаданных при их загрузке в хранилище, они загружаются как есть, а уже после загрузки метаданные добавляются. Подход близкий к замене классической стратегии обработки данных ETL на ELT, когда большая вместо обработки данных до загрузки работа с данными, включая их преобразования, происходят уже внутри облака/озера данных и тд.
Иначе говоря вначале получаем данные в любом виде и только после того как их загрузили в хранилище начинаем их преобразовывать, документировать и описывать метаданные.
Мои мысли во многом коррелируют с тем что автор пишет, работа с метаданными должна адаптироваться под задачи для которых они собираются. Самая популярная/актуальная тема каталогизации данных сейчас - это машинное обучение и вокруг неё сейчас и массово открываются проекты корпоративных каталогов данных.
Ссылки:
[1] https://towardsdatascience.com/why-reliable-metadata-is-becoming-important-f29e01b01d4d
#data #metadata
Medium
Why is reliable metadata becoming important?
The need to think holistically about metadata for your datasets
Эту рассылку [1] я решил посвятить такой специфической теме как государственные реестры, регистры, справочники и иные, как правило, общедоступные базы данных. Как правило их появление - это отражение какой-либо деятельности регулируемой государственными органами области деятельности.
Ссылки:
[1] https://begtin.substack.com/p/16
#data #opendata #api
Ссылки:
[1] https://begtin.substack.com/p/16
#data #opendata #api
Substack
#16. Государственные реестры
Эту рассылку я решил посвятить такой специфической теме как государственные реестры, регистры, справочники и иные, как правило, общедоступные базы данных. Как правило их появление - это отражение какой-либо деятельности регулируемой государственными органами…
Случилось неприятное, но ожидаемое. Портал graduate.edu.ru с данными по трудоустройству и доходам выпускников ВУЗов закрылся [1]. Никакого публичного анонса не было, просто по ссылкам теперь выдаются ошибки.
Очень жаль, несмотря на устаревшие данные альтернатив у него небыло. Открытые данные из этого портала, конечно же, Минобрнауки не публикует и никогда ранее не публиковало.
Ссылки:
[1] http://graduate.edu.ru/
#opendata #edu
Очень жаль, несмотря на устаревшие данные альтернатив у него небыло. Открытые данные из этого портала, конечно же, Минобрнауки не публикует и никогда ранее не публиковало.
Ссылки:
[1] http://graduate.edu.ru/
#opendata #edu
Все уже прошлись по рейтингу цифровой трансформации ФОИВов [1], только я пишу последним (с).
Мне много что есть сказать, но пока я сформулирую ключевую мысль как то что рейтинг - это оружие слабых или не встроенных в иерархию, не имеющих прямого руководящего воздействия. Рейтинг придумывают чтобы воздействовать косвенно, а при прямом влиянии осуществляют мониторинг. А при мониторинге непонятно зачем ему медийность и кого вообще волнуют места в рейтинге.
Рейтинг должен иметь прозрачную методику, составляться независимо и точно не в целях сравнения подчинённых структур. Я сам как составитель рейтингов вижу их большую ограниченность. И самая главная ограниченность в том что текущая структура ФОИВов и распределение полномочий - это политическая, а не функциональная конструкция. У нас ФОИВами являются одновременно Минфин и Фельдъегерская служба, а с недавних пор ещё и Пробирная палата. Можно ли их вообще сравнивать?
И даже если их сравнить, то сравнивать надо и социальный эффект от, прости Господи, цифровой трансформации Минздрава или Минобрнауки и от цифровой трансформации Фельдегерской службы.
Признавать такие рейтинги - это признавать удачной и допустимой текущую структуру полномочий и статусы ФОИВов, а я вот не готов подобное признавать. Есть много разных критериев оценки и мониторинга внедрения современных технологий в органы власти и рейтингами системных изменений не достичь.
Ссылки:
[1] https://tass.ru/ekonomika/11248119
#digital #government
Мне много что есть сказать, но пока я сформулирую ключевую мысль как то что рейтинг - это оружие слабых или не встроенных в иерархию, не имеющих прямого руководящего воздействия. Рейтинг придумывают чтобы воздействовать косвенно, а при прямом влиянии осуществляют мониторинг. А при мониторинге непонятно зачем ему медийность и кого вообще волнуют места в рейтинге.
Рейтинг должен иметь прозрачную методику, составляться независимо и точно не в целях сравнения подчинённых структур. Я сам как составитель рейтингов вижу их большую ограниченность. И самая главная ограниченность в том что текущая структура ФОИВов и распределение полномочий - это политическая, а не функциональная конструкция. У нас ФОИВами являются одновременно Минфин и Фельдъегерская служба, а с недавних пор ещё и Пробирная палата. Можно ли их вообще сравнивать?
И даже если их сравнить, то сравнивать надо и социальный эффект от, прости Господи, цифровой трансформации Минздрава или Минобрнауки и от цифровой трансформации Фельдегерской службы.
Признавать такие рейтинги - это признавать удачной и допустимой текущую структуру полномочий и статусы ФОИВов, а я вот не готов подобное признавать. Есть много разных критериев оценки и мониторинга внедрения современных технологий в органы власти и рейтингами системных изменений не достичь.
Ссылки:
[1] https://tass.ru/ekonomika/11248119
#digital #government
ТАСС
Росстат, Ространснадзор и МЧС стали лидерами рейтинга цифровой трансформации
В аппарате вице-премьера Дмитрия Чернышенко сообщили, что на последних строчках рейтинга - Минвостокразвития, ФСИН, Росморречфлот, Росмолодежь, Росархив и Федеральное агентство по делам национальностей
2 года назад я писал о том как органы власти используются пиратскую версию MS Office [1]. Это анализ который я проделывал прошерстив сайты несколько десятков крупных ФОИВов и проверив файлы в форматах .doc, .docx, .xls, .xlsx, .ppt, .pptx на предмет их метаданных. По умолчанию пиратское ПО оставляет метки в метаданных файлов о том какая пиратская группа разместила сборку MS Office. Неопытные пользователи на этом попадаются.
Спасибо читателю моего канала в телеграм, обнаружившему что в материалах по "регулированию просвещения" [2] все те же метки пиратского ПО.
Я бы сказал что смешно, не будь это так грустно. Когда-то я не стал продолжать копать в этой теме исходя из того что все давно или избавились от пиратского ПО, или перешли на облачную версию MS Office или на "импортозамещённые продукты".
Цифровая трансформация говорите ... ? Ну, вы меня понимаете.
Надо повторять этот анализ.
Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://regulation.gov.ru/projects#npa=115396
#piracy #government
Спасибо читателю моего канала в телеграм, обнаружившему что в материалах по "регулированию просвещения" [2] все те же метки пиратского ПО.
Я бы сказал что смешно, не будь это так грустно. Когда-то я не стал продолжать копать в этой теме исходя из того что все давно или избавились от пиратского ПО, или перешли на облачную версию MS Office или на "импортозамещённые продукты".
Цифровая трансформация говорите ... ? Ну, вы меня понимаете.
Надо повторять этот анализ.
Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://regulation.gov.ru/projects#npa=115396
#piracy #government
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Смотрю на "Бюджет для граждан Санкт-Петербурга 1993 г." и удивляюсь, как он почти 30 лет назад мог быть более открытым, понятным и структурированным, чем большинство современных бюджетов для граждан (БДГ) регионов и муниципалитетов (до сих пор БДГ часто представлены в виде презентаций, перегруженных терминологией и содержащих только общие суммы расходов/доходов, неинформативный для граждан).
В БДГ Санкт-Петербурга 1993 г. можно узнать:
- об увеличившейся в 14 раз сумме на содержание госорганов по сравнению с 1992 г.;
- об увеличившихся с 572 млн до 16,2 млрд руб. расходах на содержание правоохранительных органов;
- о соотношении закрепленных доходов и дотаций для каждого района города, абсолютных суммах доходов и доходов на 1 жителя района;
- о поставках и недопоставках каждого вида общественного транспорта, дотациях на проезд одного пассажира наземным транспортом и метрополитеном и о доходах предприятий городского транспорта.
И не могу в очередной раз не отметить, что я до сих пор удивлена тому, что 4 года назад Минфин России и Комитет финансов Санкт-Петербурга на запрос с просьбой помочь найти "некий документ 90-х годов, похожий на бюджет для граждан Санкт-Петербурга", не просто идентифицировали его, но и нашли в архиве, отсканировали и прислали.
Традиционно делюсь ссылкой на файл с бюджетом для граждан, а заодно и спойлерю "Цифровой архив госфинансов", который мы планируем запустить в рамках проекта ГосЗатраты: https://www.dropbox.com/s/xwamnhxki3oy8f1/БДГ%20Санкт-Петербург.1993.pdf
В БДГ Санкт-Петербурга 1993 г. можно узнать:
- об увеличившейся в 14 раз сумме на содержание госорганов по сравнению с 1992 г.;
- об увеличившихся с 572 млн до 16,2 млрд руб. расходах на содержание правоохранительных органов;
- о соотношении закрепленных доходов и дотаций для каждого района города, абсолютных суммах доходов и доходов на 1 жителя района;
- о поставках и недопоставках каждого вида общественного транспорта, дотациях на проезд одного пассажира наземным транспортом и метрополитеном и о доходах предприятий городского транспорта.
И не могу в очередной раз не отметить, что я до сих пор удивлена тому, что 4 года назад Минфин России и Комитет финансов Санкт-Петербурга на запрос с просьбой помочь найти "некий документ 90-х годов, похожий на бюджет для граждан Санкт-Петербурга", не просто идентифицировали его, но и нашли в архиве, отсканировали и прислали.
Традиционно делюсь ссылкой на файл с бюджетом для граждан, а заодно и спойлерю "Цифровой архив госфинансов", который мы планируем запустить в рамках проекта ГосЗатраты: https://www.dropbox.com/s/xwamnhxki3oy8f1/БДГ%20Санкт-Петербург.1993.pdf
В рубрике интересные наборы данных.
Для тех кто интересуется почтовой статистикой, на сайте международного почтового союза доступна статистика почтовых служб [1] с 1980 по 2019 годы по всем странам мира. Интересных цифр там много, есть с чем сравнивать, а если выбрать формат для экспорта то можно получить их в машиночитаемом виде.
Коллекция скандалов вокруг конгрессменов США с 1980 по 2018 годы, всего 316 скандалов сексуального, денежного, политического и иного характера [2]. Ух, как жаль что в российских политических реалиях никто такую базу не рискнёт собрать и соблюсти подчёркнутый нейтралитет.
Ссылки:
[1] https://www.upu.int/en/Universal-Postal-Union/Activities/Research-Publications/Postal-Statistics
[2] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/BID3QM
#opendata #post #politics
Для тех кто интересуется почтовой статистикой, на сайте международного почтового союза доступна статистика почтовых служб [1] с 1980 по 2019 годы по всем странам мира. Интересных цифр там много, есть с чем сравнивать, а если выбрать формат для экспорта то можно получить их в машиночитаемом виде.
Коллекция скандалов вокруг конгрессменов США с 1980 по 2018 годы, всего 316 скандалов сексуального, денежного, политического и иного характера [2]. Ух, как жаль что в российских политических реалиях никто такую базу не рискнёт собрать и соблюсти подчёркнутый нейтралитет.
Ссылки:
[1] https://www.upu.int/en/Universal-Postal-Union/Activities/Research-Publications/Postal-Statistics
[2] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/BID3QM
#opendata #post #politics
Harvard Dataverse
Congressional Scandals (1979-2018)
This dataset compiles information about scandals associated with sitting members of the United States House of Representatives and the United State...
Свежий доклад ОЭСР "Good Practice Principles for Data Ethics in the Public Sector" [1] о принципах этики данных в госсекторе. Документ, в основном, из благопожеланий и именно принципов, без разбора конкретных кейсов и практики. Но и в таком виде он полезен для отсылки в документах конкретных исследований.
Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
#opendata #dataethics #oecd
Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
#opendata #dataethics #oecd
Мало кто знает что у компании Yahoo устойчивая репутация разрушителя интернет культуры. Об этом в статье в Atlantic "Yahoo, the Destroyer" [1].
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
The Atlantic
Yahoo, the Destroyer
How the historic company became known as a bumbling villain of internet culture
Много лет, во всех своих публикациях, я стараюсь выдерживать баланс взаимодействия государством и людьми государства и критикой того что происходит в госуправлении. Иногда это получается лучше, иногда хуже, в целом задача, честно скажу, очень непростая, но я не занимаюсь политической деятельностью, не симпатизирую ни одной партии (кроме незарегистрированной Пиратской партии) и когда сталкиваюсь с тем или иным безобразием творимым в понятной мне области жизни, не реагировать не умею.
Иногда это превращается в публикацию которая совершенно неожиданно получает резонанс. Например, так было с "латиницей в госзакупках" более 10 лет назад и ещё с десятками других исследований/расследований/находок часть из которых публичны. Самые "идиотские" и бессмысленные я публикую, также как и те случаи которые затрагивают общественные интересы, например, это вопросы слежки через мобильные приложения. Но, на каждую опубликованную находку, есть 3-4 о которых я совершенно сознательно ничего не пишу. Например, недавно один орган власти опубликовал базу данных с более чем миллионом email'ов граждан. Вместо того чтобы придать этому огласку, я связывался с ними и объяснял почему этого не стоит делать. Или, например, какое-то время назад один орган власти умудрился публиковать в открытом доступе паспортные данные физ. лиц часть из которых входили в группу особо защищаемых по закону, куда сложнее было объяснять им почему так делать нельзя, но в итоге удалось. И таких случаев много, их нельзя выносить на публику не потому чтобы скрыть что-то, а чтобы не нанести дополнительного вреда.
Например, когда-то когда я делал исследование по пиратскому софту, на самом деле я делал его ещё в 2017-2018 годах, и показывал в одном из органов власти которого нет в списке опубликованных в тексте что я размещал. Там сотрудники попросили проверить все их территориальные органы и ИТ службы прошерстили чуть ли не каждый компьютер. Это когда возникает коммуникация и когда есть ощущение что проделываемая работа реально необходима.
Но чаще коммуникация не возникает. Исследование по поводу утечек персональных данных из государственных информационных систем я передавал сотрудникам Роскомнадзора что Минцифры ещё при прошлом министре именно надеясь на исправление ситуации без огласки. Толку оказалось никакого. Также как и со многими другими темами о которых я пишу - по ним нет ответственных, в государственной системе просто некому реагировать на эти проблемы. В результате, без "медийного рычага" повысить значимость какой-то конкретной темы практически невозможно. А медийный рычаг, как правило, всегда на грани хайпожорства и потери части смысла ради медийности.
И, конечно, к великому моему сожалению, есть слишком много областей жизни по которым крайне сложно исправить что-либо поскольку они требуют системных решений, а принимать эти решения попросту некому. В результате занимать государственную позицию защищая органы власти всё сложнее, госуправление в России одновременным пересечением полномочий у многих госорганов и тем что существуют гигантские лакуны в которых управления, либо нет, либо оно настолько архаично что лучше бы его небыло.
Честно говоря, в этих размышлениях, нет какой-то финальной точки или стартовой мысли для последующих действий.
Когда-то у Google был лозунг Don't be evil, который я бы переиначил на Don't be evil, don't help others to be evil, don't let evil to be eviler.
#размышления
Иногда это превращается в публикацию которая совершенно неожиданно получает резонанс. Например, так было с "латиницей в госзакупках" более 10 лет назад и ещё с десятками других исследований/расследований/находок часть из которых публичны. Самые "идиотские" и бессмысленные я публикую, также как и те случаи которые затрагивают общественные интересы, например, это вопросы слежки через мобильные приложения. Но, на каждую опубликованную находку, есть 3-4 о которых я совершенно сознательно ничего не пишу. Например, недавно один орган власти опубликовал базу данных с более чем миллионом email'ов граждан. Вместо того чтобы придать этому огласку, я связывался с ними и объяснял почему этого не стоит делать. Или, например, какое-то время назад один орган власти умудрился публиковать в открытом доступе паспортные данные физ. лиц часть из которых входили в группу особо защищаемых по закону, куда сложнее было объяснять им почему так делать нельзя, но в итоге удалось. И таких случаев много, их нельзя выносить на публику не потому чтобы скрыть что-то, а чтобы не нанести дополнительного вреда.
Например, когда-то когда я делал исследование по пиратскому софту, на самом деле я делал его ещё в 2017-2018 годах, и показывал в одном из органов власти которого нет в списке опубликованных в тексте что я размещал. Там сотрудники попросили проверить все их территориальные органы и ИТ службы прошерстили чуть ли не каждый компьютер. Это когда возникает коммуникация и когда есть ощущение что проделываемая работа реально необходима.
Но чаще коммуникация не возникает. Исследование по поводу утечек персональных данных из государственных информационных систем я передавал сотрудникам Роскомнадзора что Минцифры ещё при прошлом министре именно надеясь на исправление ситуации без огласки. Толку оказалось никакого. Также как и со многими другими темами о которых я пишу - по ним нет ответственных, в государственной системе просто некому реагировать на эти проблемы. В результате, без "медийного рычага" повысить значимость какой-то конкретной темы практически невозможно. А медийный рычаг, как правило, всегда на грани хайпожорства и потери части смысла ради медийности.
И, конечно, к великому моему сожалению, есть слишком много областей жизни по которым крайне сложно исправить что-либо поскольку они требуют системных решений, а принимать эти решения попросту некому. В результате занимать государственную позицию защищая органы власти всё сложнее, госуправление в России одновременным пересечением полномочий у многих госорганов и тем что существуют гигантские лакуны в которых управления, либо нет, либо оно настолько архаично что лучше бы его небыло.
Честно говоря, в этих размышлениях, нет какой-то финальной точки или стартовой мысли для последующих действий.
Когда-то у Google был лозунг Don't be evil, который я бы переиначил на Don't be evil, don't help others to be evil, don't let evil to be eviler.
#размышления
Большой пост в блоге Microsoft об открытых данных "Building on a year of open data: progress and promise" [1] много разного интересного, в том числе политика корпорации в этом направлении на 2021 год, интересно что идёт за авторством Chief IP Counsel.
Microsoft пока единственная из крупнейших цифровых корпораций с явно декларируемой политикой по открытию данных и помощи в этом.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2021/04/29/open-data-campaign-anniversary-review/
#opendata
Microsoft пока единственная из крупнейших цифровых корпораций с явно декларируемой политикой по открытию данных и помощи в этом.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2021/04/29/open-data-campaign-anniversary-review/
#opendata
Microsoft On the Issues
Building on a year of open data: progress and promise - Microsoft On the Issues
Microsoft is sharing 10 key lessons from the first year of our Open Data Campaign to help other organizations of all sizes unlock the power of data. To address the challenges of tomorrow, we need to make it easier to open, share and collaborate around data…
Я довольно давно хочу написать про тему того насколько хорошо/плохо работает с данными Росстат как пример того как вообще с данными работают те органы власти которые должны с ними работать. Если про открытые данные у них всё стало куда лучше за последние годы и раздел "Открытые данные" [1] стал представлять какую-то ценность, но открытые данные - это лишь малая часть деятельности, так что поговорим про методическую работу.
Вот к примеру, ЕМИСС (fedstat.ru) [2], единый портал для публикации показателей десятками органов власти. По многим признаком хороший ресурс - данные публикуются как открытые, у каждого показателя есть паспорт, сведения о том как он актуализируется, возможность выгрузки в XML (специальный формат SDMX) и Excel и в целом кажется что неплохо. Когда начинаешь смотреть внутри, то возникает множество вопросов.
1. Данные актуализируются с очень большими задержками. Не все, но многие данные задерживаются в среднем на 1.5-2 года. Где-то это особенность методологии, но везде ли?
2. По любому показателю есть "просмотр по умолчанию" при котором отображаются не все параметры, а только несколько. Например, только последние годы и только несколько регионов. Это можно поменять в настройках отображения, но надо для этого делать доп. действия и это может показаться безобидным.
3. На самом деле этот "просмотр по умолчанию" не безобиден. Потому что экспорт данных по умолчанию из этого просмотра по умолчанию. Нет простого способа получить все значения показателя, нужны дополнительные действия и скрейперы или ручная выгрузка данных.
4. У Росстата, по совершенно неизвестной мне причине, нет системы управления нормативно справочной информацией. Это называют системы НСИ. Они есть у Минздрава, ФФОМС, Минцифры и ещё много где, но у Росстате нет. В результате, например, на около 7 тысяч показателей в ЕМИСС есть чуть менее 700 справочников (691 на сегодня). Они называются code lists, такие справочники есть, например, у Евростата, система RAMON [3], там 283 справочника при заметно большем числе, 10.5 тыс индикаторов. Из российских 691 справочника которые видны только внутри XML файлов у десятков если не более есть пересечения. Это справочники товаров, регионов и стран. Почему так? Может быть потому что работа с НСИ - это и есть огромная методологическая работа, а вести её некому.
5. Может быть это проблема конкретно ЕМИСС и в других случаях ситуация получше ? В витринах данных Росстата (showdata.gks.ru) [4] ситуация ещё хуже. Методических пояснений меньше, справочники вообще не приведены, экспорта в форматы включающие справочники (code lists) тоже нет. Только простые форматы CSV, XLS и тд. В других системах Росстата (общедоступных) нет и такого
Всем этим я хочу сказать что просто открывать данные недостаточно. Если их ведение в исходной системы должно быть вестись так чтобы их можно было использовать повторно, а это использование ограничено. Нельзя вот так просто, к примеру, взять показатели с ЕМИСС и попробовать собрать профиль региона, потому что справочников с регионами там более одного и они не связаны.
Ссылки:
[1] https://gks.ru/opendata/
[2] https://fedstat.ru
[3] https://ec.europa.eu/eurostat/ramon/index.cfm?TargetUrl=DSP_PUB_WELC
[4] https://showdata.gks.ru
#opendata #statistics #rosstat
Вот к примеру, ЕМИСС (fedstat.ru) [2], единый портал для публикации показателей десятками органов власти. По многим признаком хороший ресурс - данные публикуются как открытые, у каждого показателя есть паспорт, сведения о том как он актуализируется, возможность выгрузки в XML (специальный формат SDMX) и Excel и в целом кажется что неплохо. Когда начинаешь смотреть внутри, то возникает множество вопросов.
1. Данные актуализируются с очень большими задержками. Не все, но многие данные задерживаются в среднем на 1.5-2 года. Где-то это особенность методологии, но везде ли?
2. По любому показателю есть "просмотр по умолчанию" при котором отображаются не все параметры, а только несколько. Например, только последние годы и только несколько регионов. Это можно поменять в настройках отображения, но надо для этого делать доп. действия и это может показаться безобидным.
3. На самом деле этот "просмотр по умолчанию" не безобиден. Потому что экспорт данных по умолчанию из этого просмотра по умолчанию. Нет простого способа получить все значения показателя, нужны дополнительные действия и скрейперы или ручная выгрузка данных.
4. У Росстата, по совершенно неизвестной мне причине, нет системы управления нормативно справочной информацией. Это называют системы НСИ. Они есть у Минздрава, ФФОМС, Минцифры и ещё много где, но у Росстате нет. В результате, например, на около 7 тысяч показателей в ЕМИСС есть чуть менее 700 справочников (691 на сегодня). Они называются code lists, такие справочники есть, например, у Евростата, система RAMON [3], там 283 справочника при заметно большем числе, 10.5 тыс индикаторов. Из российских 691 справочника которые видны только внутри XML файлов у десятков если не более есть пересечения. Это справочники товаров, регионов и стран. Почему так? Может быть потому что работа с НСИ - это и есть огромная методологическая работа, а вести её некому.
5. Может быть это проблема конкретно ЕМИСС и в других случаях ситуация получше ? В витринах данных Росстата (showdata.gks.ru) [4] ситуация ещё хуже. Методических пояснений меньше, справочники вообще не приведены, экспорта в форматы включающие справочники (code lists) тоже нет. Только простые форматы CSV, XLS и тд. В других системах Росстата (общедоступных) нет и такого
Всем этим я хочу сказать что просто открывать данные недостаточно. Если их ведение в исходной системы должно быть вестись так чтобы их можно было использовать повторно, а это использование ограничено. Нельзя вот так просто, к примеру, взять показатели с ЕМИСС и попробовать собрать профиль региона, потому что справочников с регионами там более одного и они не связаны.
Ссылки:
[1] https://gks.ru/opendata/
[2] https://fedstat.ru
[3] https://ec.europa.eu/eurostat/ramon/index.cfm?TargetUrl=DSP_PUB_WELC
[4] https://showdata.gks.ru
#opendata #statistics #rosstat
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС России загрузила в Государственный информационной ресурс бухгалтерской (финансовой) отчетности данные за 2020 год по 2,3 млн организаций.
В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.
Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.
12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).
ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.
В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.
Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.
12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).
ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.
В блоге Signal пост о том как их команда попыталась разместить рекламу в Инстаграм с информацией о тех критериях по которым она подбиралась в рекламной сети Facebook [1]. Всё это чтобы показать то сколько информации Facebook собирает о пользователе.
Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.
Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)
Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/
#adtech #signal #ads #privacy #surveillance
Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.
Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)
Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/
#adtech #signal #ads #privacy #surveillance
Twitter покупает Scroll [1], компанию создателей Nuzzel [2], автоматизированной рассылки на основе Ваших интересов, интересов друзей в Twitter и тд. Очень удобный сервис, я пользовался им много лет, через него получаю около 25% всех новостей о которых пишу тут на своём канале. Например, последняя новость про эксперименты Signal с рекламой в Facebook оттуда же. Twitter судя по всему планируют сделать эти функции частью своей платформы, что, конечно, совсем неплохо.
Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.
В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.
Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li
#mailing #startups
Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.
В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.
Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li
#mailing #startups
Совсем свежий открытый проект по контролю качества данных soda-sql [1] от создателей платформы мониторинга качества данных Soda [2]. Помимо того что сама платформа выглядит интересно, хотя и не применима в российских условиях госпроектов, к примеру, но сделана она с правильными акцентами на наблюдаемость данных и автоматизацию контроля качества. А тут ещё и soda-sql, можно сказать что инструмент из коробки для оценки пропусков в данных и подсчёта десятка разных метрик для оценки их качества. Для тех кто собирает собственные технологические стеки работы с данными - этот инструмент будет удобным дополнением.
Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.
Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/
#data #dataquality
Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.
Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/
#data #dataquality
GitHub
GitHub - sodadata/soda-sql: Soda SQL and Soda Spark have been deprecated and replaced by Soda Core. docs.soda.io/soda-core/overview.html
Soda SQL and Soda Spark have been deprecated and replaced by Soda Core. docs.soda.io/soda-core/overview.html - sodadata/soda-sql
По поводу инициативы МВД по созданию приложений по борьбе с телефонными спамерами [1], давайте будем честными, когда государство приходит на рынки где есть лучшего качества частные решения - это почти всего имеет за собой одну из 3-х причин:
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.
А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.
Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.
Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov
#privacy #surveillance #mvd #russia
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.
А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.
Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.
Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov
#privacy #surveillance #mvd #russia
vc.ru
МВД до конца года запустит мобильный сервис, который будет предупреждать о звонках мошенников — Право на vc.ru
Его создание обойдётся почти в 45 млн рублей.