Ivan Begtin
8.09K subscribers
1.62K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минэкономразвития отключило портал открытых данных
Я регулярно хвалю зарубежный опыт, то там делают что-то полезное, то там, в общем может показаться что всё замечательно. Недавно я приводил пример с проблемами в доступности сведений о судебных решений в США, а в этот раз будет пример из Польши.

В Польше есть портал открытых данных Otwarte Dane [1] имеющий довольно высокие оценки в оценках зрелости открытых данных в странах Европейского союза [2], но обратим внимание на такой факт как то что на портале декларируется 18765 наборов данных ( Liczba danych ) от 138 поставщиков.

Но заглянув в раздел фильтры можно увидеть что там фильтр по категориям охватывает только около 1 тысячи наборов данных.

В итоге выяснилось что из 18 тысяч наборов данных чуть более 7500 - это маленькие файлы CSV помесячных данных опубликованных патентным ведомством Польши [3]. Конечно нет никаких оснований публиковать их с такой дробностью, а не одним набором.

Вот так делать не надо.

Ссылки:
[1] https://dane.gov.pl/pl
[2] https://t.me/begtin/2371

#data #opendata #poland
Я помню этот портал ещё с 2013 года, в 2014 году я писал о нём [1] и за все эти годы я про этот портал не могу сказать ничего хорошего.

Конечно, подобное можно пронаблюдать за многими государственными информационными системами. Но федеральный портал открытых данных - это "наша боль" вот уже 6 лет. Он был плохо сделан изначально и очень тяжело развивается (разваливается) все эти годы. И проблемы технические там вторичны по сравнению со смыслом организации портала и отрицательным отбором поставщиков его обслуживающих.

И в последние годы я перестал писать о нём только по причине того что было очевидно что его не "поддерживать и развивать" надо, а радикально переделывать и не совмещать технические работы с экспертными работами. Но на это Минэкономразвития решиться всё никак не может.

Так что мне про data.gov.ru писать уже надоело много лет, а вот Оле @ahminfin всё ещё не надоедает, за что ей и спасибо. Может и я когда-нибудь напишу на эту тему очень большой лонгрид.

Ссылки:
[1] https://old.begtin.tech/2014/03/27/ministerstvodraniheconomicheskihkotov/

#data #opendata #opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Хорошая новость: Минэкономразвития восстановил портал открытых данных (ну как "восстановил", реестра наборов данных как не было, так и нет).
Плохая новость: На портале открытых данных "задними числами" размещены новости (как будто они размещались на протяжении первого этапа госконтракта). Похоже, без РНП, ФАС и других органов и в этом году не обойтись. Главный вопрос: кто занимался "подделкой" публикации новостей: заказчик или поставщик?
В The Bell вышла заметка про стоимость расследования отравления Навального [1] с оценками того что как и сколько стоит на чёрном рынке купить информацию о человеке [1]. Всё это, не так дорого, в общей сложности сбор данных на 11 человек обошёлся чуть более миллиона. Что, впрочем, в любом случае было с нарушением российского законодательства, но показательно то насколько доступны эти данные и насколько отечественные правоохранители не способны предотвращать доступ к ним.

И здесь же, специально для тех кто считает что рядовому человеку ничего не грозит, в Lenta.ru время от времени проскакивают любопытные лонгриды и один из них «Тюрьма — это самый дорогой отель» [2] про профессионального мошенника. Чтение весьма познавательно и, если людям с небольшими доходами опасаться (возможно) почти нечего, то людям с доходами выше среднего ещё как есть чего бояться.

Я сам очень не люблю приводить примеры того как можно злоупотреблять персональными данными, но тут раз уж опубликовано, то почитайте.

Ссылки:
[1] https://thebell.io/million-za-vseh-skolko-stoilo-rassledovanie-bellingcat-o-navalnom
[2] https://lenta.ru/articles/2020/12/14/baltazar/

#privacy #crime #personaldata
Я, кстати, ранее это упоминал и не жаль напомнить ещё раз что один из лучших в мире порталов открытых данных с очень чётким целеполаганием - это Humanitarian Data Exchange [1] портал созданный UN OCHA (Управление по координации гуманитарных вопросов ООН) и где публикуется более 18 тысяч наборов данных необходимых в создании инструментов координации НКО оказывающих помощь на местах катастроф и бедствий.

Почему проект хорош и полезен? Помимо чёткого целеполагания, они реализуют:
- инструмент проверки данных [2]
- стандарт HXL для тегов для разметки запутанных данных [3]
- разметка данных по территориям [4], например, с Россией связаны 74 набора данных [5]
- кроме государственных и общественных организаций, многие наборы данные публикуются частными компаниями, например [6] [7]

Этот и подобные проекты - это ответ на вопрос "Может ли бизнес публиковать открытые данные?". Есть много случаев когда может и желает. Например, когда это хороший ценностный проект.

Ссылки:
[1] https://data.humdata.org/
[2] https://tools.humdata.org/wizard/#datacheck
[3] https://tools.humdata.org/examples/hxl/
[4] https://data.humdata.org/group
[5] https://data.humdata.org/group/rus
[6] https://data.humdata.org/organization/alhasan-systems-private-limited
[7] https://data.humdata.org/organization/esri

#opendata #opengov #un
Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?

Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].

ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница

Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.

Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/

#archives #personal #webarchive
Комментировать совсем не хочется, хочется задаться одним лишь вопросом - а откуда таки эта утечка?
Forwarded from in2security
Очередная крупная утечка персональных данных россиян.

На популярном англоязычном теневом форуме выставили на продажу персональные данные более 23 миллионов жителей Москвы и Московской области. База данных фонда обязательного медицинского страхования, содержащая ФИО, дату рождения, пол, регион проживания, регион страхования, номер и дату выдачи полиса ОМС, а также другие сведения, предлагается всем желающим всего за 990 долларов США. Согласно данным продавца, источником утечки является: ffoms.gov.ru.

Размещенный в открытом доступе образец продаваемых данных содержит сведения о 100 тысячах москвичей и жителях МО.
@In4security
Дайджест материалов про открытые данные и проекты на данных в мире:
- data.ed.gov [1] - портал открытых данных в сфере образования в США, включая данные по каждому колледжу, статистику и результаты мониторинга. Всего 226 наборов данных.
- неравенство чистого воздуха [2] публикация в Нью-Йорк таймс о разнице в загрязненности воздуха у двух детей в Индии: из бедной семьи и зажиточной. Очень наглядно и хорошо сделано
- визуализация контрактов на расходы при COVID-19 в Великобритании [3]
- реформа госконтрактации в Великобритании [4] в стороны большей открытости и простоты

Ссылки:
[1] https://data.ed.gov/
[2] https://www.nytimes.com/interactive/2020/12/17/world/asia/india-pollution-inequality.html
[3] https://www.nytimes.com/interactive/2020/12/17/world/europe/britain-covid-contracts.html
[4] https://www.gov.uk/government/news/new-plans-set-out-to-transform-procurement-providing-more-value-for-money-and-benefitting-small-business

#opendata #finances #government
Свежий текст в рассылке: #10. Инвентаризация государственных ИТ ресурсов

Инвентаризация чего-бы то ни было чем занимается государство во всей его совокупности органов власти, учреждений и иных организаций - это само по себе большая работа. Часто сопряженная с наказанием виновных и невиновных в отсутствии искомого.

12 декабря Правительством Михаила Мишустина была анонсирована большая инвентаризация ИТ систем в ведении органов власти. Это большая задача, скорее нужная и важная, чем бесполезная. В каком-то смысле запоздалая, но это претензия к предыдущему Правительству Д. Медведева. А вот сроки этой инвентаризации обозначены крайне жесткие, до 31 марта 2021 года необходимо проинвентаризировать практически все ИТ ресурсы ФОИВов. Сроки, скажу честно почти невыполнимые, но, в любом случае, надо смотреть на результаты.

Я ранее немного рассказывал про инвентаризацию государственных доменов, а сейчас настала пора поговорить об инвентаризации ИТ в государстве более серьёзно. В каких-то вопросах я буду излагать начиная с самых азов, для погружения в контекст ситуации и, по возможности, простыми словами.

Подробнее [1]

P.S. Несмотря на длинный текст он получился неполным и в ближайшие месяцы я ещё не раз вернусь к этой теме.

Ссылки:
[1] https://begtin.substack.com/p/10-

#it #inventory #data
15 декабря вышло Постановление Правительства №2109 [1] О Правительственной комиссии, уполномоченной на принятие решения об аккредитации удостоверяющих центров.

Те кто лучше погружён в эту тему, я уверен, лучше меня прокомментируют о том что это означает для рынка, регулирования в целом и так далее, а я обращу Ваше внимание на следующий абзац:

Предельное количество членов Правительственной комиссии составляет 22 человека, в том числе7 уполномоченных представителей автономной некоммерческой организации, на которую в соответствии с решением Правительства Российской Федерации возложены функции по мониторингу развития цифровой экономики и цифровых технологий и формированию прогнозов развития цифровой экономики и цифровых технологий

Что это за организация догадаться несложно, другой вопрос прецедента модели формирования Правительственных комиссий. Не решением внутри Аппарата Правительства, а на уровне НКО с частичным (или уже полным?) государственным участием и частичным корпоративным участием. Как я помню у других, более "ассоциативных" объединений предпринимателей, вроде РСПП или ТПП РФ, никогда таких полномочий не было.

Ссылки:
[1] http://government.ru/news/41147/#

#government #regulation
Вышел доклад Мирового банка об улучшении работы государств в части эффективности и прозрачности и борьбе с коррупцией
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.

Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption

#opendata #wb #russia #anticorruption
Свежая публикация об открытых данных в России в сборнике Open Government Data in Russia [1] за авторством Ольги Пархимович (@ahminfin). Много хороших примеров и изложение того что с открытыми государственными данными в России

Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22

#opendata #opengov
Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $5.95 миллионов [2].

Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.

Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.

Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/

#data #dataquality
Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за 76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.

Для поощрения наиболее бдительных доносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.

P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет когда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?

Ссылки:
[1] https://www.kommersant.ru/doc/4615863

#privacy #security #informers
В сегодняшнем анонсе Павла Дурова о монетизации Телеграм [1], ожидаемый выход его платформы на конкуренцию со Slack за корпоративных пользователей. Хочется надеяться что стоимость аккаунтов в Slack снизится и он начнёт, наконец-то, развиваться.

Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.

Ссылки:
[1] https://t.me/durov_russia/29

#telegram #russia
Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.

Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов

Минусы:
- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт
- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.

Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom
[2] http://cyph.com
[3] https://www.crunchbase.com/organization/cyph

#privacy #crypto
Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных - это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf

#privacy #data #germany
Хорошая новость что на сайте Минцифры начал обновляться реестр аккредитованных ИТ компаний [1] - за что им спасибо.

И не такая хорошая новость в том что реестр отечественного ПО и реестр заявок на регистрацию не публикуется как открытые данные и по сей день.

Поскольку реестр заявок изначально полнее чем реестр ПО, там и включенные и не включенные заявления, то по ссылке [2] можно скачать его с нашего портала открытых данных в форматах BSON или JSON lines.
В обычный эксель это не загрузишь, у одной заявки может быть более одного заявителя, так что используйте специальное ПО и загружайте данные, например, в MongoDB. Для всех кто хочет вручную или автоматически проанализировать зарегистрированное, поискать аномалии и тд. - это самое то.

Ну а на десерт дамп организаций зарегистрированных на портале Душевная Москва [3] который ведёт Комитет общественных связей Москвы. С их описанием, сайтами, контактами и тд. Мы это уже загружали и далее добавляем в наш общественный проект Открытые НКО [4] где можно работать с данными некоммерческих организаций, а заодно и каждый желающий может поработать с этими данными отдельно в этом дампе.


Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://ngodata.ru/dataset/reestrporeq
[3] https://ngodata.ru/dataset/dushmosorgs
[4] http://openngo.ru

#opendata #ngo #reestrpo #digital