Ivan Begtin
8.09K subscribers
1.66K photos
3 videos
100 files
4.36K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Результаты опроса https://t.me/begtin/3192 предварительные о судьбе ГосТеха:
71% - пессимистичны
25% - реалистичны
2% - оптимистичны

Что тут скажешь, независимый опрос показывает довольно мощный скепсис. Чтото не так со стартом проекта и с коммуникациями по его перспективам.
Вдогонку про регулирование ИИ. Я напомню документ доклада Верховного комиссара по правам человека ООН. Artificial intelligence risks to privacy demand urgent action – Bachelet [1] и прямая ссылка [2]. Этот документ о том что есть критические области такие как: правоохрана, нацбезопасность, уголовное производство и управление границами где использование ИИ особенно может привести к нарушению прав человека. Эти области точно не являются объектом "саморегулирования", они являются предметом юридического и нормативного самоограничения государства в их применении. Поэтому даже если есть некритические области применения ИИ где скорее значение имеет право потребителя, а не право человека, но как только в признании кодекса ИИ в России появляется государство (а оно появилось в лице вице-премьера и ещё в некоторых формах), то и возникает ситуация отсутствия этих самоограничений.

Я ещё раз повторюсь, кодексы декларируют базовые принципы, кому не нравится Библия, могут руководствоваться декларацией прав человека, а когда в кодексе прописано соответствие законам - это сразу девальвирует документ. А кто пишет законы? А что если эти законы несправедливы? А чем должны руководствоваться авторы законов? Законы в России - это не права, а контроль и надзор, чаще государственный, редко общественный. Но оценку на справедливость они не проходят, как и оценку на этику. Так чем руководствоваться законодателю, кодексом? Нет, этот кодекс для этого не годится.

Ссылки:
[1] https://www.ohchr.org/EN/NewsEvents/Pages/DisplayNews.aspx?NewsID=27469&LangID=E
[2] https://www.ohchr.org/EN/HRBodies/HRC/RegularSessions/Session48/Documents/A_HRC_48_31_AdvanceEditedVersion.docx

#ai #regulation
В рубрике "где не в России найти данные о России", Development portal (d-portal.org) [1] портал для навигации по сведениям раскрываемым крупнейшими международными фондами и иными институтами развития о финансировании проектов в развивающихся странах. Кроме стран Азии, Африки и Южной Америки, там есть и немало данных о проектах прошедших и идущих в странах Восточной Европы и СНГ.

Например, страница о России включает сведения о:
- 330 активных проектах
- 2564 завершенных проектах
- 37 организаций публикующих эти данные

Что важно, эти данные содержат не только сведения о средствах которые получают(-ли) некоммерческие и коммерческие организации организации в рамках программ развития, но и средства выделенные на государственные проекты. Например, на развитие второй очереди государственной системы статистики, проект заканчивается в декабре 2021 года или на модернизацию гидрометеорологических услуг, проект заканчивается в декабре 2022 года и многих других которые заинтересованные могут найти.

Все данные доступны как открытые данные в CSV, XML и JSON форматах, а также через SQL интерфейс.

Открытый код проекта доступен на Github, первоисточником данных является IATI Registry, реестр раскрытия сведения о проектах на развитие, включающий стандарт раскрытия этих данных.

В целом же D-Portal - это хороший пример реализации системы раскрытия сведений. С открытыми данными, API, открытым кодом и ещё и способом получения данных через SQL.

#opendata #data #development #world #iati
Forwarded from APICrafter
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.

Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.

Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
В рубрике Особо крупные наборы данных представляю, GeneralIndex - огромная база n-gram, последовательностей слов, собранная из 107 миллионов научных журнальных статей, состоит из 19,7 миллиардов строк извлеченных с помощью SpaCy. Невероятная по масштабу работа проделанная командой Public Resource.

Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.

Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?

За наводку спасибо Григорию Бакунову .

Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/

#opendata #data #datasets
Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language
Тем временем казахские СМИ тоже пишут про Гостех, только в Казахстане, но тоже на платформе Сбер'а [1]. Я лично недостаточно разбираюсь в казахских реалиях чтобы квалифицированно комментировать то что там пишут, но похоже что внутриполитические баталии там идут довольно сильные.

Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html

#govtech
Forwarded from APICrafter
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather
PrivaSeer [1] специальная поисковая система по 1.4 миллионам политикам приватности на английском языке. Создано командой Penn State College of Information Science and Technology, в качестве первоисточников используются наборы данных Free Company Dataset [2] и Common Crawl [3]. Собранный набор данных составляет более 13,85 гигабайт и его можно скачать как открытые данные [4] под лицензией CC BY-NC (свободно для некоммерческого использования).

Особенности поисковика в определении технологий указанных в политиках приватности, например, Cookies или Fingerprinting, выявление упоминания соответствия регулированию GDPR, Coppa, Privacy Shield, CalOPPA, а также поиск и фильтрация текстов по уровню сложности, для этого использовалась формула Flesch-Kincaid Reading Level.

Ссылки:
[1] https://privaseer.ist.psu.edu/
[2] https://docs.peopledatalabs.com/docs/free-company-dataset
[3] https://commoncrawl.org/
[4] https://bit.ly/2ZB6Y7F

#privacy #datasets #opendata
Иностранные интернет-компании обязали зарегистрировать личный кабинет

Правительство приняло Правила ведения личного кабинета.

- Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте Роскомнадзора и использовать его для взаимодействия с российскими госорганами.

Личный кабинет создается на сайте www.236-fz.rkn.gov.ru.
Для регистрации личного кабинета иностранцам необходимо подать в Роскомнадзор заявление.

Через личный кабинет иностранное лицо будет взаимодействовать с Роскомнадзором и ФАС - получать от них сообщения и передавать им документы и сведения.

Постановление Правительства РФ от 27 октября 2021 г. N 1837
- http://publication.pravo.gov.ru/Document/View/0001202110290004

*
Закон №236-ФЗ о регулировании иностранных компаний был принят ранее и вступил с 01.07.2021г
- https://t.me/gip_24/7107

Порядок размещения перечня и сам сайт были уже приняты ранее приказом РКН от 16.07.2021 № 129 -
- https://t.me/gip_24/7219

👉 В соответствии с частью 1 статьи 8 закона от 1 июля 2021 г. N 236-ФЗ "О деятельности иностранных лиц в информационно-телекоммуникационной сети "Интернет" Роскомнадзор обязан вести перечень иностранных лиц, осуществляющих деятельность в сети "Интернет" на территории Российской Федерации.

Сайт не работает. Списка лиц нет 🙅‍♂️🤷‍♂️
Ivan Begtin
Иностранные интернет-компании обязали зарегистрировать личный кабинет Правительство приняло Правила ведения личного кабинета. - Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте…
Статья о том как издание The Markup проверило сайт некоммерческой организации Planned Parenthood и обнаружили там 28 трекеров и 40 третьесторонних кук [1], особенность в том что Planned Parenthood - это одна из очень крупных НКО в США, с 200 миллионами посетителями их сайта за последний год. В статье поднимается вопрос о том что в США регулирование НКО в части приватности сейчас недостаточно, в то время как на их сайты приходят многие люди которые могут хотеть скрыть свою принадлежность к дискриминируемым группам или факты наличия у них определенных заболеваний. А получается что организация передает информацию о человеке десятке внешних компаний.

Что интересно, The Markup - это такое техножурналистское издание, регулярно публикующее статьи с данными и с фокусом на мониторинг Big Tech. Чтобы определить трекеры на сайте они сделали специальный инструмент Blacklight с помощью которого можно проверить наличие трекеров на сайте. Можно увидеть эти трекеры для Plannedparenthood.org [3] к примеру.

Конечно, такие инструменты охватывают, в первую очередь международных крупных игроков вроде Google, Facebook, Tower Data, Criteo и других, но некоторых российских тоже умеют. Подробнее The Markup писали о том как они разрабатывали Blacklight [3] и что в целом это не так уж сложно при существующей инфраструктуре и множестве источников сведений о трекерах и компаниях их создающих.

Посмотрим на крупнейшие благотворительные фонды в России:
- Фонд Подари Жизнь https://themarkup.org/blacklight?url=podari-zhizn.ru - 2 трекера и 3 внешних куки
- Фонд продовольствия Русь https://themarkup.org/blacklight?url=foodbankrus.ru - 6 трекеров и 5 внешних кук
- Русфонд - https://themarkup.org/blacklight?url=rusfond.ru - 8 трекеров
- Благотворительный фонд помощи детям https://themarkup.org/blacklight?url=worldvita.ru - 7 трекеров и 1 внешняя кука
- Благотворительный фонд «Дом с маяком» https://themarkup.org/blacklight?url=mayak.help - 3 трекера
- Благотворительный фонд «Линия жизни» https://themarkup.org/blacklight?url=life-line.ru - 7 трекеров
- Фонд Хабенского https://themarkup.org/blacklight?url=bfkh.ru - 3 трекера и 1 кука
- Фонд помощи хосписам Вера https://themarkup.org/blacklight?url=www.hospicefund.ru - 5 трекеров
- Благотворительный Фонд Алеша https://themarkup.org/blacklight?url=aleshafond.ru - 10 трекеров и 13 внешних кук

Это топ 10 фондов с сайта Милосердие.ру [4], до масштабов PlannedParenthood они, конечно, ещё не дотягивают, хотя вот на сайте Фонда Алеша явный перебор с передачей данных в Mail.Ru Group, OOO, Alphabet, Inc., Yandex LLC, CleverDATA LLC, и Aidata.

Желающие могут провести углублённый анализ самостоятельно, посмотреть можно не только топ благотворителей, но и топ банков, топ госсайтов, топ сайтов частных клиник и ещё многое другое. Все это потянет на хороший журналистский материал, при желании.

Как избежать такой слежки хотя бы на сайтах с наиболее чувствительной информацией? Используйте браузеры со встроенной защитой приватности, применяйте такие расширение как disconnect.me и privacybadger, а до владельцев сайтов имеет смысл доносить ту мысль что их удобство по мониторингу должно иметь свои пределы.

Ссылки:
[1] https://www.llrx.com/2021/10/nonprofit-websites-are-riddled-with-ad-trackers/
[2] https://themarkup.org/blacklight?url=www.plannedparenthood.org
[3] https://themarkup.org/blacklight/2020/09/22/how-we-built-a-real-time-privacy-inspector
[4] https://www.miloserdie.ru/article/pervye-v-rejtinge-10-krupnejshih-blagotvoritelnyh-organizatsij-rossii/

#privacy #ngo #adtech
В научной библиотеке БНТУ хороший обзор проектов по открытым научным данным [1] и там же обзоры открытых образовательных ресурсов, открытой науки, открытого доступа, открытой научной коммуникации.

Я добавлю что концепция открытых данных приходила в мир 3 путями.
Первый - это общественные и политические активисты и журналисты.
Второй - естественное развитие использование данных в госуправлении.
Третье - развитие идей открытости науки и открытости данных как их продолжения.

Многие крупнейшие порталы открытых данных в мире - это, де факто, крупнейшие порталы научных данных. Так устроен портал открытых данных федерального правительства США data.gov, так устроены многие другие страновые порталы в мире, научные организации раскрывают на них данные в первую очередь.

В основе движения открытости данных в науке можно определить Пантонские принципы [2], FAIR Data [3] и множество близких по смыслу инициатив. Сейчас в мире они уже потеряли эффект новизны потому что стали общепринятой нормой. Исследователи по всему миру публикуют данные на европейской платформе Zenodo [4] и многочисленных иных платформах по открытости науки.

Ссылки:
[1] https://library.bntu.by/otkrytye-nauchnye-dannye
[2] https://en.wikipedia.org/wiki/Panton_Principles
[3] https://en.wikipedia.org/wiki/FAIR_data
[4] https://zenodo.org

#opendata #opensciencedata #science
Научный центр больших данных в биологии EMBL-EBI (EMBL’s European Bioinformatics Institute ) [1] опубликовали большой доклад (impact report) о том как собираемые, поддерживаемые и раскрываемые ими базы данных помогают в исследованиях [2].

Если вкратце:
- около 450-500 тысяч пользователей
- интервью с пользователями говорит о том что для большинства из них недоступность данных EBI сильно повлияет на их исследования
- прямой возврат инвестиций 2.2 млрд фунтов - это сумма которую пришлось бы потратить ученым на покупку данных которые они получают бесплатно
- и там же ещё много разных оценок ROI, финансового влияния и эффекта от их работы. И раньше не было в этом сомнений, а здесь ещё и всё подкреплено цифрами.

Для тех кто не знает, EMBL-EBI поддерживают более 40 открытых баз данных / наборов данных по теме биологии [3] откуда ученые не только берут данные, но и куда сдают результаты своих исследований.

Биоинформатика одна из многих областей где эффект от открытости данных и доступности их в большом объёме хорошо измерим, здесь можно напомнить о большом европейском проекте Elixir [4] где такая работа происходит на общеевропейском уровне и о том что системная работа по созданию исследовательской инфраструктуры приводит к доступности одних из наиболее крупных баз данных в мире именно в области биологии.

Ссылки:
[1] https://www.ebi.ac.uk
[2] https://www.embl.org/documents/document/embl-ebi-impact-report-2021/
[3] https://www.ebi.ac.uk/services/all
[4] https://elixir-europe.org/

#opendata #biology #europe
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.

Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.

Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.

Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full

А после сбора данных выполнить команду apibackuper export jsonl data.jsonl

На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.

#opendata #tools #api #openapi
Вот уже довольно длительное время не работает портал открытых данных Воронежской области opendata.govvrn.ru. Последняя запись в интернет-архиве есть за март 2019 года, уже за 2020 год сайт оказался недоступен, а сейчас просто всегда выдает ошибку. Россия, возможно, единственная страна где проекты по открытости (включая открытость данных) не развиваются, а сворачиваются. При этом, что бы кто не говорил, открытость данных не несёт рисков для госорганов потому что в открытые данные переводят чаще всего те информационные ресурсы которые и так публиковались в Excel, Word, PDF и других форматах. Разница в том, что открытые данные - это форма коммуникации с технически подготовленными пользователями государственной информации.

#opendata #regions #voronezh #opengov
Новый уровень закрытости в нашей стране, Правительство распорядилось закрыть все закупки ФСО, ФСБ, СВР, Минобороны и Росгвардии, а также всех их подведомственных учреждений [1]. Всё это в распоряжении Правительства РФ от 30 октября 2021 г. N 3095-р.

Если раньше были закрыты закупки этих ведомств только в части закрытой части бюджета, то сейчас решили закрыть все закупки, в том числе и по открытой части тоже. Что это означает на практике?

1. Значительное повышение непрозрачности гражданской деятельности этих ведомств. Если, к примеру, у СВР её точно нет, то ФСБ, Минобороны и Росгвардия ещё и осуществляют лицензирование деятельности, а ФСО ведёт портал нормативно-правовых актов pravo.gov.ru. Вся эта деятельнсть теперь будет скрыта как и другая работа этих органов власти.
2. Ещё большее снижение конкуренции по закупкам этих ведомств. Закрытые конкурсные процедуры идут по закрытому списку поставщиков.
3. Можно обратить внимание что в этом списке нет МВД, но есть Росгвардия, выходит секретность Росгвардии сильно выше чем МВД. Закупки Росгвардии ранее были предметом общественного расследования, как бы причина не была именно в этом.

Вместе с ростом закрытой части российского бюджета он становится всё непрозрачнее.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202111020029

#opencontracting #contracts #government
Для тех кто ищет данные и не знает где их найти, Инфокультура подготовила новый небольшой и полезный проект "Каталог каталогов данных" datacatalogs.ru. На самом деле мы его вели очень давно, в виде базы в Airtable с большим числом параметров по каждому каталогу данных - тип каталога, темы, наличие экспорта, наличие API, программный продукт и многое другое. Потом поняли что недостаточно каталогизировать только каталоги данных и добавили туда несколько репозиториев других видов данных и источники особо крупных датасетов.
Forwarded from Инфокультура
Инфокультура представляет новый проект — Каталог данных www.datacatalogs.ru.

В нем систематизированы государственные источники открытых данных, а также собраны альтернативные базы, каталоги, репозитории, порталы, наборы и иные источники данных, потенциально интересные для всех, кто работает с данными.

На сегодняшний день в каталоге:
✔️ 245 российских и международных источников данных.
✔️ 105 тематических направлений, охватывающих самый широкий спектр от социологии до недропользования и внешней торговли.
✔️ Ссылки не только на государственные источники данных, но и на независимые общественные и некоммерческие инициативы, а также академические данные и данные коммерческих компаний.
✔️ Источники данных имеют разные режимы доступа (открытые, ограниченные, закрытые), а также категоризированы по типу контента и даже по типу платформы каталога (CKAN, DKAN и иные).

Если вы знаете какой-либо источник данных, отсутствующий в каталоге, вы можете добавить его, заполнив специальную форму.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минсельхоз России подготовил проект Распоряжения Правительства об утверждении перечня открытых данных Федеральной государственной информационной системы прослеживаемости пестицидов и агрохимикатов. Судя по документу, должны быть доступными:

- ИНН и наименование юрлица/ИП
- дата и время проведения работ с применением пестицидов и химикатов
- торговое наименование препарата, действующее вещество и выбранный способ его применения
- информация о способах обеспечения безопасности населения.

Не так часто в последнее время принимаются решения о публикации открытых данных, влияющих на качество и безопасность жизни, поэтому наличие данный документа не может не радовать.

По информации Федерального проекта портала НПА, общественное обсуждение проекта должно было закончиться вчера, но всегда можно отправить предложения об открытых данных напрямую в Минсельхоз.

https://regulation.gov.ru/projects#npa=119605