Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Fiscal Note [1] компания по мониторингу изменений в законодательстве и решений политиков купили [2] стартап Predata [3]. Predata - это весьма интересный стартап декларирующий использование ИИ для выявления аномалий, трендов и индикаторов в информационной медийной повестке на основе данных СМИ и соцсетей. Основной прицел был на участников рынка. Они привлекли относительно немного инвестиций в $3.3 миллиона [4] и стали частью системы альтернативных данных собираемых Bloomberg'ом [5]

В общем и целом любопытный стартап на растущем рынке альтернативных данных.

Ссылки:
[1] https://fiscalnote.com
[2] https://fiscalnote.com/press-room/fiscalnote-announces-acquisition-of-predata
[3] https://www.predata.com
[4] https://www.crunchbase.com/organization/predata
[5] https://www.businesswire.com/news/home/20190312005155/en/Bloomberg-Offering-Predata’s-Alternative-Data-Set-Data

#alternativedata #data #predata #fiscalnote
К вопросу о доступности данных и работе государственных информационных систем.

С июня месяца ГИБДД (читай - МВД) не публикует данные о ДТП на сайте stat.gibdd.ru [1]. На сайте указано что Доступ к показателям состояния безопасности дорожного движения временно ограничен в связи с проведением технических работ и будет восстановлен в полном объёме по их завершении.

Без указания конкретных дат когда эти работы будут закончены, при том что раскрытие данных прописано в Постановлении Правительства РФ от 19.09.2020 N 1502 "Об утверждении Правил учета дорожно-транспортных происшествий, об изменении и признании утратившими силу некоторых актов Правительства Российской Федерации". Часть 1, пункт 10 и Часть 2, пункт 16. [2]

По слухам у МВД вышли из строя часть серверов и их функциональность они восстановили лишь частично.

Фактически требования этого постановления Правительства уже нарушаются.
Возникают вопросы:
1. Так когда же данные начнут обновляться?
2. Применительно к открытости данных и информационных системам мониторинг правоприменения может быть автоматизирован. Может быть и Минюсту стоит над этим задуматься или Минцифре? Насколько я знаю худо-бедно-плохо-нормально мониторинг организован только в СМЭВе.

Всё это к вопросу о том что вот данные МВД недоступны и даже непонятно к кому обращаться для того чтобы хотя бы узнать когда они появятся не говоря уже о их доступности в целом. Конечно, можно писать запрос в МВД, и ждать 30 дней ответа. Что видимо и придётся сделать в итоге.

Ссылки:
[1] http://stat.gibdd.ru/
[2] https://www.garant.ru/products/ipo/prime/doc/74580240/

#opendata #data #mvd #gibdd #dtp
В Австралии, при офисе комиссара по данным (National Data Commisioner) создается проект по Dataplace [1] для запросов на данные к органам власти и госструктурам. Обратите внимание что это не запросы на доступ к информации в классическом понимании (FOI), а именно data requests. Обещают сделать beta версию к концу 2021 года и релиз в 2022 году.

Там же анонсировали проект всегосударственного каталога данных [2] и пилотных проектов по инвентаризации данных. Обратите внимание - это общедоступный каталог всех данных, основная его идея в том что чтобы понять что должно быть открыто вначале необходимо понять, а что есть и метаданные, сведения о наборах данных и базах данных, должны быть общедоступны. Пока же с 2022 по 2024 годы в Австралии будут инвентаризировать данные небольшими командами в рамках этого пилотного проекта.


Ссылки:
[1] https://www.datacommissioner.gov.au/media-hub/creating-human-centric-government-data-request-process
[2] https://www.datacommissioner.gov.au/media-hub/new-pilot-program-deliver-government-wide-data-catalogue

#opendata #data #australia #datacatalogs
В Motherboard статья "How Data Brokers Sell Access to the Backbone of the Internet" [1] о том как Интернет провайдеры приторговывают втихую данными о трафике (netflow) и помогают отслеживать пользователей VPN. Там подробно рассказывается о компании Team Cymru, в том числе историю о том как CitizenLab с помощью инструментов Team Cymru ловили израильский малварь Candiru [2].

Статья полезная для тех кто хочет больше о том как устроена реальная приватность, а ещё вернее её отсутствие, и о том что VPN далеко не гарантировано защищает от слежки и, если очень надо и при наличии финансовых ресурсов, всё отслеживается.

Ссылки:
[1] https://www.vice.com/en/article/jg84yy/data-brokers-netflow-data-team-cymru
[2] https://citizenlab.ca/2021/07/hooking-candiru-another-mercenary-spyware-vendor-comes-into-focus/

#privacy #internet #teamcymru
Europeana подвела итоги [1] 1st Digital Storytelling Festival в победителях:
- История кошек которые стали мумиями [2]
- Анимация старых движущихся картинок [3]
и Celebrating women — Art and machine learning [4]
Последнее любопытно, там автор взяла две старые фотографии и применила Runway ML software with DeOldify model [5]. Фактически сама она ничего не программировала в machine learning, но применила уже имеющиеся разработки.

Лично мне очень по душе такие фестивали как и все инициативы цифрового культурного наследия по применению технологий в обеспечении их доступности. А digital storytelling - это ещё и хорошая тема для журналистов рассказывающих истории из прошлого и настоящего.

Ссылки:
[1] https://medium.com/digital-storytelling-festival/discover-the-winners-of-the-1st-digital-storytelling-festival-b2d5b5c49561
[2] https://medium.com/digital-storytelling-festival/story-of-cats-who-became-mummies-8163e1815e93
[3] https://medium.com/digital-storytelling-festival/animating-old-morphing-pictures-28df9ef76090
[4] https://medium.com/digital-storytelling-festival/celebrating-women-art-and-machine-learning-89ba03a09433
[5] https://github.com/jantic/DeOldify

#digitalheritage #digitalstorytelling
Forwarded from ministryofpoems
Эй гражданин! Ты только не зверей
Думаешь вокруг случайные погрешности?
В госуслугах избегают теперь
«образы людей не славянской внешности»

Ты в зеркало то на себя посмотрел?
То-то
Всегда найдешь в себе разное генетическое чего-то
А тут, на тебе, евгенестические чуда природы
Отрицают что все мы немного разной породы

Вместо добросовестного разнообразия
Предлагают лишь одну форму безобразия
Может у составителей брендбука
Поехала кукуха

А может они нам на что-то намекают неаккуратно
Что госполитику мы не знаем или знаем превратно
И тувинцам и татарам в нашем правительстве
Не поможет от цензуры партийное представительство

Национализм не шутка
и не предмет для
мелких
локальных
исправлений
А для прокуророрской проверки,
посадок и увольнений

Источник вдохновения: В составленном Минкомсвязи брендбуке «Госуслуг» нашли требование не использовать «образы людей не славянской внешности» http://breakingmad.me/ru/11485
В Нигерии появился портал раскрытия данных о госзакупках/госконтрактах [1] в форматах открытых данных. Портал создан в рамках реформы государственных закупок Нигерии [2]. Но расследование от Dataphyte показало что по контрактам на сумму 70 миллиардов нигерийских найр (27 миллиардов в рублях) отсутствуют ключевые сведения о поставщиках [3], такие как их наименования и идентификаторы.

В Мексике Институт конкуренции IMCO выпустил индекс коррупционных рисков для 278 федеральных агентств [4]. Общий вывод - ухудшение ситуации и рост коррупционных рисков. Визуализация рейтинга с 2018 года [5] и открытые данные исследования в Excel [6].

В США поставщики по оборонному бюджету получили в общей сложности $1 миллиард на работы в Афганистане после вывода оттуда войск [7]. Неизвестно продолжатся ли эти контракты после окончания вывода войск или же будут расторгнуты.

Ссылки:
[1] https://bigfutportal.azurewebsites.net/Home/OcdsRecords
[2] https://bpp.ekitistate.gov.ng/about-us/public-procurement-reforms-program/
[3] https://www.dataphyte.com/economy/ekiti-bpp-flouts-procurement-law-publish-contracts-worth-over-n70-billion-without-vendors-name-identifiers/
[4] https://imco.org.mx/indice-de-riesgos-de-corrupcion/
[5] https://imco.org.mx/riesgosdecorrupcion/
[6] https://drive.google.com/drive/folders/1HZe-AZkTtyjWtA9RJOEPpGo3VRN5Qjgi
[7] https://www.opensecrets.org/news/2021/08/defense-contractors-spent-big-in-afghanistan-before-the-us-left-taliban-took-control

#opendata #opengov #procurement #spending
Главный радиочастотный центр (ФГУП при Роскомнадзоре) объявил закупку на "Выполнение работ по созданию автоматизированной системы мониторинга нарушений прав субъектов персональных данных в сети «Интернет» " [1] (АС МПДн)

Закупают они по 223-ФЗ, поэтому победителя торгов мы не узнаем, а вот на что точно можно и нужно обратить внимание так это на чрезвычайно детальное техническое задание с тщательным перечислением всех технических средств предполагаемых к использованию, что, чаще, бывает когда ТЗ пишет поставщик предопределенный госзаказчиком. Но, опять же, с сайта ЕИС мы о поставщике не узнаем.

Зато можно обратить внимание по каким ключевым словам Роскомнадзор собирается искать сайты распространяющие ПДн.

Как бы сказать помягче, система в будет совершенно бессмысленна. Её заказчики явно не понимают как устроено распространение персональных данных.

Ссылки:
[1] https://zakupki.gov.ru/223/purchase/public/purchase/info/common-info.html?regNumber=32110590564

#privacy #rkn #procurement
Forwarded from Ivan Begtin (Ivan Begtin)
Почему в разговорах о пенсионной реформе никто не поднимает вопрос о необходимости опрозрачивания пенсионной системы?

О том что статистика и аналитика выплат по категориям застрахованных должна быть предельно подробной, с разбивкой по социальным группам, типам пенсионеров, субъектам федерации и тд и тп.

То что данные о расходах ПФ РФ должны быть открыты.
То что необходимо ежеквартальный отчёт ВЭБа по вложениям пенсионных средств.
То что должна быть особая политики прозрачности и предоставление информации по запросу от журналистов не за 30 дней, а гораздо быстрее

и многое и многое другое.
В США сенаторы и конгрессмены должны отчитываться о покупках и продажах акций. На основе этих данных инженер Tim Carambat [1] создал два проекта: House Stock Watcher [2] и Senate Stock Watcher [3] чтобы отслеживать как они инвестируют средства.

Всё на основе общедоступных раскрываемых сведений тут конгрессом [4] и сенатом [5].

Ссылки:
[1] https://twitter.com/tcarambat
[2] https://housestockwatcher.com/
[3] https://senatestockwatcher.com/
[4] https://disclosures-clerk.house.gov/
[5] https://efdsearch.senate.gov/search/home/

#opendata #dataviz
UNI-Wider, Университет ООН опубликовали набор данных по доходам государства, Government Revenue Dataset [1] вместе с визуализацией в виде инструмента GRD Tool [2], а также дают возможность скачать набор данных после заполнения формы [3].

Они же собирают и публикуют многие другие базы по мировой экономике [4]

Ссылки:
[1] https://www.wider.unu.edu/project/government-revenue-dataset
[2] https://www5.wider.unu.edu/#/?graph=map&indicators=3&activeIndicators=3
[3] https://www2.wider.unu.edu/crm/content/grd-data-download
[4] https://www.wider.unu.edu/data

#opendata #un #world #economics
Быть может не каталоги данных, а каталоги метаданных? Свежий проект OpenMetadata [1] нацелен на автоматизацию сбора именно данных-о-данных которые находятся под Вашим управлением в самых разных СУБД - MySQL, PostgreSQL, MSSQL, ElasticSearch и иногие другие. По сути это почти то же самое что корпоративный каталог данных, но без претензий на "швейцарский нож". OpenMetadata начинает со стандартизации и продолжает интеграцией и взаимодействием пользователей.

Плюс - это подход от стандартизации и открытый код
Минус - в пока ещё слабой поддержке NoSQL и других источников данных

Реализуемые идеи очень похожи на те что у нас в движке DataCrafter'а [2], но с акцентом на корпоративные, а не на общедостурные данные.

В любом случае это интересный проект за которым стоит понаблюдать и попробовать.

Ссылки:
[1] https://open-metadata.org
[2] https://beta.apicrafter.ru

#opendata #metadata #data #datacatalogs
Как исчезают официальные данные в сети - в первую очередь через ликвидацию организаций. Приведу в пример Уставной суд Санкт-Петербурга. Это был один из конституционных судов субъектов федерации, о нем есть статья в Википедии [1]. 31 марта 2021 года законодательное собрание Санкт-Петербурга приняло решение о его ликвидации [2], а с 1 июля (всего 2 месяца назад) суд ликвидирован, а сайт суда закрыт.

Обычно, если организация ликвидируется через реорганизацию, то у нее есть правопреемник, которому передаются архивы, имущество и тд.
Но уставной суд именно ликвидировался, а не реорганизовывался, имущество, скорее всего, было возвращено в собственность города, а вот процедуры сохранения материалов публикуемых в цифровой форме в России нет и не было.

Поэтому сайт суда просто одномоментно закрыли. В лучшем случае его решения остались в коммерческих системах вроде Консультант плюс или Гарант. С высокой вероятностью их нет в государственных системах регистрации нормативно-правовых документов, поскольку это был суд вне юрисдикции Судебного департамента и поскольку решения судов не регистрируются в pravo.gov.ru или системах Минюста России.

Это довольно маленький, очень небольшой пример, того как материалы органов власти исчезают при реорганизации. Он, конечно, несравним с моментальным закрытием всех материалов ФМС и ФСКН после их возврата в МВД. Тогда МВД убрали из сети все материалы этих ведомств в тот же день когда был анонсирован указ Президента РФ о реорганизации этих ведомств.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Уставный_суд_Санкт-Петербурга
[2] http://www.assembly.spb.ru/ndoc/doc/0/706135935

#digitalpreservation #data
Не очевидные источники открытых данных по транспорту/городу:

- медленные зоны для самокатов https://transport.mos.ru/build/geojson/electrosamokat_slow_zones.geojson
- Данные по Такси (ждем и другие) - https://prodvizhenie.mos.ru/
- данные по Вело - velostat.ru (теперь умеет собирать данные по Мурманску, Тюмени, Нижнему)
- данные по авариям и программе БКД (СКДФ) - https://xn--d1aluo.xn--p1ai/opendata (на днях обновили большинство датасетов)
- общегородские данные по Москве - https://ehd.moscow/
К предыдущей моей публикации про исчезновение сайта Уставного суда Санкт-Петербурга. Нашёлся проект spb-elections.ru автор которого провел архивацию сайта суда в марте 2021 года [1]. Это хорошая новость потому что в России, всё таки, возникают проекты по цифровой архивации значимых данных. В данном случае значимость была у решений суда в отношении выборов в Санкт-Петербурге.

Лично я очень рад что архивация становится предметом общественного интереса и сам проект про выборы интересный, не в последнюю очередь ретроспективой до 1993 года.

Ссылки:
[1] https://spb-elections.ru/sites/sites_www.spbustavsud.ru_comment.html

#digitalheritage #digitalpreservation #webarchives
В открытом доступе появился препринт замечательной книжки Analyzing US Census Data: Methods, Maps, and Models in R [1] о том как обрабатывать данные переписи населения США с помощью языка R. Автор книги, Kyle Walker, создатель библиотеки tidycensus [2] для языка R для упрощения работы с данными переписи.

Книга чрезвычайно прикладная, со скриншотами ГИС систем и систем переписи населения, часто в стиле "откройте страницу (вот скриншот), нажмите туда, нажмите сюда, скачайте результат" и конечно же книга про эту библиотеку tidycensus и как с её помощью с данными переписи работать.

Здесь надо отметить что в США вокруг переписи населения выстроена довольно большая, как теперь говорят, экосистема. Чтобы работать с их данными необходимо получить ключ, просто зарегистрировавшись [3] и там же у US Census Bureau на сайте большой раздел для разработчиков [4] с руководствами, примерами, каталогом API, публичным форумом [5], чатом в слаке, рассылкой и так далее.


Ссылки:
[1] https://walker-data.com/census-r/
[2] https://github.com/walkerke/tidycensus
[3] https://api.census.gov/data/key_signup.html
[4] https://www.census.gov/data/developers.html
[5] https://gitter.im/uscensusbureau/home

#opendata #data #census #us
Forwarded from LegalTech
💻Из электронных трудовых некоторых россиян начал пропадать стаж.

Из электронных трудовых книжек стала исчезать информация о стаже работы на ликвидированных предприятиях. Из-за этого некоторые россияне рискуют остаться без положенной пенсии.

Для того чтобы восстановить пропавшие записи в цифровой трудовой, нужно потратить много времени, а также столкнуться с бумажной волокитой, отмечает издание. «Запись в трудовой книжке с 1 марта 2007 года, а в электронной трудовой — с 31 декабря 2007 года, то есть восемь месяцев потеряно», — рассказала москвичка Светлана Антонова.

Во второй компании, где она работала, Антонова обнаружила информацию в цифровой книжке о якобы прерывании стажа. «Теперь я, что ли, ежегодно должна проверять, все ли записи мне сделали в трудовую книжку? Это же ненормально!» — заявила собеседница издания.

В Пенсионном фонде России (ПФР) сказали, что обе компании были ликвидированы и помочь Антоновой будет проблематично. В ведомстве пообещали отправить запросы в архивы, но «не факт, что там что-то найдется». Женщина указала, что у нее имеется оригинал трудовой, где есть этот стаж со всеми печатями, но в ПФР заявили, что «просто трудовую книжку мы взять теперь не можем».

Устраиваться на работу с электронными трудовыми стало можно с 1 января 2021 года. Бумажная трудовая после получения электронной выдается на руки, однако ее необходимо сохранить, поскольку в цифровом формате будут содержаться сведения только начиная с 2020 года.
В рубрике интересных наборов данных, коллекция ботов для Twitter, Facebook, Tumblr, Slack и других сервисов собранных на платформе Botwiki [1]. На основе данных вики собран набор данных из наиболее популярных Twitter ботов и доступен на Kaggle [2].

Среди ботов есть те которые относятся к визуализации данных [3], а также много других, весьма любопытных. В принципе, Botwiki - это хорошая база идей по созданию альтернатив наиболее интересных/успешных ботов для других платформ.

При этом, там практически нет ни одного телеграм бота.

Ссылки:
[1] https://botwiki.org
[2] https://www.kaggle.com/fourtonfish/popular-twitter-bots
[3] https://botwiki.org/?s=dataviz&search-filters-options%5B%5D=everything

#data #datasets #bots
В Ведомостях статья " Банки столкнулись с проблемой блокировки переводов на запрещенных сайтах" [1] о том что у банков нет доступа реестру запрещённых сайтов и они не могут автоматически проверять своих клиентов и блокировать им переводы, по новым требованиям.

В статье, в принципе, скрытый, но чёткий намек что Роскомнадзор как бы, делает всё так, чтобы другим закон было выполнять неудобно. А это не абы что, а требования закона «О противодействии легализации доходов, полученных преступным путем, и финансированию терроризма» (115-ФЗ) поправки в который вступили в силу 13 июля и за невыполнение которого ЦБ может у банка вплоть до того что отозвать лицензию.

Всё это про два практических аспекта ведения этого самого реестра запрещённых сайтов:
1. Отсутствие в нём сведений о формальных основаниях блокировки, о чём есть в статье.
2. Недоступность его ни для кого кроме телеком операторов. Хотя, по хорошему, он вообще как открытые данные должен был бы публиковаться. Ну или в неком регламентированном режиме доступа, ограниченный не только телеком операторами.

Но технические подробности этого реестра и насколько хорошо (скорее плохо) его Роскомнадзор ведет я хочу сейчас отставить в сторону. Сам факт смешения борьбы с онлайн казино, незаконными операциями в интернет и использования реестра для политической цензуры довольно сильно дискредитирует эту затею.

А вот на что стоит обратить внимание так это на вот этот абзац



Кроме автоматизации доступа к реестру запрещенных сайтов, банки описали и другие проблемы, возникшие из-за новых требований.

Сейчас нет единого реестра доменных имен с информацией об их владельцах-юрлицах, а регистраторов доменных имен только в России больше 30, говорится в письме. Агрегированная информация от регистраторов о том, какому юрлицу или ИП принадлежит определенный домен, предоставляется только правоохранительным органам. Поэтому у банков возникает сложность с установлением наличия у клиента каких-либо доменных имен, зарегистрированных в зоне .ru или любой другой, отмечается в письме. Если клиент не сообщит о владении каким-либо доменом, установить полный и актуальный список сайтов, принадлежащих ему, невозможно. РКН ответил банкам, что у ведомства нет «специализированных механизмов», которые позволяют определить принадлежность домена или указателя страницы сайта лицу, оказывающему услуги в интернете.

Это очень прозрачный намек на будущее регулирование через создание такого реестра "конечных бенефициаров или аффилированных лиц' с интернет-доменами. Это только кажется сложной задачей провязать домены с компаниями и ИП, а на практике у этого много интересантов и тотальная гос-перепись доменов с их привязкой к юридическим лицам более чем возможна, весьма вероятно и весьма ожидаема.

Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2021/09/01/884745-banki-blokirovki

#it #regulation #domains #data