Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.

О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.

Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.

Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime

#data #ai #precrime
NewAtlas пишет [1] о том что в США учёные из Purdue University стартовали исследование рецидивизма с помощью искусственного интеллекта. Вместе с местными властями в округа Типпекану (Tippecanoe) они намерены отслеживать сердечный ритм и состояние здоровья и поведение 250 досрочно освобожденных которым будет выдан специальный браслет и установлено мобильное приложение. Их действия будут сравниваться с действиями другой группы аналогичного размера, выступающей как контрольной.

Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.

Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.

Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.

Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry

#precrime #ai #data #privacy
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata
Лучше всего получается то что делаешь под свои задачи (с)

Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.

apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).

Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data
Если кто-то не догадался сразу, то вот эти замечательные картинки - это "открытые данные" публикуемые Федеральным агентством лесного хозяйства в из их информационной системы дистанционного мониторинга.
Я бы восхитился вольностью интерпретации сотрудников Рослесхоза понятием открытые данные, но они такие не первые, я помню что были похожие "схемы" публикации данных и в других органах власти. Когда Word файл сохраняли в Word XML (язык разметки а ля HTML) и выдавали за машиночитаемые форматы, когда публиковали картинки вместо машиночитаемых файлов или когда с виду данные были, а одного клика было достаточно чтобы убедиться что они более недоступны.
В другой их системе, Единой государственная автоматизированная информационная система
"УЧЁТ ДРЕВЕСИНЫ И СДЕЛОК С НЕЙ" (ЛесЕГАИС) [2] также есть раздел открытых данных где их можно листать и искать, но скачать только некоторые и только в формате xlsx. В общем то тоже, открытость там на 3-чку и то только потому что за этим разделом API на базе GraphQL к которому опытные умы могут подключаться, но учитывая объёмы публикуемых данных - это крайне неудобно делать тысячи запросов по 20 записей каждая.
При этом в самом ведомстве знают что такое открытые данные и как их публиковать потому что соответствующий раздел на сайте Рослесхоза существует [3] и обновляется, но данные из их ФГИС не включает.

Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://lesegais.ru/
[3] http://rosleshoz.gov.ru/opendata
#opendata #opengov #rosles
Почему в России так много (а на самом деле так мало) открытых данных? Почему самыми большими данными оказываются, например, данные о госзакупках и госфинансам [1] ?

Среди множества причин: политических, экономических и культурных, я хочу обратить внимание на отличия в том что и как публикуется на российских порталах открытых данных и как это отличается от происходящего в мире.

1. Одни из наиболее крупных по объёмам публикации данных в мире - это географические и геологические данные. Например, более 26% всех наборов данных (25 тысяч из 95 тысяч) на портале открытых данных Австралии [2] опубликованы Geoscience Australia. Почти все эти данные - это геоданные, в форматах GeoJSON и SHP и других, содержащие сведения о наблюдении за территорией, спутниковые снимки и тд.

2. Ещё примерно вдвое больше данных публикуется другими научными и исследовательскими организациями и, в итоге, всё вместе - примерно 75% всех данных публикуемых на data.gov.au - это научные и исследовательские данные.

3. В Великобритании на портале data.gov.uk из публикуемых данных, также, около 15-20% - это геоданные. Точно измерить сложно поскольку публикуются они многими органами власти и организациями. Научных данных там меньше только по той причине что существуют отдельные системы раскрытия научных данных в рамках проектов Dataverse, европейского Zenodo и многих других.

4. В США ситуация похожая и большая часть данных на data.gov - это данные из многочисленных научных центров раскрывающих кроме данных ещё и совершенно невероятные объёмы открытого кода, в основном через Github.

5. В России около 64% (15286 из 23864) опубликованных данных на портале data.gov.ru [2] - это административные данные отклассифицированные в категорию "Государство". Они так или иначе касаются отчетности органов власти, вакансий, списков терр. органов и иных данных которые требуются к раскрытию по 8-ФЗ и порождённых от него НПА. Практическая их применимость есть в очень и очень узких задачах. Геоданные не публикуются практически полностью, научных данных также нет.

С чем это связано? Причин несколько:
- секретность геоинформации в России. То что во всём мире раскрывается повсеместно, в России является предметом преследования географов, засекречивается и не раскрывается даже в самых очевидных случаях. То же самое касается если не всех то многих данных о недрах в России.
- полное отсутствие коммуникаций с действующими научными проектами, по астрофизике, по изучению недр, по изучению погоды и так далее. Это ещё на уровне Открытого правительства - фактически совсем ничего не делалось в этом направлении
- фрагментированность госполитики в области управления данными. Отдельно существует регулирование открытых данных, отдельно разрабатываются НПА по СМЭВу, отдельно существуют инициативы по платформам по исследованиям в Минобре, отдельно существует регулирование информационных систем. В результате даже если огромные объёмы данных создаются в таких системах как ЕСИМО, системах Росгидромета и других, на портал открытых данных они не поступают.

Можно ли это изменить? На техническом уровне нет. Только на политическом уровне. Главная беда большинства госпорталов открытых данных не в их технической реализации, а в отсутствии политической опоры внутри исполнительной власти. А можно ли это изменить?


Ссылки:
[1] https://spending.gov.ru
[2] https://data.gov.ru

#opendata #data #opengov
Из "условно необычных" проектов про открытые данные - это Open Apparel (Открытая одежда) [1] проект по систематизации рынка одежды и фэшн индустрии в целом. В проекте собрано большое число объектов/предприятий большая часть которых собрана из списков вроде Better Cotton Initative [2] об улучшении работы фермеров работающих с хлопком, списков поставщиков крупных ритейлеров и так далее и тому подобное.

Сведений о предприятиях там, прямо скажем, "небогато". Название, местонахождение, указание в каких списках указано. А с другой стороны десятки тысяч объектов по всему миру.

Я не смог придумать как можно эти данные использовать, но кто знает, может быть проект будет развиваться.

Ссылки:
[1] https://openapparel.org
[2] https://bettercotton.org

#opendata
Свежая книга по открытости государства в развивающихся странах Making Open Development Inclusive: Lessons from IDRC Research [1] полностью открытая, можно скачать в PDF или Epub или смотреть в HTML. Много разных проявлений открытости развития: открытые данные, открытый доступ, свободные лицензии и многое другое с примерами в странах Глобального Юга (Global South)

Ссылки:
[1] https://www.idrc.ca/en/book/making-open-development-inclusive-lessons-idrc-research

#opendata #opengov
В США ещё с июля месяца обсуждается [1] доклад/отчёт Data Foundation о модернизации инфраструктуры данных органов власти в США.

Главная идея доклада - создание National Secure Data Service (NSDS), Национальной службы охраны данных в виде одной из 4-х опций
1. Создание отдельного статистического агентства при Департаменте торговли (Commerce department)
2. Переназначение одного из существующих подразделений внутри Департамента торговли
3. Создание нового государственно-частного партнерства на базе Национального научного фонда, National Science Foundation (NSF)
4. ... и создание консорциума основанного на университетах

Каждый вариант весьма детально разбирается и в докладе хорошо изложены предпосылки создания такой службы, существующие и ожидаемые регуляторные документы позволяющие исследователям получать доступ к данным.

Полный текст доклада "Modernizing U.S. Data Infrastructure: Design Considerations for Implementing a National Secure Data Service to Improve Statistics and Evidence Building" [1]

Ссылки:
[1] https://www.nextgov.com/analytics-data/2020/07/national-data-service-should-be-created-within-national-science-foundation-data-foundation-says/167346/
[2] https://static1.squarespace.com/static/56534df0e4b0c2babdb6644d/t/5f1f5bb25962685892aa7106/1595890612480/Report-Modernizing+U.S.+Data+Infrastructure%3A+Design+Considerations+for+Implementing+a+National+Secure+Data+Service.pdf

#data #datasharing #usa
Вместо предисловия:
- Эй, кот! Тебя же кастрировали, ты куда каждую весну убегаешь?
- А я оказываю услуги по экспертной поддержке! (с)

На днях Росреестр заключил контракт на 69.5 миллионов рублей на осуществление экспертной поддержки компонентов ФГИС ЕГРН. Карточка контракта в Госрасходах [1] и ЕИС [2], а также в телеграм канале Госзатрат [3].

За извращённым термином скрывается не абы что, а по сути 84 дня работы службы поддержки (до конца года), организация разработки и, по сути, разработка кодов в виде скриптов и тд. Но ТЗ написано так что продраться через него сложно.

Я правда до сих пор не могу понять при чём тут "экспертность" в услугах технической поддержки.

Ссылки:
[1] https://spending.gov.ru/goscontracts/contracts/1770656053620000056/
[2] http://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770656053620000056
[3] https://t.me/clearspending/2864

#spending #data #it
DataCite Commons [1] новый сервис некоммерческой международной организации DataCite [2] специализирующейся на выдаче постоянных идентификаторов объектам в репозиториях данных и в создании сервисов вокруг экосистем научных данных.

В Commons анонсирована [3] визуализация связанности данных о работах, персонах и организациях, причём данные интегрированы с ORCID, Wikidata и отдаются через API с поддержкой GraphQL
Сам этот проект является частью проекта FREYA [4] финансируемом Евросоюзом и нацеленным на создание европейского открытого научного облака, European Open Science Cloud (EOSC).

Из "живых" там российских научных организаций в DataCite Commons есть, например, Минобрнауки России [5].

Для тех кто работает с научными данными на регулярное основе этот источник может оказаться весьма полезным.

Ссылки:
[1] https://commons.datacite.org/
[2] https://datacite.org
[3] https://blog.datacite.org/power-of-pids/
[4] https://www.project-freya.eu/en
[5] https://commons.datacite.org/ror.org/00ghqgy32

#opendata #opengov #data #openaccess
Итак, всё таки слежка АНБ за гражданами США которую вскрыл Сноуден оказалась незаконной [1]. Торжеством демократии было бы помилование Сноудена, но произойдёт ли это?
Новость, в любом случае, важная и имеющая долгосрочные последствия.

Ссылки:
[1] https://www.reuters.com/article/us-usa-nsa-spying/u-s-court-mass-surveillance-program-exposed-by-snowden-was-illegal-idUSKBN25T3CK

#snowden
В Великобритании Department for Business, Energy & Industrial Strategy опубликовал три исследования по теме "Умных данных" (Smart Data), регулирования того как потребитель может влиять на то как и кто может использовать его данные.
Эти исследования по направлениям:
- Smart Data research - consent [1] - согласие
- Smart Data research - liability [2] - ответственность
- Smart Data research - authentication [3] - аутентификация

Все три исследования подготовленными исследовательским центром Dgen [4] специализирующемся на "децентрализованном поколении". Документы очень любопытные, с попыткой описать некую идеальную экосистему расширяющую GDPR до действий в реальном времени.

Ссылки:
[1] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909363/Dgen_and_BEIS_-_Smart_Data_-_Consent.pdf
[2] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909364/Dgen_and_BEIS_-_Smart_Data_-_Liability.pdf
[3] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909365/Raidiam_Authentication_Research_Response.pdf
[4] https://www.dgen.org

#privacy #personaldata #regulation
Да, я совсем забыл об этом написать, совсем скоро. 27-28 сентября пройдет ежегодный ИТ-конгресс Подмосковные вечера [1] где будет, в том числе, дискуссия про открытые данные Секция №6 "Цифровая открытость и OpenData" [2]
Для читателей канала промокод отменяющий регистрационный взнос "100-ПВ-2020"

Ссылки:
[1] https://pv2020.4cio.ru/
[2] https://pv2020.4cio.ru/programdraft
В РБК вышла статья про правительственный законопроект по запрету перепродажи данных Росреестра [1] и отрицательной реакции бизнеса на него. В статье есть выдержки из письма и нашей Ассоциации участников рынка данных (АУРД) и моя позиция и всех кто хоть как-то работает с данными Росреестра на коммерческой основе, в том что положения в законе приведут лишь к ухудшению сервисов для граждан, а Росреестр и Правительство вместо того чтобы запрещать работу с данными, вполне могли бы выступить с инициативой "оцивилизовывания" рынка данных. Но вот это вот дихотомичное воспрятие мира: либо всем пофиг, либо всё запретить, уж очень часто всплывает в новых регуляторных инициативах.

Ссылки:
[1] https://www.rbc.ru/economics/04/09/2020/5f4fb1259a794707a992ca09

#data #aurd
Все уже написали и только я слегка запаздываю (с) Вице-премьер Григоренко 1 сентября выдал поручение ФОИВам рассмотреть предложения из доклада Счетной палаты по открытости органов власти. Сроки жёсткие, посмотрим как ФОИВы будут реагировать. Вторая часть поручения радует меньше, потому что будем честными, за последние годы Минэкономразвития на открытые данные подзабило, а портал открытых данных окончательно превратился в "дата-помойку". И решается это не технической починкой портала, а сменой идеологии, движка и смыслового подхода. Ну и между нами единственные ведомства системно работающие с открытыми данными в Правительстве - это Минкульт и Росстат. Нет, нет, я не предлагаю Минэк заменить на одно из них. Даже не говорю такого и не намекаю. И в мыслях нет. Всегда есть надежда, даже небольшая, что что-то может измениться.

А пока я и наш коллектив работавшие над докладом по открытости государства очень рады что тема открытости органов власти вернулась в повестку государства.
Гриша Бакунов @addmeto (Яндекс) проводит опрос о том нужен ли ресурс с датасетами по русскому языку. Я проголосовал что нужно, и Вы проголосуйте. Вдруг случится невероятное и Яндекс повернется лицом к пользователям и начнет не только использовать, но и сделает хоть что-то про открытые данные;)
Forwarded from addmeto
Нужен ли ресурс где собраны полезные датасеты по русскому языку?
Anonymous Poll
53%
Конечно нужен
2%
Нет, я знаю где все скачать
44%
Это не моя тема
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кстати, интересно, проработать тему открытости поручено Минэкономразвития, а оно на предпоследнем месте по оценке доклада https://ach.gov.ru/upload/pdf/Otkrytost-2020.pdf