Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Счетная палата США (GAO) опубликовала доклад Federal Spending Transparency: OIGs Identified a Variety of Issues with the Quality of Agencies' Data Submissions [1] посвящённый полноте и качеству раскрытия информации о федеральных государственных расходах. Для тех кто не следил за практиками раскрытия данных в США, эти данные раскрываются в рамках закона DATA Act в котором сформулированы требования и рекомендация к органам власти по публикации этих сведений. В отличие от России и многих стран с централизованными системами закупок, органы власти США гораздо свободнее в выборе процедур, отборке контрагентов и собственных правилах осуществления закупок. DATA Act не создавал новую систему, а требовал от упомянутых там органов власти передавать данные по определенным форматам Казначейству США.

А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.

Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.

Они использовали следующие критерии для оценки
Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
Completeness of agency submission: полнота данных передаваемых агентствами
Timeliness of agency submission: своевременность данных передаваемых агентствами
Completeness of data elements: полнота элементов данных
Timeliness of data elements: своевременность элементов данных
Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться

Ссылки:
[1] https://www.gao.gov/products/gao-22-105427

#procurement #usa #usaspending #dataact #accountingchamber
Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].

К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.

От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.

Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.


Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf

#opendata #openaccess #datasharing #usa
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency
В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.

В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].

Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.

Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/

#opendata #datasets #lifequality #pollution #usa
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).

Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.

Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.

Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/

#privacy #security #government #usa #spending
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)

Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.


Ссылки:
[1] https://open.usa.gov/national-action-plan/5/

#opendata #usa #policies
Федеральная торговая комиссия в США оштрафовала компанию BetterHelp на $7.8 миллонов, создателей одноимённого мобильного для мониторинга здоровья и рекомендаций за то что те врали потребителей о том что не передают их данные, а сами передавали их рекламным компаниям вроде Facebook, Pinterest, Criteo, Snapchat [1]. Штраф пойдет на компенсацию пользователям пострадавшим с 2017 по 2020 год.

Решение символическое, первое такого рода и думаю что не последнее. Однако не могу не обратить внимание что рынок продавца не существует без рынка покупателя. Это как проституция не существует если на неё нет спроса.

А не должны ли были покупатели этих данных в лице перечисленных ранее компаний проводить полную проверку источника покупки? Не должна ли комиссия по ценным бумагам проверить и их и выписать им многократно большие штрафы? Ведь не покупай они эти данные, их бы и не продавали.

Ссылки:
[1] https://www.ftc.gov/news-events/news/press-releases/2023/03/ftc-ban-betterhelp-revealing-consumers-data-including-sensitive-mental-health-information-facebook

#privacy #usa #mobileapps
В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.

Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.

Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]

Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.

Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.

Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html

#opendata #geodata #usa #datasets
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого есть ещё одна немаловажная причина.

Из России и большей части развивающихся стран это мало заметно, а в развивающихся - это просто таки очевидно что темы геоданных и научных данных просто таки поглощают тему открытых данных.

Как и почему это происходит?

Причин несколько:
1. Для геоданных наиболее просто доказывпаь экономическую эффективность. Если их закрыть даже на время,то от этого гарантированно многие пострадают и у них есть большой пул пользователей. Иначе говоря - они доказано нужны.
2. Существовавшие порталы и ПО этого почти не учитывали. Продукты вроде CKAN или Socrata были сконцентрированы вокруг сохранения, харвестинга, метаданных вокруг данных любого типа, без визуализации геоданных, без учёта их разнообразия и специфики
3. На рынок вышла компания Esri с их ArcGIS Hub и портал открытых данных или портал геоданных как сервис. В США они ещё несколько лет назад прошли все комплаенс проверки FedRAMP [2], в результате при госзаказе им гораздо легче выиграть создание любого облачного сервиса
4. Для геоданных в развивающихся странах и странах где экономят деньги стали очень популярны продукты вроде Geonetwork и GeoNode. И там, и там предусмотрено ведение каталога данных. Geonetwork гораздо лучше адаптирован для хранения данных особо большого размера и, на самом деле, Geonetwork был и остаётся конкурентом не только геосервисов, но и каталогов открытых данных в которых ранее хранились геоданные.

В результате сейчас ситуация такова что наборов геоданных не просто количественно больше чем всех остальных доступных данных, но и, например, Esri заменили своим ArcGIS Hub значительную часть порталов открытых данных или продали стоящий рядом портал геоданных в отдельных штатах США ( DC, NE , CT) и ещё больше внедрений в отдельных городах, они довольно успешно конкурируют с Socrata, основным игроком создания госпорталов данных в США.

Про Geonetwork я много раз писал, по сути в рамках программы INSPIRE почти все страны ЕС развернули именно этот софт для интеграции геоданных и его всё больше по другим странам, причём нигде списка всех инсталляций нет, хотя их реально где-то 100+, с большим числом наборов данных там опубликованных.

И это только про геоданные, другая сторона открытости данных в том что наиболее устойчивыми их потребителями оказались исследователи. Конечно есть разработчики использующие API или большие выгрузки, аналитики и тд., но концептуальные замечания и массовость употребления исследователями происходит ещё и от того что что большая часть больших научных данных финансируется гос-вом, и сочетание требований по обязательной их публикации и расширению их использования привело к тому что научные данные составляют существенную их часть.

Я упоминал несколько раз о том что публикуется в США на портале data.gov. Так вот там не 3/4 данных - это геоданные (193 тысячи наборов данных из 257 тысяч), в значительной степени произведённых научными учреждениями NASA, USGS, NOAA, И это при том что data.gov пока не индексирует крупные научные репозитории данных вроде Harvard Dataverse в США и ещё довольно многие.

Поэтому хотя и открытые данные оставались и остаются важным инструментом открытости государства, естественных монополий и тд., сильный фокус последних лет на очень практических областях, таких как я сейчас пишу.

#opendata #datasets #usa #datacatalogs #geodata
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.

Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/

#opendata #datasets #data #usa