Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
О доступности статистики

Часть 2/2

Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.

Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.

С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.

А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.

Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics

#opendata #statistics #datasets #indicators #thoughts
В рубрике о закрытых данных в России, с октября 2022 года более не публикуются Оперативные данные «Единая энергетическая система России: промежуточные итоги». ранее публиковавшиеся в форме PDF отчетов информационных обзоров [1] со сведениями о энергопотреблении в России и другим индикаторам работы единой энергосистемы страны.

Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/

#opendata #closeddata #russia #energy #statistics
Вот уже долгое время у меня в задачах висит провести опрос по поводу российского дня открытых данных. Мы в @infoculture проводим его уже много лет, в последние годы, начиная с ковидных годов дистанционно. Не проводили только в 2022 году. В 2024 году будем проводить, и российский, дистанционно и в Ереване, армянский, вживую.

Поэтому, во первых, если Вы хотите запартнёрится к организации ODD в России или в Армении то напишите мне в личку или на почту ivan@begtin.tech, а если хотите выступить спонсором так точно пишите)

С темами армянского ODD всё довольно понятно, мы его проводить будем в первый раз и в ситуации когда всё только начинается. А вот с темами того что обсуждать в России всегда есть вопрос, большой вопрос.

Самые очевидные темы:
- закрытие данных/сведений/документов/сайтов
- архивация данных везде где возможно
- оценка/обзор потенциальных госинициатив (портал данных для ИИ), которые пока незаметны, но обещаны
- что-то ещё?

Большой опрос под это делать не хочется, так что следующим постом я размещу мини-опрос в телеграме чтобы было понятно по каким темам собирать спикеров.

#opendata #russia #armenia #opengov #events
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.

В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].

Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета

Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.

А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.


Ссылки:
[1] https://t.me/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/

#opendata #statistics #indicators #malaysia #datasets #datacatalogs
У меня регулярно случаются разговоры вокруг темы "почему же в РФ всё ещё много открытых данных и не всё закрыли?". Говорят об этом многие как внутри страны так и за её пределами и на это есть много причин и мнений. Я озвучу то что наблюдаю своими глазами.

Далее тезисно:
1. Основная причина в том что в общем и в целом модель поведения российский властей соответствует принципу "ничего не происходит, всё идёт как было". Отчасти поэтому скрытие/закрытие данных точечное и оно скорее продолжает тенденцию последних 6-10 лет. Это подтверждается тем что в первую очередь власти закрывали данные про которые знали на 100% что они используются зарубежными аналитиками, в первую очередь военными и теми кто формирует санкционные списки. Результаты работы этих аналитиков не то чтобы сильно секретны, во всяком случае не настолько чтобы нельзя было узнать что именно используется. Поэтому исчезли данные об исполнении фед. бюджета, о компаниях под санкциями и теми кто работает с подсанкционными компаниями. Неприятно, но ожидаемо.

2. В то же так устроена информатизация/цифровизация и тд. что не публиковать некоторые данные невозможно поскольку уже выстроены экосистемы, вокруг них и совсем неочевидно что их можно использовать в каких-либо военных или санкционных целях. Таких данных много, многие индикаторы ведомственной статистики, и ещё много что раскрываются, многие данные публикуются. Их сокрытие является, в большей степени, от отсутствия открытости гос-ва в повестке Пр-ва, чем в конкретных событиях вокруг прошедших/идущих/грядущих военных конфликтов.

3. При этом важно знать что всё что видно в открытом контуре на госсайтах и иных госресурсах - это менее 0.1% данных которые реально собираются. В виду российской специфики почти полной неподотчетности исполнительной власти, реальные объёмы собираемых данных измеряются петабайтами (а может больше, не буду обманывать), в то же время в виде открытых данных и в любой иной форме публиковались гигабайты данных максимум. Если отделять данные от всего остального контента (видео, аудио) создаваемое гос-вом.

4. При этом были, есть и, хочется надеяться что будут косвенные индикаторы и базы данных на которых можно подсчитать индикаторы реальной экономической ситуации, демографии и тд. в общем признаки экономической и социальной активности. Некоторые индикаторы, даже, весьма оперативные и обстоятельные. Но они существуют ровно до той поры пока не о их использовании не становится известно публично. И здесь есть особая роль журналистов.

5. Работа любого профессионального журналиста - это подготовить публикацию которая бы приводила к изменениям в обществе, повышало бы его осведомленность, приводила бы к иным значимым качественным изменениям. Сейчас когда журналисты используют те или иные общедоступные данные которые отражают реальную ситуацию с экономикой или обществом в РФ это приводит к тому что на эти медийные триггеры срабатывают в Пр-ве, Администрации Пр-та или спецслужб и эти данные, если не немедленно, то довольно скоро исчезают.

6. Примеров таких исчезающих данных немало, тот что у меня перед глазами - это исчезновение в данных ФНС о юридических лицах сведений об учредителях НКО. Это произошло ещё в 2021 году, я неоднократно об этом писал и это, конечно, не единственный пример. Аналогично были закрыты данные о поставщиках госкорпораций по 223-ФЗ, это было ещё при Пр-ве Д. Медведева в 2018 году и ещё много всего.

7. Я не призываю журналистов не писать о чём либо, я говорю о том что реакция российский властей идёт на подтверждённое использование данных. И если какие-то данные скрыть сложно из-за их природы, то от сокрытия других куда меньше последствий. Поэтому результатом работы журналистов, а ещё точнее результатом реакции властей, является сокрытие данных. И это ещё один неприятный тренд последних лет.

(Часть 1/2)

#opendata #russia #thoughts
8. Собственно он и является той причиной почему, к примеру, я почти не пишу про какие-либо интересные данные внутри РФ и о том как они были бы полезны именно по той причине что их могут оперативно закрыть. Если уж и писать о чём-то то только если это что-то не столь ценно если исчезнет.
9. Вот, к примеру, 9 января я писал про геосервер Росреестра. Не прошло и недели как сотрудники Росреестра его скрыли. Не то чтобы неожиданная реакция, скорее, наоборот, ожидаемая.

10. Выводов у меня здесь нет, кроме того что триггерами дальнейшего закрытия данных будет их публичное использование. Пока никто не знает и знание непублично, данные будут доступны ещё долго. Как только об этом напишут хоть что-то осмысленное, данные начнут исчезать. Вот такая борьба со здравым смыслом и происходит.

(Часть 2/2)

#opendata #thoughts #russia
Кстати, про закрытые в России данные отдельная история о том что со временем, некоторые данные, воспроизводятся из других источников. Например, реальные данные по экспорту/импорту хотя российской таможней более не публикуются, но публикуются странами с которыми идёт торговля и доступны в международных базах открытых и коммерческих. Сейчас почти везде в открытых базах фигурирует статистика торговли за 2021 год, но где-то к середине 2024 года будут доступны цифры и за 2023 год и тогда в продуктах которые их используют можно будет много увидеть наглядно. Тот же Atlas of Economical complexity [1] более чем нагляден и в нём используется база COMTRADE. Правда, по России выдаёт данные только за 2020 год [2].

Но пока нет международных данных, есть возможность посмотреть на данные национальные, некоторые статслужбы публикуют их весьма оперативно и детально. Например, я недавно [не]случайно изучал статистику импорта и экспорта одной арабоязычной страны и там видно наглядно как импорт из России в 2021 году составляет $34.3 миллиона, в 2022 году $16.9 миллионов, а в 2023 году $8,6 миллионов. Там правда вполне очевидные последствия санкций на российских сталелитейщиков и угледобытчиков, тем не менее, за 2022-2023 годы изменения в структуре торговых балансов стран и изменения путей и объёмов поставок весьма существенные и есть источники данных на которые, например, российское Пр-во повлиять никак не может.

А это означает что можно собирать "данные о России которые находятся вне России". Впрочем есть риски что российские власти начнут (уже начали?) влиять на страны ЕАЭС для сокрытия их таможенной статистики, так что это ещё один из видов сведений требующих внимания и проактивной архивации.

Ссылки:
[1] https://atlas.cid.harvard.edu
[2] https://atlas.cid.harvard.edu/explore?country=186&queryLevel=location&product=undefined&year=2020&productClass=HS&target=Partner&partner=undefined&startYear=undefined

#russia #economy #statistics #customs #thoughts #data
Forwarded from DRC LAW: IT-юристы
Privacy Day 2024 — большой разговор об ИИ и новых вызовах для нашей приватности

Вот уже шестой год подряд к отмечаемому в январе Международному дню защиты данных приурочена международная конференция Privacy Day, посвященная приватности, защите персональных данных и охране нашей с вами частной жизни.

Главная тема Privacy Day 2024 звучит как «AI и новые вызовы в приватности». Организаторами конференции выступят совместно юридическая фирма Digital Rights Center и Privacy Accelerator. Среди партнёров в этом году - Digital Rights Center Qazaqstan, Forklog, Eurasian Digital Foundation, Open Data Armenia и многие другие организации и компании, защищающие приватность и цифровые права пользователей на всём Евразийском пространстве.

Организационно Privacy Day 2024 будет поделена на три трека: «Проблемы приватности в бизнесе», «Защита частной жизни граждан и их цифровых прав», «Технологические тенденции».

Тон всей конференции задаст большая панельная дискуссия о проблемах приватности, которые стали очевидны с развитием искусственного интеллекта и нейросетей. С общей программой и списком спикеров можно ознакомиться на официальном сайте https://2024.privacyday.net/

Кроме того, состоится презентация новых проектов и бизнес-стартапов. А юристы DRC Qazaqstan с площадки в Алматы расскажут про ограничения VPN, шатдауны и нарушения прав интернет-пользователей в Казахстане и Центральной Азии. Запланирован и круглый стол с участием регуляторов из Казахстана, Кыргызстана, Армении, Грузии и других стран.

Начало Privacy Day 2024 запланировано на 10:00 по московскому времени 29 января 2024 года. Всё мероприятие пройдет в онлайн-формате и будет транслироваться на YouTube. Для слушателей участие абсолютно бесплатно и не потребует никакой дополнительной регистрации.

Присоединяйтесь к нам, будет интересно!

#privacyday2024 #анонс #приватность #конференции #ИИ #новости_от_DRC
Полезное чтение про данные, технологии и не только:
- Google News Is Boosting Garbage AI-Generated Articles [1] статья о том что Google News бустят новости не с оригинальных сайтов, а с тех что рерайтят оригинал с помощью ИИ. Статья под пэйволом, но, в общем, всё сказано в заголовке. Непонятно только что с этим делать.
- Paper on Sleeping Agents [2] о том как помещать бэкдоры в языковые модели которые бы могли проходить проверки безопасности. Отдельное новое направление для команд занимающихся инфобезом.
- It's time to build [3] свежая заметка от Benn Stancil о том что для того чтобы создавать дата-стартапы (инструментальные стартапы) не надо новых идей, надо старые идеи/продукты сделать современными.
Не могу с этим не согласится и примеры он приводит релевантные.
- Python Packaging, One Year Later: A Look Back at 2023 in Python Packaging [4] о том как устроены пакеты в Python, технический и прикладной обзор за 2023 год. Может показаться сугубо технической темой, но она актуальна для всех кто создаёт или распространяет пакеты для Python. От себя добавлю что пакеты для Python уже давно стали одним из отражений качества любого продукта или сервиса. Уже не просто API предоставляется, а сразу пакет для Python для доступа к API.
- SQLMesh [5] - open-source движок для преобразования данных близкий и сравнимый с dbt по идеологии и авторы которого продвигают концепцию Virtual Data Environment (VDE) [6]. Концепт как минимум интересный. Кстати, эти же ребята авторы python библиотеки SQLGlot [7], парсера и оптимизатора SQL запросов
- Omni [8] свежий стартап по BI, упомянутый недавно Benn Stancil, делают то же что и все просто проще и симпатичнее. У меня в списке продуктов на потестить визуализацию разным образом. Главное удобство - это комбинация SQL запросов и визуализации данных.
- DataHem odyssey - the evolution of a data platform, part 2 [9] подробный рассказ о эволюции аналитической платформы в Mathem со множеством подробностей про использование dbt и не только.

Ссылки:
[1] https://www.404media.co/google-news-is-boosting-garbage-ai-generated-articles/
[2] https://arxiv.org/pdf/2401.05566.pdf
[3] https://benn.substack.com/p/its-time-to-build
[4] https://chriswarrick.com/blog/2024/01/15/python-packaging-one-year-later/
[5] https://sqlmesh.com
[6] https://tobikodata.com/virtual-data-environments.html
[7] https://github.com/tobymao/sqlglot
[8] https://omni.co
[9] https://robertsahlin.substack.com/p/datahem-odyssey-the-evolution-of-95f

#readings #data #datatools #opensource #dataengineering #ai
Вообще я зарекся комментировать российские госинициативы последних лет, во первых потому что хороших мало, во вторых поскольку берегу своё душевное здоровье, хочется думать о хорошем (открытых данных в мире, например), а не об этом всём. Но на днях прокомментировал Forbes о том почему реестр военнообязанных в РФ не будут делать на Гостехе [1].

Комментарий там у меня получился "мягким", в жизни и здесь в канале я про Гостех пишу куда жёстче. Так вот от того что реестр военнообязанных не будут делать на Гостехе есть две стороны, плохая и хорошая.

Плохая в том что отсутствие Гостеха в этом уравнении даёт куда большую гарантию что этот реестр появится, что он будет разработан быстрее и дешевле. Гостех отнюдь не снижает стоимость и скорость разработки, то что это "волшебная платформа" ни от кого кроме его создателей и ФКУ не услышишь, да и не светят её технические характеристики по той же причине, слишком легко будет доказать обратное. Как бы то ни было, всем кто не хотел бы чтобы этот реестр появился - это плохая новость. Я, также, не фанат этого реестра, во всех смыслах он будет очередным инструментом репрессивного воздействия на общество.

Хорошая новость в том что, в очередной раз это демонстрация убогости того что Федеральное Пр-во РФ продвигает как Гостех. А я напомню что Гостех провалился в Москве, от него отказались в Казахстане и сейчас его российские власти пытаются продать в Кыргызстан и некоторые развивающиеся страны. Ну как продать, на самом деле его за деньги никто и не стал бы покупать, готов поспорить что даже если его кому-то "впарят", то это будет продажа в форме российского кредита и сам Гостех, по сути, в этих переговорах - это продажа "инструмента мягкой силы", создание зависимости у другого государства от российской цифровой инфраструктуры. Чем больше будет таких публичных историй провала Гостеха, тем меньше шансов что даже от таких "роскошных" условий внедрения Гостеха другие страны откажутся.

Да, это хорошая новость.

Я не буду в очередной раз рассказывать всё что я про эту инициативу думаю, вместо этого повторю ключевой тезис.

Гостеха не существует!

Не существует не в том смысле, что нет Platform V от Сбера на которой он построен, или что нет одноименного ФКУ которое его продвигает, или что нет каких-то мелких информационных систем которые создаются каким-то образом (технических подробностей то нет, только госмаркетинг и госпиар). Так вот Гостеха не существует в том смысле что если завтра ФКУ ликвидируют, финансирование Гостеха прикроют, кого-то из этой команды уволят, а кого-то посадят, так вот для РФ как государства и для граждан - это будет абсолютно незаметно!

Потому что ничего критически значимого зависящего от инфраструктуры и инструментов Гостеха в РФ как в государстве сейчас нет. В отличие от: Электронного бюджета, АИС Налог-3, ЕПГУ, ЕИС, многих других критичных федеральных государственных информационных систем.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/504631-vlasti-otkazalis-ot-idei-sozdania-servisa-elektronnyh-povestok-na-platforme-gosteh

#thoughts #govtech #russia
В рубрике данных которых нехватает, я сегодня задал вопрос на Reddit'е [1] на который, если честно не особо ожидаю увидеть ответа который бы меня устроил. А вопрос про наличие датасета ISO3166-2 включающего коды всех подрегионов стран. Эти данные есть в Википедии, рассеянные по статьям вроде ISO_3166-2:AM [2] (часть ISO 3166-2 по Армении) и так по каждой стране. Но вот цельный датасет мне нигде не попадался, также как и датасет включающие страны вместе с макрорегионами. Опять же в удобном, легко загружаемом формате, потому что так-то данные связки страны и макрорегиона извлекаются из открытых систем Всемирного Банка, ООН и других международных структур.

Но более всего интересно иметь библиотеку для Python позволяющую быстро по разным кодам страны/региона/подрегиона получать все необходимые метаданные такие как: развание, разные уникальные коды, иерархию и ещё уметь идентифицировать страну или регион каким бы языком она не была написана: "USA", "США", "United States", "United States of America" на примере США и таких примеров много. В идеале ещё и до субрегионального уровня.

В общем пока оказывается что такого инструмента нет. Просто хоть сам его создавай (шутка), но потребность в нём есть и регулярная причём

Ссылки:
[1] https://www.reddit.com/r/datasets/comments/19djrir/is_there_any_iso_3166_second_level_dataset_and/
[2] https://en.wikipedia.org/wiki/ISO_3166-2:AM

#opendata #question
В рубрике интересных наборов данных и частичный ответ на вопросы что я задавал тут и на Reddit [1] про данные по ISO 3166, мне накидали ссылок частично решающих ту же задачу:
- https://github.com/stefangabos/world_countries/tree/master/data/subdivisions
- https://github.com/dieghernan/Country-Codes-and-International-Organizations
- https://github.com/samayo/country-json
- https://www.ip2location.com/free/iso3166-2
- https://github.com/amckenna41/iso3166-updates

Последний совсем свежий проект с регулярными апдейтами и возможностью сделать локальное API для себя.

Правда ни один из них не решает задач:
1) Связки с макрорегионами/группами стран
2) Возможности найти страну/регион написанные на многочисленных языках и множеством способов.

Но в части целостных баз ISO 3166-2 и систематизации стран хорошо что есть много полезных проектов и уже есть с чем поработать.

А также обратите внимание на то как распространяют референсные данные. Где-то в виде пачки дата файлов под разные использования: csv, xml, parquet, sql, json или даже сразу генерация кода для Python или PHP. Где-то в виде API развёртываемого локально. Некоторые проекты, вроде того же iso3166-updates выглядят как хорошая дипломная работа. Превращение справочных данных в удобную базу данных с одновременной демонстрацией навыков аналитики, программирования и документирования кода.

Ссылки:
[1] https://t.me/begtin/5371

#opendata #datasets #data
Для тех кто хочет заниматься проектами на открытых данных за деньги Open Knowledge Foundation ищет серьёзного разработчика Senior Developer for a Desktop Application (React + Python + Electron) [1]. Я бы сказал что лет 10 назад я бы сам подался бы на такую вакансию, но я ни разу не JS разработчик и React меня скорее пугает (вернее все JS фреймворки это совсем не моё, синтаксис JS мне тяжело заходит), тем не менее если Вы не в России, ищите работу под частичную занятость, любите открытые данные и хотите поработать над реально нужными проектами, то это хорошая возможность. Потому что тут и открытый код, и открытые данные и полезная задача.

Ссылки:
[1] https://okfn.org/en/jobs/senior-developer/

#opendata #vacancies #opensource
Отвлекаясь немного от тем данных глобально и локально, по поводу того что РКН активно начали штрафовать зарубежных хостеров за то что те не локализовались в России, а зарубежные хостеры, в свою очередь, массово начали отказываться от клиентов у которых есть хоть какая-то аффиляция с Россией. Пример Hetzner'а и Godaddy показательны. То есть почти все хостеры где есть хотя бы какое-то количество клиентов связанных с Россией будут от таких пользователей избавляться, и не из-за санкций и не невозможности оплаты, а потому что юристы им подобное порекомендуют, думаю что уже рекомендуют достаточно активно.

Но важно не только это. По сути это регулирование и его применение РКН на практике - это шаг к полной изоляции Рунета, возможно один из серьёзнейших. Во первых оно предполагает практически прямую цензуру поисковой выдачи, а единственная поисковая компания до которой российские власти могут сейчас дотянутся - это Яндекс, потому что можно говорить что Google здесь уже нет. Во вторых надо понимать что "зарубежные хостеры" - это практически весь интернет. То есть РКН может уже сейчас _формально законно_ заблокировать вообще всё.

Такая законность - это очень мутно-херовая штука, уж простите за резкость. И без того российскую юрисдикацию воспринимают как токсичную, а тут ещё и подобное.

Кстати, есть же часы судного дня для применения ядерного оружия. А нужны часы судного дня про отключение России от интернета. Произойти это может в любую сторону, но больше шансов что будет это изнутри.

#thoughts #russia #network #regulation #internet
В рубрике как это работает у них проект PDAP, Police Data Accessibility Project [1], как очевидно из названия посвящён он доступности данных полиции в США для граждан и исследователей. Фактически это база из 1764 записей со ссылками на общедоступные данные полиции в США. Доступные в самых разных формах: геоданные в виде шэйпов, CSV файлы, страницы HTML или отчёты в PDF и с разбивкой по типу категории данных: преступность, вызовы полиции, остановки на дорогах, сведения о заключённых и так далее. Много всего и на основе этого можно, например, сравнивать штаты и отдельные графства по уровню актуальности и открытости их правоохранительных данных.

Для США это задача актуальная, полиция там децентрализована, систематизация данных процесс трудоёмкий, но одновременно с этим много хороших практик которые можно приводить в пример.

Ссылки:
[1] https://pdap.io

#opendata #usa #crime #police #data #datasets
Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее актуальных тем последних лет - это Digital Public Infrastructure или, по-русски, Цифровая общественная инфраструктура.

Что это такое? Аналог можно провести с дорогами. Они могут быть магистральными или городскими, бесплатными или платными, но они создаются, за редким исключением, как общественная инфраструктура и ограничения по их использования не дискриминационны, а функциональны (по каким-то можно ездить большегрузам, а по каким-то нельзя).

Цифровая общественная инфраструктура - это что-то вроде сети дорог или иных общественных служб. Она состоит из сервисов которые обеспечиваются государством в широком смысле для решения общественных задач.

Например:
- государственная система идентификации, примерно как авторизация через Google или Facebook, как аналогии из коммерческого мира
- государственная система платежей
- государственная система обмена персональными данными (secure data exchange)

И в этот список ещё можно добавлять некоторое число других услуг и компонентов которые выходят за пределы использования только органами власти.

Знаете что самое интересное? Спикеры по этой теме в качестве примера приводят Россию. В их трактовке, вполне логично, НСПК (карты Мир и Система быстрых платежей) - это как раз часть Digital Public Infrastructure. А то что Россия, своевременно или с запозданием, подобное делает - это как раз очень правильно и логично, чтобы не зависеть от частных/глобальных подрядчиков и сервисов. Потому что они могут в любой момент уйти, накручивать цену или иным образом выворачивать руки.

Конечно, цифровая общественная инфраструктура - это куда более глубокая концепция включающая понятия подотчетности, прозрачности, интероперабельности, инклюзивности и ещё много чего, в первую очередь, общественного надзора. Также надо понимать что это скорее социалистическая/патерналистическая модель, которая идеологически ближе к РФ, если не делать оговорку на коррупцию и "сливания тем" приближённым олигополиям.

Лично я пока во многих странах виду движение в сторону DPI и даже предполагаю что рано или поздно это может стать одной из зонтичных концепций продвигаемых одной из междгосударственных структур.

#thoughts #digital #infrastructure
В рубрике интересных каталогов данных UN Arab Region Data and Policy Support Hub [1] и ARGP: Arab regional geospatial portal [2] порталы данных платформы регионального сотрудничества ООН посвящённые арабским странам.

Отличаются тем что агрегируют довольно много данных из других порталов ООН (data.un.org, data.worldbank.org) и других источников около 10 тысяч наборов данных часть из которых представлена статистическими индикаторами, часть геоданными. Поскольку агрегация данных выборочная лишь частично то много данных собрано не только по арабским странам.

Также декларируют наличие данных и моделей для машинного обучения. Хотя вот это для меня загадка поскольку почти все индикаторы там внутри - это годовые показатели, впрочем в геоданных есть наложение разных детализированных данных и там такое применение вполне логично.

Туда же можно отнести поисковую систему Manara (Istinara) позволяющая искать по миллионам ООНовских документам данным и картам. Конкретно сейчас поиск по данным у них был поломан, но поиск по картам работал вполне сносно

Ссылки:
[1] https://data.as-rcp.org
[2] https://data.as-rcp.org/GIS
[3] https://manara.as-rcp.org

#opendata #data #indicators #datacatalogs #un