Ivan Begtin

Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google

Brookings

How China uses search engines to spread propaganda

Beijing has exploited search engine results to disseminate state-backed media that amplify the Chinese Communist Party’s propaganda. As we demonstrate in our recent report, users turning to search …

1.7K viewsIvan Begtin, 08:56

Ivan Begtin

Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators

1.8K viewsIvan Begtin, edited 09:29

Ivan Begtin

Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket

2.5K viewsIvan Begtin, 11:52

Ivan Begtin

Полезное чтение про данные и не только:
- о том что языковые модели для ИИ позволяют делать гораздо больше чем представляли их создатели [1]
- новый способ визуализации SQL JOIN'ов. Полезно для образовательных целей [2]
- отчет Open Data Institute о практиках повторного использования данных о здоровье в Европе [3]
- дроны управляемые ИИ с распознаванием образом уже летают лучше чем управляемые лучшими мировыми пилотами [4]
- о том как рисовать хорошие и понятные схемы [5]
- декомпозиция интервью с инженерами данных [6]
- полезный гайд по инженерии данных [7]

Ссылки:
[1] https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress
[2] https://towardsdatascience.com/you-should-use-this-to-visualize-sql-joins-instead-of-venn-diagrams-ede15f9583fc
[3] https://secondary-use-health-data.theodi.org/
[4] https://spectrum.ieee.org/zurich-autonomous-drone-race
[5] https://towardsdatascience.com/how-to-make-great-schemas-4940e4951a44
[6] https://afroinfotech.medium.com/cracking-the-data-engineering-interview-part-1-structure-28dd05705d4a
[7] https://www.blef.fr/learn-data-engineering/

#data #readings

The Economist

Huge “foundation models” are turbo-charging AI progress

They can have abilities their creators did not foresee

1.8K viewsIvan Begtin, edited 08:07

Ivan Begtin

Продолжаю делиться цифрами и аналитикой по реестру аккредитованных ИТ компаний.

В приложенном файле разбивка по аккредитованным ИТ компаниям из реестра аккредитованных их лицензированная деятельность.

Важно помнить что у одной компании может быть больше одной лицензии и внутри лицензии может быть более одной деятельности.

Из более чем 27+ тысяч компаний лицензии в ЕГРЮЛ есть, на сегодняшний день, у примерно 3644.

Поэтому надо исходить из того что эта таблица охватывает многое, но не всё, информация не из всех реестров есть у ФНС, есть виды деятельности не подлежащие лицензированию, есть и другие реестры и тд.

Но журналистам которые ищут экзотические юридические лица каким-то непонятным (на самом деле понятным) образом получившие аккредитацию, такие данные будут полезны.

Disclaimer: Эта таблица основана на открытых и общедоступных данных раскрываемых Минцифрой РФ, ФНС России и иными органами власти РФ.

Как я говорил база данных по ним готова, а делать ли интерфейс над ней и как, я ещё думаю. Команда занята другими проектами, а это пока живёт в режиме пэт проджекта.

#opendata #data #itmarket #datassets

1.5K viewsIvan Begtin, 12:07

Ivan Begtin

itorgs_by_license_activities_20220710.xlsx

300.2 KB

itorgs_by_license_activities_20220710.csv

4.7 MB

1.5K viewsIvan Begtin, 12:07

Ivan Begtin

В качестве примера раскрытия кода алгоритмических систем, в Великобритании команда портала GOV.UK опубликовали код рекомендационной системы [1], той, которая на портале, выдаёт список страниц которые ещё могут быть интересны пользователю. На сайте это выглядит как Related content об этом команда пишет в блоге [2] и про раскрытие информации по стандарту алгоритмической открытости [3].

Конечно, рекомендательная система имеет не такое значение как скоринговые системы или системы распознавания образов или системы отслеживания поведения граждан и тд. Они всего лишь рекомендуют, но добровольное раскрытие кода даже таких систем - это важный шаг в постепенной открытости алгоритмов и работы ИИ в будущем.

А в данном случае ещё и интересно почитать технические подробности реализации [4]

Ссылки:
[1] https://github.com/alphagov/govuk-related-links-recommender
[2] https://insidegovuk.blog.gov.uk/2022/07/04/opening-up-our-code-and-logic-for-algorithmic-decision-making/
[3] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[4] https://apolitical.co/solution-articles/en/machine-learning-government-algorithm

#opensource #ai #transparency #government #uk

GitHub

GitHub - alphagov/govuk-related-links-recommender: Machine learning model to recommend related content

Machine learning model to recommend related content - alphagov/govuk-related-links-recommender

2.0K viewsIvan Begtin, 13:25

Ivan Begtin

Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings

NY Times

Four Takeaways From a Times Investigation Into China’s Expanding Surveillance State

Times reporters spent over a year combing through government bidding documents that reveal the country’s technological road map to ensure the longevity of its authoritarian rule.

1.6K viewsIvan Begtin, 07:14

Ivan Begtin

Наглядная иллюстрация будущего ИИ которое нас ждёт, нас это в смысле, программистов, инженеров и всех остальных кто с ИТ работает - это ИИ способный читать код.

Саймон Вилсон применил GPT-3 к участкам кода [1]. На скриншотах примеры кода, вопросы и полученные ответы.

Помимо того что это забавно, это ещё и серьёзный шаг вперед. ИИ способный читать код может контролировать качество кода, идентифицировать ошибки, отслеживать прогресс разработки.

Иначе говоря быть эдаким супервайзером кода. Это примерно как со строительством. Роботы сами пока ещё не умеют строить дома (почти), но алгоритмические системы могут определять когда строители работают, а когда курят и расслабляются.

То же самое может ожидать и индустрию разработки. Даже если ИИ не будет писать код сам, следить за твоим кодом он сможет.

Ссылки:
[1] https://simonwillison.net/2022/Jul/9/gpt-3-explain-code/

#ai #ethics

1.8K viewsIvan Begtin, 11:09

Ivan Begtin

Полезное чтение про данные и не только
- "Потому что ИИ на 100% прав и безопасен" научная статья о том что 79% индусов доверяют решениям автоматических алгоритмов больше чем людям и о том что с этим делать [1]
- подборка 5 инструментов с открытым кодом по прослеживаемости данных. Не нашёл там чего-то радикально нового, но всё разумно и кратко-сжато изложено [2]
- каталог данных Tokern [3] автор делает примерно то же что и я, headless data catalog, и тоже через автоматическое определение типов данных с акцентом на чувствительные данные. Конкуренция это хорошо, есть на что посмотреть.
- очень неплохая научная статья про текущее состояние MLOps [4]

Ссылки:
[1] https://research.google/pubs/pub51146/
[2] https://blog.devgenius.io/5-best-open-source-data-lineage-tools-in-2022-f8ef39a7d5f6
[3] https://tokern.io/
[4] https://arxiv.org/pdf/2205.02302.pdf

#ai #readings #datatools #data

Google Research

"Because AI is 100% right and safe": User Attitudes and Sources of AI Authority in India – Google Research

1.8K viewsIvan Begtin, 14:28

Ivan Begtin

Я несколько дней комментировал СМИ по поводу нового законопроекта (почти закона) вводящего оборотные штрафы за утечки персональных данных и, вроде бы, ещё не писал здесь.

Сформулирую несколько ключевых тезисов:
1. Утечки персональных и иных конфиденциальных данных - это, безусловно, серьёзная проблема. Она стала серьёзнее с того момента как российские компании потеряли возможность на диалог с зарубежными регуляторами и теперь не могут получить содействия в удалении утекших данных с зарубежных хостингов.
2. К предыдущим проблемам утечек связанных с работой коммерческих хакеров сейчас добавилась идеологизированная ситуация с тем что утечки не только происходят, но и на их основе создаются интерактивные продукты ориентированные уже не на хакеров, а на обывателей, чем обывателей довольно сильно пугают.
3. Декларируемый законопроект призван, как может показаться из выступлений инициаторов, защитить гражданина от утечек, а ещё точнее "ввести драконовские меры" напугать цифровые компании чтобы те вложили больше ресурсов в безопасность пользовательских данных
4. Все основные меры законопроекта - карательно контрольные. Мол получите штраф, подключитесь к ГосСопке и получите ещё штраф если не уведомили пользователей.
5. Главное чего нет в законопроекте - это интересов гражданина и пользователя. Штрафы идут в федеральный бюджет а гражданин не получает компенсации, ни материальной, ни моральной. Он вообще ничего не получает кроме того что узнает что вот этой компании сделали больно.
6. В то же время последние выступления о том чтобы ввести 3-х уровневое наказание для компаний и за первую утечку только пожурить вызывают только смех. У большинства крупных цифровых холдингов и не было больше одной утечки за последние 10 лет. Вот утечет вся база Госуслуг, чтоже, за первую утечку только пожурят? Очень смешно
7. Поэтому я не могу назвать эту меру ни то что системной, но и даже осмысленной. А самое главное, будущий закон не предлагает пути минимизации утечек как явления.
8. Что для этого нужно? Во первых, как минимум, введения требований по страхованию компаний от утечек и требований по обязательному полугодовому/годовому техническому аудиту. Это очень не понравится цифровым компаниям, потому что страховки будут дорогими, а в свою инфраструктуру никто пускать не любит, но ответственность за утечку должны нести, и компания, и аудитор.
9. Во вторых, и это важно, страховые выплаты в случаях утечек должны идти на покрытие судебных издержек и выплаты пользователям.
10. И, в третьи, и это тоже важно, если и вводить оборотные штрафы, то они также должны идти не в федеральный бюджет, а в специальный фонд по аналогии агентства страхования вкладов для выплат потерпевшим. А оборотные штрафы накладывать надо с учётом холдинговой структуры ИТ бизнеса, иначе у многих компаний сейчас будет ох[р]ененный соблазн вешать свои информационные системы на свои расходные, а не доходные дочерние компании, а потом штрафы платить именно с них.

#thoughts #regulations #dataleaks

8.6K viewsIvan Begtin, 15:57

Ivan Begtin

Много лет назад, когда в России только-только появился термин вначале "Большое Правительство", а потом "Открытое Правительство" - это были форматы которые декларировались властью, тогда это был Дмитрий Медведев, как форма коммуникации и открытости с гражданами. Я тогда состоял в экспертном совете при Пр-ве и ещё в какой-то дюжине разных экспертных и общественных советов, везде продвигая одну и ту же мысль что открытость данных - это неотъемлимая часть современного гос-ва.

Но эта открытость и коммуникация была, как бы, публичной стороной этих структур. Непубличным, но более очевидным был даже не лоббизм, а расширенная форма вовлечения в государства без государственной службы.

Для тех кто не знает, государственная служба несёт очень много формальных ограничений, не только в виде сдачи деклараций о доходах, но и с формальной невозможностью совмещения, например, с руководством какими-либо коммерческими юридическими лицами. Понятно что для верхней касты номенклатуры эти ограничения хоть и формально есть, а по факту... Многочисленные расследования общеизвестны.

Эти ограничения порождали большой запрос у части "лиц приближённых" на статус, с одной стороны государственный, а с другой госслужбой не обременённый. Отсюда все эти многочисленные гос-НКО, отсюда многочисленные правительственные комиссии, советы, рабочие группы и иные формализованные консультативные объединения. С одной стороны они не обладают юридическим статусом, а с другой их вес в выстроенных отношениях с аппаратами Пр-ва и другими органами власти.

Так вот, когда я читаю о том что Пр-во организует стратегическую сессию по обсуждению кандидатов на роль глав индустриальных центров компетенций по замещению зарубежных продуктов в ключевых отраслях экономики [1] у меня стойкое дежавю.

Если вчитаться в список кандидатов, то очевидно что все они, либо главы госхолдингов, либо крупного связанном с гос-вом бизнеса. Понятно что эти центры компетенций это инструмент влияния на рынки их присутствия и то что за импортозамещение отвечают представители крупнейших олигопольных структур (за редким исключением) - это как раз модель делегирования власти и ответственности из Пр-ва, в эти индустриальные центры.

Экономисты назвали бы это продолжением чеболизации экономики, а я назову это размыванием власти. Впрочем сложно придумать более эффективный способ хоронить какие-то инициативы чем создавать центр компетенций. Хотя, ещё вариант, создавать межведомственные рабочие группы. Звучит не так красиво, конечно, но масштаб трагедии будет сопоставим.

Ссылки:
[1] https://www.rbc.ru/economics/11/07/2022/62cbf3d89a79472e7830a3a7

#government #russia

2.1K viewsIvan Begtin, edited 21:07

Ivan Begtin

Иногда полезно перечитывать отложенные ещё в прошлом году материалы и там есть интересные идеи.

Например, возможно, мало кто слышал про подход к разработке информационный систем Documentation-first или Docs First.

Это идея когда всё делается наоборот, а не как в привычном цикле. Вначале пишут документацию, потом по ней проектируют спецификации (API) и только потом пишут код.

То есть цикл не: код -> спецификация -> документация, а документация -> спецификация -> код

Об этом выступал Rahul Dighe на конференции ASC 2021 [1] с аргументами что разработчики - это тоже пользователи и заботится о них нужно ещё начиная со стадии проектирования.

Подход хоть и спорный, но интересный с точки зрения практики. Очень хочется какой-то живой пример где такой пример бы сработал.

А ещё он интересен с точки зрения самого подхода. Перевернуть цикл разработки с, казалось бы, привычной последовательности. А какие ещё процессы можно рассмотреть в той же модели? Так чтобы их можно было перевернуть ?

Ссылки:
[1] https://events.linuxfoundation.org/archive/2021/openapi-asc/program/schedule/

#API #ideas #documentation #docsfirst

1.7K viewsIvan Begtin, edited 06:39

Ivan Begtin

TAdviser пишет что Минцифры отменит отсрочку от армии для части ИТ-специалистов [1]. TAdviser не спрашивали у меня комментарии и не запрашивали данные по реально экзотическим юрлицам в реестре аккредитованных. Наверное не читают. TAdviser молодцы, делай как TAdviser ;)

Ну а если серьёзно, то аккредитация ИТ компаний превратилась в профанацию. Если сам статус аккредитованной ИТ компании далее хоть как-то планируют использовать, то его, по любому, необходимо корректировать.

Наиболее корректное изменение - приравнение аккредитации к налоговым льготам. Аккредитация должна идти в два шага. Первый - заявление в Минцифры, второй - подтверждение в ФНС.

А если кому-то очень хочется каких-то льгот раздать всем остальным, то и придумайте новый реестр. Типа, реестр разночинцев всяких правительству угодных и льгот достойных. И там всякого, ликом льстивого, челом яро бьющего, да ретивого, включать.

А называть их всех ИТ компаниями было, ну такое, хреновая идея с самого начала.

Ссылки:
[1] https://www.tadviser.ru/index.php/Статья:Льготы_и_меры_поддержки_для_ИТ-компаний_в_России

#itmarket #policy #laws

TAdviser.ru

Власти снизят налоговую нагрузку на компании, внедряющие российские ИТ-решения

Статья Льготы и меры поддержки для ИТ-компаний в России, Поддержка ИТ-специалистов, Льготная ипотека, Отсрочка от армии, Поддержка ИТ-компаний, Аккредитация для получения поддержки, Налоговые льготы, Льготные кредиты, Гранты, Власти снизят налоговую нагрузку…

2.1K viewsIvan Begtin, 08:56

Ivan Begtin

all_by_list_20220711_public.xlsx

217.3 KB

А раз Минцифры таки начнут чистить реестр аккредитованных компаний, то вот ещё один кусок из нашей аналитической базы. Это разного рода списки компаний, сортируются по первой колонке "category" включают такие категории как
- Разработка, производство, испытание и ремонт авиационной техники
- Финансовые организации
- Частные охранные организации
- Организации имеющие государственного или муниципального учредителя (РФ)
- Организации имеющие ПО зарегистрированное в реестре отечественного ПО
- Больничные организации
- Страховые организации
- Некоммерческие организации
- Радио и телекомпании
- Телекоммуникационные компании
- Высшие учебные заведения

Обратите внимание что почти все телеком компании в России были аккредитованы как ИТ.

Ну и остальных там хватает.

Это только те организации которых хотя бы 4 в одной категории набирается, а ещё куча разной экзотики вроде онлайн аптек, гостиниц, риэлторов и тд.

Но пусть с этим сами сотрудники Минцифры РФ уже разбираются.

#opendata #data #analytics #itmarket

1.8K viewsIvan Begtin, 09:09

Ivan Begtin

Те кто когда-либо читали законы, постановления, указы и приказы на регулярной основе, наверняка, замечали что удивительно что все они написаны текстами, а не наборами инструкций.

В мире есть какое-то число инициатив по систематизации нормативных документов, таких как gitLaws или Akomo Ntoso, но в целом прогресс невелик. Отчасти от того, что есть значительное число юристов которые в результате потеряют работу, отчасти от объективной сложности применения чётких правил к нечёткой области деятельности, а отчасти поскольку законы создаются в рамках государственной модели, а многие конституции написаны так что парламенты имеют право принимать любые законы (!).

Иначе говоря есть две противоположные позиции. Одна в том что все НПА поддаются декомпозиции в чёткие правила, а другая в том что нельзя лезть с автоматизацией туда где нужно помнить о гибкости.

Лично я считаю что истина где-то посередине и истина в том что если делать платформу по разработке НПА, она должна более напоминать nocode/low-code платформы чем git или программный код в чистом виде.

Дело в том что явной автоматизации поддаются до 95-99% всех нормативных документов. Какие-нибудь распоряжения о назначении или увольнении и многие типовые указы, распоряжения и тд. Законы, также, вполне чётко могут быть разделены на новеллы и изменения накладываемые автоматически.

При этом, при подготовке любого НПА технологически должно быть возможно:
а) Иметь возможность готовить НПА в режиме конструктора норм.
б) Включить режим ручного написания текста, а не конструктор норм.
в) Иметь сервис способный автоматически проверять корректность/четкость/понятность норм и восстанавливать структурированные нормы из вручную написанного текста.

При это важно помнить что написание правил и законов - это основная функция госаппарата. Лично мне неизвестны чиновники ни в одной стране кто с энтузиазмом воспринимал бы идеи по контролю за их работой. Поэтому никто и не финансирует такие проекты по настоящему, не применяет языковые модели вроде GPT-3 к анализу новых НПА и корпусов законов.

Тем не менее я придерживаюсь мнения что рано или поздно автоматизация в этой области произойдёт. Эволюция правовых систем в новом поколении будет применять обратную реконструкцию норм из текстов в утилитарных целях - лоббирование, судебные разбирательства и тому подобное.

#legaltech #government #laws

5.2K viewsIvan Begtin, 16:47

Ivan Begtin

Счетная палата США (GAO) опубликовала доклад Federal Spending Transparency: OIGs Identified a Variety of Issues with the Quality of Agencies' Data Submissions [1] посвящённый полноте и качеству раскрытия информации о федеральных государственных расходах. Для тех кто не следил за практиками раскрытия данных в США, эти данные раскрываются в рамках закона DATA Act в котором сформулированы требования и рекомендация к органам власти по публикации этих сведений. В отличие от России и многих стран с централизованными системами закупок, органы власти США гораздо свободнее в выборе процедур, отборке контрагентов и собственных правилах осуществления закупок. DATA Act не создавал новую систему, а требовал от упомянутых там органов власти передавать данные по определенным форматам Казначейству США.

А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.

Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.

Они использовали следующие критерии для оценки
• Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
• Completeness of agency submission: полнота данных передаваемых агентствами
• Timeliness of agency submission: своевременность данных передаваемых агентствами
• Completeness of data elements: полнота элементов данных
• Timeliness of data elements: своевременность элементов данных
• Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться

Ссылки:
[1] https://www.gao.gov/products/gao-22-105427

#procurement #usa #usaspending #dataact #accountingchamber

2.4K viewsIvan Begtin, edited 19:53

Ivan Begtin

В рубрике как это работает у них, государственные порталы открытых данных постсоветского пространства.
- data.gov.kg - Кыргызская республика. 644 набора данных. Большая часть данных в формате XLSX. Большая часть данных - статистика. Лицензия для данных не указана. Работает на CKAN
- data.egov.kz - Республика Казахстан. 3575 наборов данных Лицензия для данных не указана. Лицензия для данных не указана. Для выгрузки требуется авторизация через личный код ИИН в стране. По факту не открытые данные
- data.gov.ru - Российская Федерация. Более 26+ тысяч наборов данных. Большая часть данных административные файлы CSV минимального объема. Практически не развивается с 2016 г. Работает на DKAN.
- data.egov.uz - Республика Узбекистан. 4237 наборов данных, собственная разработка. Большая часть данных во внутреннем хранилище, не в виде файлов. Поддерживают экспорт в Excel, XML, CSV, RDF и JSON. Лицензия Creative Commons. Есть открытые наборы данных для обучения ИИ (!)
- opendata.az - Республика Азербайджан. Несколько сотен наборов данных, лицензии не указаны, данные предоставляются в виде веб сервисов, с нерегулярным обновлением. Большая часть данных справочники.
- data.gov.lt - Республика Литва. 1770 наборов данных. Данные под лицензией Creative Commons. Работает на собственном движке. Включает не только открытые, но и инвентаризированные данные допустимые к открытию по запросу. Больше половины наборов данных - геоданные.
- data.gov.lv - Республика Латвия. 622 наборов данных. Сайт на базе Drupal. Больше половины данных CSV и XLSX файлы. Все данные под лицензией Creative Commons
- avaandmed.eesti.ee - Эстонская республика. 1115 наборов данных, все под свободными лицензиями. Большая часть - ссылки на данные в других госсистемах. Много геоданных. Собственная разработка, даёт возможность поиск по географическому покрытию.

Государственные порталы открытых данных отсутствуют у Таджикистана, Туркменистана, Армении и Беларуси.

На что важно обратить внимание:
- лучший портал по смыслу и наполнению - Республика Узбекистан
- худший по доступу - Республика Казахстан (можно сказать вообще не портал открытых данных)
- наиболее замусоренный - Российская Федерация.

#opendata #postsoviet

data.gov.kg

Добро пожаловать в - Open Data Kyrgyzstan

Открытые данные и статистика государственных ведомств Кыргызстана - Data.gov.kg

3.1K viewsIvan Begtin, edited 07:04

About

Blog

Apps

Platform