Ivan Begtin
7.98K subscribers
1.76K photos
3 videos
101 files
4.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто анализирует мобильные приложения, напомню про инструменты которые используются в этой задаче.

Инструменты анализа мобильных приложений (Android)
- Exodus Privacy [1] французская НКО создающая одноименную базу и инструменты сбора сведений о трекерах встраиваемых в мобильеные приложения. Их сервис и программы анализируют .dex файлы в .apk файлах для Android'а и выявляют сигнатуры кода относящегося к трекерам.
- AppCensus [2] стартап из кремниевой долины с фокусом на динамический анализ приложений. Приложения устанавливаются на реальное устройство и замеряется то к каким сервисам они обращаются и что передают
- Mobile Security Framework [3] продукт с открытым кодом для локальной проверки мобильных приложений для Android'а. Умеет декомпилировать, проводить анализ разрешений, компонентов, безопасности приложения. Интегрирован с Exodus Privacy и ещё много чего умеет
- ICSI Haystack Project [4] проект по мониторингу мобильных приложений с академическим уклоном от Data Transparency Lab. Включает много наборов данных и мобильное приложение Lumen для отслеживания того куда приложения обращаются.

Как бороться с мобильной слежкой ? С помощью приложений создающих VPN соединения блокирующие обращения к сайтам трекеров.

Приложения для блокировки
- Blockada [5] бесплатное приложение с открытым кодом и расширенными возможностями для тех кому нужен VPN как VPN, а не просто резка трекеров.
- NextDNS [6] коммерческий сервис DNS серверов с возможностью отслеживать и фильтровать запросы к DNS со стороны собственных устройств. Может как вести журнал и предоставлять его пользователю, так и наоборот обеспечивать анонимность. Режет большое число трекеров и подключает множество блоклистов. Работает не только с устройствами Android, но и со многими другими.

Ссылки:
[1] https://exodus-privacy.eu.org/
[2] https://appcensus.io
[3] https://github.com/MobSF
[4] https://www.haystack.mobi/
[5] https://blokada.org/
[6] https://nextdns.io

#privacy #mobileapps #apps
В рубрике интересные наборы данных, наборы данных связанные с анализом мобильных приложений.
- AndroZoo [1] база файлов .apk приложений для Android c более чем 16 миллионами приложений. Только сжатый файл csv с описанием более 2GB, а все файлы, конечно, гораздо большего объёма. Доступ предоставляют исследователям по запросу. Непонятно насколько часто обновляется, последнее упоминание научных работ в 2016 году
- MalDroid 2020 [2] база зловредных приложений для Андроида собранная в Универститете Нью Брунвика. Включает 17,341 приложений, доступ по запросу. У них же там много других датасетов, связанных с кибербезопасностью, даркнетом и тд [3]
- Android Malware Datasets [4] подборка ссылок на наборы данных вредоносных мобильных приложений для Android

Наборов данных гораздо больше, многие из них создают внутри университетов для исследования переупаковки приложений, наличия вредоносного кода, наличия рекламного кода (adware), сетевой безопасности, распространения технологий и многого другого.

Ссылки:
[1] https://androzoo.uni.lu/
[2] https://www.unb.ca/cic/datasets/maldroid-2020.html
[3] https://www.unb.ca/cic/datasets/index.html
[4] https://github.com/traceflight/Android-Malware-Datasets

#privacy #datasets #android #apps
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте проекта "Госрасходы" теперь доступен модуль "Бюджет"!

Мы давно планировали обработку данных о федеральном бюджете и рассматривали несколько вариантов источников данных. Хотели использовать ежедневно обновляемые сводные бюджетные росписи, но они пока, к сожалению не очень корректные. Поэтому остановились на ежемесячных отчетах об исполнении федерального бюджета, публикуемых Казначейством России. Информацию из отчетов дополнили наборами данных бюджетной классификации, опубликованых Минфином России.

В процессе агрегирования информации и разработки базы данных мы выявили неполноту данных и некоторые серьезные и мелкие ошибки как в отчетах об исполнении бюджета, так и в открытых данных. Надеюсь, что эти наработки станут началом взаимодействия по качеству данных между финансовыми госорганами и СП РФ.

Первая версия модуля содержит данные о расходах федерального бюджета с 2016 года по текущий год, включая отчет на 1 августа 2021 года. Текущий функционал модуля позволяет:

- изучать расходы бюджета в разрезе разделов и подразделов, ГРБС (главных распорядителей бюджетных средств), госпрограмм и подпрограмм, нацпроектов и федпроектов;

- осуществлять поиск по КБК. Пока только по полному совпадению, но в следующих версиях мы его доработаем. Для каждого найденного в базе КБК доступны значения всех используемых классификаторов, а также все доступные в базе «строки бюджета» с информацией об исполнении бюджета по месяцам за последние 5 лет;

- упростить для граждан изучение расходов бюджета за счет предоставления во всех строках бюджета полной расшифровки КБК. Помимо этого мы «переработали» представление бюджета из иерархической «лесенки Минфина» до детализированных строк, что позволило нам сократить объем предоставляемой информации и упростить обработку данных для аналитиков и программистов;

- изучать утвержденные, исполненные и неисполненные расходы федерального бюджета. Из-за особенностей структуры отчетов Казначейства России мы предоставляем детализацию до групп, подгрупп и элементов расходов;

- ознакомиться с глоссарием и справочниками, используемыми в федеральном бюджете. При этом справочники, представленные на сайте проекта, не являются копией наборов данных Минфина России. Они дополнены, выверены и в некоторых случаях перепроверены вручную (можно даже сказать, что трудоемкость выверки справочников сопоставима с трудоемкостью разработки базы данных и веб-интерфейса).

Сейчас мы представили только первую версию, но уже обсуждаем и рассматриваем множество доработок и обновлений:

- опубликовать открытые данные, API и добавим возможность скачивать информацию со страниц сайта;
- продумываем добавление возможности изучать и сравнивать на сайте данные по месяцам и годам;
- провести вебинары по работе с модулем и записать скринкасты;
- дополнить раздел информацией о доходах бюджета и источниках финансирования дефицита бюджета;
- связать строки бюджета с контрактами и субсидиями;
- добавить годовые отчеты об исполнении федерального бюджета;
- и, конечно, запланировать на следующий год разработку модуля «Региональные бюджеты».

Хочу поблагодарить команду проекта, без интенсивной, талантливой и вдумчивой работы которой данный модуль (да и весь проект) не был бы разработан, Ивана Бегтина за участие в проектировании проекта и работу над ним даже после выхода из СП РФ и, конечно, СП РФ и Алексея Кудрина за то, что в 2021 году проект поддерживается и развивается, а открытые данные включены в повестку и стратегию СП РФ.

spending.gov.ru
У института Ады Лавлейс, специализирующегося на темах AI, вышло исследование Participatory data stewardship [1] о совместном надзоре/контроле/управлении данными с вовлечением пользователей, владельцев данных и иных вовлеченных сторон. На русский язык это можно перевести как "Совместное управление данными", но и это будет недостаточно точно.

Исследование интересно тем что описывает то чего почти нет в Российской практике, сбор обратной связи от получателей результата и вовлеченных сторон при создании крупных или значимых банков данных. Например, если создается банк геномных данных людей больных редкой генетической болезнью, или если это данные о городской среде, или если это данные медицинских анализов нужных в исследовательских целях.

Авторы приводят много разных примеров, системно подходят к вопросу описания проблем и задач которые решаются через такое совместное управление данными, но, ещё раз, совершенно далеки от российских реалий, где само понятие трастов данных (доверительных фондов управления данными) не существует.

Изучать эти материалы полезно, в любом случае.

Ссылки:
[1] https://www.adalovelaceinstitute.org/report/participatory-data-stewardship/

#data #datastewardship
Для меня, если честно, тема выборов скорее неинтересна, а про технические особенности и проблемы с электронным голосованием в Москве хорошо пишут более мотивированные к этому авторы. Я сфокусируюсь на системных проблемах подрывающих доверие к системе электронного голосования у нас в стране с самого начала её апробации/запуска/тестирования.

1. На всякий случай я напомню что есть такое явление как разделение власти оно прописано в Конституции и предполагает независимость каждой ветви власти друг от друга. В частности, избирательные комиссии не являются органами власти - это особые структуры не находящиеся в подчинении федеральной власти или властей субъектов федерации. Принцип их формирования основан на независимом проведении выборов. Поэтому большая часть информатизации выборов все эти годы (десятилетия) шли с тем что ЦИК РФ был основным заказчиком работ системы ГАС Выборы. Для электронного голосования этот принцип был нарушен, разработка систем была передана исполнительным органам власти в лице ДИТ Москвы и Минфры России. Даже если предположить что там работают прекрасные люди, желающие стране хорошего тем не менее, они не являются и не могут являться даже формально независимыми сторонами.

2. Важная характеристика любой системы, в том числе информационной, это просматриваемость/наблюдаемость, на английском языке это звучит как observability. Главное отличие от прозрачности в том что прозрачность - это практическая реализация, а просматриваемость - это пригодность системы к такому наблюдению. Когда речь идёт об электронном голосовании и его реализации на блокчейне, то всё это, частично, имеет характеристики просматриваемости и прозрачности, но... Важная оговорка в том где эта система стыкуется с другими системами, техническими и человеческими. А вспомним насколько прозрачны эти системы. Есть ли цифры показывающие прозрачность и работу Госуслуг? Как получается что по такой продвинутой системе нет ежесуточной детальной статистики по демографии, активности, регистрациям, осуществляемым услугам и так далее. Аналогично по регистрации избирателей в Москве через портал mos.ru. Эти системы непрозрачны, ненаблюдаемы, не предполагающие не то что раскрытия их кода, но и даже раскрытия самых базовых показателей, не говоря уже о чём либо ещё.

3. В целом, участие Венедиктова как эдакого "общественного омбудсмена" дискредитирует электронное голосование не меньше чем его результаты. Венедиктов ничего не понимает в технической стороне, безапелляционные его утверждения настолько вне-рефлексивны и настолько не допускают даже вероятности ошибки (а добросовестные ошибки тут возможны), что не возможно делать никаких других интерпретаций кроме того что "человека назначили защищать, он и защищает как может". Может он плохо, от этого всё выглядит ещё хуже.

4. Раскрытие исходного кода электронного голосования выглядит довольно удручающе. Публиковать в репозитории код без документации, в виде архивов, это, конечно, показывает что, или это сделано "на отвали", или разработчики просто не имеют квалификации работать с репозиториями кода.

5. И, чуть ли не самое главное, а кто проектировал систему электронного голосования? Кто её архитектор, проектировщик, ведущие разработчики? не Венедиктов же и не Артём Костырко, выступающие говорящими головами. Получается что, либо разработчики настолько стыдятся своей работы что не готовы о ней говорить, либо их заказчиики боятся их выступления потому что "косяки" системы станут ещё более очевидными.
Схемы, логика, бизнес-процесс, архитектура этой системы должны быть открыты, равно как и должны быть открыты те кто её создает.

#opensource #opendata #observability #transparency #openness #elections
Вокруг разговоров про импортозамещение, в основном, вокруг того как госорганам и компаниям надо переходить с зарубежного ПО и оборудования на российское, не могу не отметить значительную, скажем так, лукавость происходящего.

Я вот уже давно веду реестр госдоменов [1] в форме открытого репозитрия на Github, куда выкладываю уже очищенные данные. А также анализирую госинфраструктуру, в первую чтобы заархивировать [2], во вторую очередь чтобы наполнять данными каталоги данных вроде APICrafter'а [3], так вот могу сказать что наши госорганы и госструктуры вовсю используют зарубежную инфраструктуру. Сейчас сделаю значительное лицо и напишу что хостят госсайты в странах НАТО!, и, на самом деле, понятно почему это происходит, потому что качество хостинга и сервисов часто там лучше, а вот непонятна вся эта риторика про импортозамещение.

Вот несколько примеров:
1. Карта дорог Росавтодора хостится map.rosavtodor.gov.ru хостится во Франции на хостинге OVH по адресу 5.135.6.198
2. Непонятный домен госуслуг trackpos.gosuslugi.ru используемый в рассылках Sendpulse на хостинге Hetzner по адресу 168.119.2.85
3. Инфраструктура электронной переписки портала госзакупок zakupki.gov.ru находится в облаке Microsoft и указывает на почтовый сервер zakupki-gov-ru.mail.protection.outlook.com, IP адрес 104.47.8.36

А также не буду показывать пальцем на онлайн ресурсы одного города федерального значения где часть доменов указывают на адреса за пределами российской юрисдикции.

Здесь я не призываю это запретить, призываю лишь определиться и если меньше двуличности с импортозамещением.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://ruarxive.org
[3] https://data.apicrafter.ru

#government #infrastructure #it #domains
Примерно 16 лет, с небольшими перерывами, я так или иначе был связан с проектами по работе с данными о госфинансах. Начиная с первой версии портала госзакупок, продолжая многочисленными общественными и госпроектами.

Среди этого всего есть такая большая тема как прослеживаемость госинициатив. Самых разных, инвестпроектов, госпрограмм, национальных проектов и ещё много чего, что только создаёт бюрократический аппарат. И вот тут то и засада, поскольку артефакты производимые госаппаратом оказываются не связаны между собой.
- контракты не связаны с системой управлением госимуществом
- у нормативных документов нет нормальных уникальных идетификаторов
- реестры результатов не ведутся или ограничены или закрыты (и нет к ним региональных требований)
- организовать прослеживаемость, например, ремонтов одной дороги сложно, нет привязки к ней закупок и контрактов кроме как через ключевые слова.

При этом были периоды и похуже, я помню времена 2007-2011 годов когда реестр контрактов вело казначейство, а портал закупок всело Минэкономразвития и данные не бились между собой - сопоставить контракт и закупку можно было только ценой значительных ухищрений.

Хотя сейчас ситуация лучше, но не настолько чтобы можно было проследить конкретный объект (госпрограмму, федпроект и тд.).

И когда мы проектировали проект Госрасходы (spending.gov.ru) то там была идея именно создать систему охватыващую госрасходы сверху донизу и снизу доверху. Задача сложная, начавшаяся с реестра контрактов который мы до того делали для общественного проекта Госзатраты (clearspending.ru), а потом постепенно развивавшаяся с появлением модулей:
- субсидии - сведения о субсидиях федерального бюджета (до декабря 2020 года, пока Минфин РФ не закрыл этот реестр)
- нацпроекты - национальные проекты сверху вниз, до контрактов и субсидий
- госпрограммы - госпрограммы аналогично нацпроектам, с до контрактов и субсидий

И вот, наконец-то, коллеги доделали модуль Бюджет в котором через федеральный бюджет можно увидеть отдельные его строки, а в будущем привязанные к ним контракты, субсидии и тд. Интегральный модуль, объединяющий многие данные через коды КБК.

Всё это даёт сейчас прослеживаемость государственных расходов, как минимум, от принятого закона о бюджете (пока от отчета о его исполнении) и до конкретного контракта/поставщика.

Это важные уровни общественного контроля, общественного внимания к тому как органы власти тратят деньги. По какой-то другой логике с модуля Бюджет можно было бы начать, но просто работа с контрактами была в большей готовности, но самое главное помнить что всё это про прослеживаемость только до определенной стадии и с определенной стадии. До того как бюджет формируется есть множество нормативных документов регулирующих госпрограммы, нацпроекты и иные способы объединения деятельности и финансов в рамках которых непрерывно происходят изменения. А после того как заключается контракт или выдается субсидия, деньги должны превращаться в результаты работ, оказанные услуги или поставленный товар. Должен быть произведен учёт результата, результат должен быть понимаем и пригоден к анализу. Всё вместе это и есть бюджетная прослеживаемость. В каком-то приближении это даёт возможность оценить уровень прозрачности каждой строки бюджета (расходы на конкурентные закупки - прозрачность процедур, расходы на субсидии НКО - полная непрозрачность, расходы на ФОТ - малая прозрачность, тольчо через декларации о доходах и т.д.).

Это интересная, технически сложная задача, полезная, в первую очередь, для контролёров расходов и аналитиков вокруг бюджетного процесса и работы системы госуправления.

Лично я уже уже 3-й месяц как свободный человек покинул Счетную палату для работы над коммерческими продуктами на данных, такими как APICrafter и я очень рад что коллеги в Счетной палате модуль Бюджет наконец-то запустили.

Ольга Пархимович, автор канала @ahminfin как нынешний руководитель этогг проекта и вся проектная команда проделали огромную работу и большие молодцы!
Очень важно чтобы работа над охватом всей цепочки госрасходов продолжилась и однажды можно было бы проследить каждый товар вплоть до таможенной партии, каждую работу до каждой стройки.

#spending #budgets #traceability
Australian National Audit Office (ANAO) [1] выявили что более 60% госзакупок с 2010 года в Австралии являются неконкурентными, об этом пишут Government News [2] по следам парламентского расследования начатого Парламентом Австралии с 1 июля 2021 года [3].

В Эквадоре правительтство открыло Public Contracts Observatory (Обсерватория государственных контрактов) [4] с публикацией сведений о контрактах в CSV.

В Казахстане компания Datanomix разработала набор индикаторов отслеживания криминальных денег включая анализ госзакупок [5]. Всего индикаторов не так много, около 40, часть из них могут быть автоматизированы [6]

Ссылки:
[1] https://www.anao.gov.au/
[2] https://www.governmentnews.com.au/more-than-half-commonwealth-procurement-non-competitive/
[3] https://www.aph.gov.au/Parliamentary_Business/Committees/House/ITC/Gov-fundedInfrastructure
[4] https://www.observatoriocomprapublica.go.cr/
[5] https://www.open-contracting.org/2021/09/20/how-one-data-team-is-rooting-out-procurement-corruption-in-kazakhstan/
[6] https://docs.google.com/spreadsheets/d/1diUhYGHquiQ4rKZTdx-qZvkvrtrXgpAKkzY9yxoqZzU/edit#gid=0

#opendata #data #procurement
​​📈Где в России пропадают люди
В рамках нашего уральского дата-трипа команда из Перми проанализировала данные МВД о пропавших людях. Из интересного:

🕷Ежегодно в Росии пропадает 150 тысяч человек. Это, чтобы вы понимали, население подмосковской Коломны или целого района Кузьминок

🕷 Больше всего пропадает (вернее, чаще всего заявляют о пропаже) помимо Москвы и Петербурга в Новгородской, Свердловской областях, В Ставропольском и Краснодарском краях, Мордовии и Татарстане.

🕷Одно дело пропасть, другое, чтобы вас нашли. Тут дела обстоят намного интереснее. Если вы потерялись на Чукотке или в Южной Осетии, шансы, что вас найдут минимальны. А вот если вы потерялись в Чечне, то они почти равны нулю. Из 9741 человека, которые потерялись в 2017-2020 гг., нашли только 62.

Не теряйтесь в Чечне и по жизни. А чтобы сделать больше дата-историй, приходите и приезжайте на наш уральский хакатон по дата-журналистике https://hackathon.ddjural.ru/
OpenAI представили языковую модель на базе GPT-3 для суммаризации текстов книг [1]. Суммаризатор последовательно создает краткое изложение каждой главы, а потом на основе этих кратких изложений пишет на одну страницу или меньше изложение всей книги. Сейчас для английского языка, а в будущем возможно и для других.

Конечно, OpenAI - это уже не открытый код и не открытые данные, с 2019 года - это вполне себе коммерческая компания [2] предоставляющая платный доступ к языковым моделям и инструментам на из основе.

Ссылки:
[1] https://openai.com/blog/summarizing-books/
[2] https://en.wikipedia.org/wiki/GPT-3

#ai #books
Правительственная комиссия по цифровому развитию утвердила концепцию развития технологий машиночитаемого права, о чём Минэкономразвития опубликовали новость [1] забыв опубликовать сам текст концепции. Был бы финальный текст, было бы что прокомментировать, но текста нет и даже сказать про него пока нечего. В открытом доступе есть только документы рабочей группы в Сколково которая этой концепцией занималась [2], но там не только финального текста нет, а ещё и последний опубликованный документ "Редакция проекта Концепции с учётом замечаний Рабочей группы" недоступен для скачивания.

Вообще же пресс-служба Минэкономразвития работает из рук вон плохо, зачем публиковать новость без документа? Теперь к нему изначально будет негативный настрой, потому что не надо скрывать то что не предназначено к сокрытию. Концепция предполагается как документ открытый и публичный.

Ссылки:
[1] https://economy.gov.ru/material/news/v_pravitelstve_utverdili_koncepciyu_razvitiya_tehnologiy_mashinochitaemogo_prava.html
[2] https://sk.ru/legal/automation-of-law/

#laws #regulation #it
Многочисленные напоминания про разного рода события:
- 8 октября мы проводим мероприятие Региональные данные от нашей Ассоциации участников рынка данных обсуждать будем проблемы работы с данными на уровне субъектов федерации и муниципальных властей. Интересно будет, в первую очередь, людям работающих с данными в региональных органах власти, предпринимателям работающим с региональными данными и академическим исследователям.
- 11 октября я выступаю на SmartDataConf с докладом о Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам впервые за долгое время буду говорить о чисто технических вопросах, внутрянке DataCrafter'а и предпосылках/технологиях его создания.
- где-то 20-22 октября выступаю на Евразийском конгрессе по защите персональных данных. О нём подробнее в новостях Роскомсвободы

Это не полный список, от каких-то мероприятий приходится отказываться из-за плотной загрузки. А о чём-то наоборот хочется рассказать, но пока непонятно время, площадки и тд. До конца года точно будут ещё мероприятия ассоциации, Инфокультуры и не только.

А также очень скоро мы начнём подготовку ко Дню открытых данных который проходит по всему миру каждый март каждого года (на самом деле уже начали). Если есть идеи выступлений, тем, секций которые хотелось бы на дне открытых данных поднять то пишите на infoculture@infoculture.ru или мне личным сообщением.

#events #opendata
Новость из разряда "без комментариев " главу Group-IB Илью Сачкова арестовали за госизмену [1] на 2 месяца. Что-то много стало арестов в ИТ рынке в последние годы и не только на нём.

Ссылки:
[1] https://www.rbc.ru/society/29/09/2021/6154196c9a7947f1ba715233

#itmarket
К предыдущей новости про концепцию развития технологий машиночитаемого права [1], Минэкономразвития таки опубликовали документ концепции [2]

Хорошая новость - концепция оказалась сжатой в 25 страниц, это худо-бедно нормально/приемлимо для концепции.

Нейтральная новость - концепция в целом не вредная, где-то полезная потому что ничего аномального или охранительского в ней нет, но и приземления к российским реалиям тоже нет. Благопожелания, некоторые идеи - да.

И не очень хорошее - в концепции основной целью заявлено "систематизация представлений о методах и сферах перспективного развития технологий машиночитаемого права и подготовка предложений по стимулированию развития технологий машиночитаемого права."

Я категорически не понимаю как "систематизация представлений о методах" может быть концепцией. Диссертацией - да, концепцией - нет! В общем и целом надо поблагодарить коллег за проделанную работу, но практического применения у неё сейчас сейчас нет.

Отдельно есть о чём поговорить о том что в России документы которые называют концепциями имеют очень разную структуру, модель существования и будущее. Какие-то состоят исключительно из благопожеланий, другие имеют достаточно чёткую дорожную карту их внедрения. Поэтому я и говорю что этот документ больше похож способ описания мира через мировоззрение его авторов, а не план по изменению подходов к нормотворчеству.

Ссылки:
[1] https://t.me/begtin/3117
[2] https://economy.gov.ru/material/file/792d50ea6a6f3a9c75f95494c253ab99/31_15092021.pdf

#government #documents #law #it
Forwarded from Инфокультура
Сравнительное исследование темных паттернов в мобильных и веб-версиях

Темные паттерны — это элементы пользовательского интерфейса, которые могут повлиять на поведение человека вопреки его намерениям или интересам, а также собирать о нем данные.

Представляем вам исследование Северо-Восточного Университета США, в котором авторы рассматривают 50 типов темных паттернов в вебе (десктоп, мобильный браузер) и мобильных приложениях. Всего проанализировано 105 популярных сервисов. Наиболее часто используемые паттерны связаны с нарушением приватности. Исходные данные и код исследования: https://darkpatterns.ccs.neu.edu.

Полный текст статьи: https://cbw.sh/static/pdf/gunawan-2021-pacmhci.pdf.

Хотим напомнить, что в начале 2021 года, до вступления в силу закона о предустановке отечественного ПО (в т.ч. мобильных приложений), Инфокультура исследовала приватность государственных приложений: наличие сторонних трекеров и разрешений на сбор данных. Результаты исследования: https://privacygosmobapps.infoculture.ru.
Вышло исследование Digital Economy Report 2021 [1] от UNCTAD о разных аспектах международного рынка цифровой экономики и с особым фокусом на кроссграничную передачу данных. Обратите особое внимание на приложение с обзором странового регулирования передачи данных [2]. То что кажется нам крайне странным, а иногда и запредельным, в части ограничений обмена данными происходит очень много где. Где-то это делается также дуболомно как у нас в России, где-то более изящно, но в целом тренд на strict localization (строгую локализацию) данных под эгидой защиты национальных интересов.

Российское регулирование там описано как запретительное (Restrictive), к таким же относится регулирование в таких странах как: Китай, Нигерия, Руанда, Турция, Пакистан, Кения, Индонезия и Индия.

В направлении к запретительной модели регулирования или с некоторыми её моделями в ряде секторов относят страны: ОАЭ, Саудовская Аравия, Вьетнам.

В большинстве стран регулирование не запретительно, но директивно (prescriptive) и в ряде стран регулирование пока ещё облегченное (lighе-touch): США, Канада, Максика, Сингапур, Филлипины, Австралия

Лично мне такое развитие мира не нравится, да и много кому оно не нравится. Именно поэтому и полезно читать как это происходит в мире потому что опыт стран с запретительной моделью быстро перенимают другие страны.

Ссылки:
[1] https://unctad.org/webflyer/digital-economy-report-2021
[2] https://unctad.org/system/files/official-document/der2021_annex2_en.pdf

#personaldata #privacy #regulation #data
В рубрике интересных наборов данных, открытый датасет всех доменов в проекте Domains Project [1]. Его автор собрал домены из 1522 TLD из которых 245 относятся к доменам стран, остальные домены общего типа. Общее число собранных доменов 1.7 миллиарда (1,789,946,688 на 29 сентября 2021 г.)

Все доменные имена можно скачать по адресу dataset.domainsproject.org [2] и в репозитории на GitHub [3].
После распаковки это примерно 49 гигабайт данных.

Конечно, это не единственный крупный набор данных о сетевой инфраструктуре, но полезный для тех кто изучает инфраструктуру интернета.

Ссылки:
[1] https://domainsproject.org
[2] https://dataset.domainsproject.org
[3] https://github.com/tb0hdan/domains

#opendata #datasets #data #internet #domains
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России опубликовал Проект федерального бюджета на 2022 год и удалил Закон о бюджете на 2019 год

Интересно, а можно ли опубликовать проект бюджета на новый год, не удаляя данные о предыдущих? Проект ФЗ О федеральном бюджете на 2022 год появился на портале Электронного бюджета (размещение на портале ЕПБС является официальным способом внесения Проекта в Госдуму). Одновременно с этим с портала исчез Закон о бюджете на 2019 год.

Ранее с портала ЕПБС были удалены все Проекты о внесении изменений, а также Законы о внесении изменений в федеральный бюджет за все годы. Бюджеты внебюджетных фондов также сейчас недоступны.

На портале нет мониторинга доступности опубликованных данных, поэтому обо всех подобных случаях мы узнаем только из-за ежедневного использования этих данных. После таких новостей нельзя в очередной раз не задуматься о цифровой архивации. Публикация информации в текущем виде приводит к отсутствию возможности скачать бюджет целиком (в виде архива), о необходимости которой мы говорим с 2012 г.
ФСБ утвердило приказ от 28.09.2021 № 379 "Об утверждении Перечня сведений в области военной, военно-технической деятельности Российской Федерации, которые при их получении иностранным государством, его государственными органами, международной или иностранной организацией, иностранными гражданами или лицами без гражданства могут быть использованы против безопасности Российской Федерации [1]

Там много разных пунктов, некоторые абсолютно безальтернативные, например, сведения о государственных информационных системах или закупках, покрывают даже закупки и системы в части открытой части бюджета/бюджетов.

По сути возникает новая форма тайны, информации накладывающей ограничения. Масштаб всех юридических последствий понять всё ещё сложно, но он значителен и риски более чем значительны возникают у всех кто работает с открытыми данными и касается этих сведений.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202109300048?index=0&rangeSize=1

#government #data #secrets
У меня нехватает времени провести детальный анализ проекта федерального бюджета, а вот Ольга пишет об этом не только в этой публикации, но и других. Рекомендую, если интересуетесь госфинансами.