Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я тут планировал написать про великое сожаление от того что в России всё таки активно движется эта тема с предустановкой отечественного ПО на смартфоны. По последним новостям Минцифры [1] ставить будут приложения Яндекса, Mail.ru и Касперского, Госуслуги и МИР как минимум.

Да, крупные экосистемные дата-корпорации те ещё монополисты, да, есть много фактов и свидетельств их манипуляции вендорами, поисковой выдачей в их магазинах приложений и ещё много чего про них можно сказать. Но проблема в том что с момента решения о предустановке, не пользователь, а государство в лице Минцифры РФ принимает решение за потребителя о том что тот должен иметь на своём устройстве. Это как если бы государство решало за гражданина что он должен носить, какую мебель использовать и что читать (одну такую страну многие из нас всё ещё помнят).

История про импортозамещение - она вообще не про граждан. Госполитика в пользу граждан - это демонополизация через выбор, выбор поисковой системы, картографического приложения и других сервисов. Такая модель регулирования применяется в Евросоюзе.

А когда решение о выборе за гражданина принимает государство, то если устройство потребителя не потянет весь этот "ворох отечественного ПО", то и виновато в этом будет Минцифры РФ, а не Яндекс или Mail.ru
При этом и отечественные производители ПО много лукавят. Когда им надо, у них российская юрисдикция, когда не надо швейцарская [2]. У многих отечественных ИТ компаний вот уже много лет стратегия "в разных театрах - разные роли" и я скорее понимаю патовость всей ситуации в которой они находятся, не имея возможности полностью избежать плохого регулирования,
и это совсем не в адрес Минцифры, они пытаются извлечь максимум выгоды при плохой игре. Но это игра неконкурентная, про то как помочь отечественным монополиям против международных монополий, малый и средний бизнес идет побоку.

Вся эта история с предустановкой отечественного ПО становится хуже на фоне того что сейчас происходит в Казахстане с государственным перехватом доступа к сайтам социальных сетей через навязывание пользователям государственного сертификата [3] в рамках "киберучений".

Такой сертификат установленный на пользовательское устройство позволяет реализовывать атаку MITM (Атака посредника) [4] и позволяет органам госбезопасности перехватывать трафик по протоколу HTTPS.

Можем ли мы быть уверены что подобное не начнет происходить в России?

Ссылки:
[1] https://digital.gov.ru/ru/events/40238/
[2] https://t.me/begtin/2312
[3] https://www.zdnet.com/article/kazakhstan-government-is-intercepting-https-traffic-in-its-capital/
[4] https://ru.wikipedia.org/wiki/%D0%90%D1%82%D0%B0%D0%BA%D0%B0_%D0%BF%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA%D0%B0

#privacy
В блоге Евгения Яна хороший обзор платформ обнаружения данных (data discovery platforms) [1]. Их сейчас появилось много, в основном с открытым кодом и почти все от ведущих цифровых компаний. Nemo от Facebook, DataBook от Uber, DataHub от LinkedIn. Существуют и сильные внутрикорпоративные продукты, но ценник на них такой что вот эти проекты с открытым кодом особенно интересны.

Важная их особенность в том что они нужны уже зрелым организациям внутри которых есть несколько команд data science и проблемы с находимостью внутренних данных.

Но все такие корпоративные каталоги данных и платформы обнаружения данных - это уже зрелые продукты для зрелой систематизации данных и организации работы с ними.

Ссылки:
[1] https://eugeneyan.com/writing/data-discovery-platforms/

#data
Для тех кто интересуется вопросом "а как там у них с открытыми данными", а то есть международным опытом, приведу в пример французский проект "Обсерватория региональных данных" (Observatoire opendata des territoires) [1] это проект от ассоциации OpenDataFrance где собираются сведения о всех порталах открытых данных во Франции, по всем территориям.

Результаты публикуются в виде графиков [2], а также выкладываются на Github, Airtable и на портал открытых данных Франции data.gouv.fr

Все материалы только на французском языке, поэтому упоминаются редко в англозычных и русскоязычных материалах.

Ссылки:
[1] https://www.observatoire-opendata.fr
[2] https://www.observatoire-opendata.fr/resultats/

#opendata #france
Вопрос к знатокам, в июле появился очередной игрок на "поляне цифровой трансформации" АНО "Рт-Цифровая Трансформация" под Ростехом. Есть ли инсайды кто они, что они и что будут делать? Вписаны ли уже в какую-то нормативку?
Для тех кто ищет открытые данные данные для работы и не только, свежие датасет:
- Компании победители и участники конкурсов Фонда содействия инновациям - 5147 записей [1]
- Реестр производственных субъектов малого и среднего предпринимательства - потенциальных поставщиков крупнейших заказчиков - 31296 записей [2]

Оба набора данных собраны в рамках архивационной кампании по сохранению цифровых материалов институтов развития.
Следующим шагом будет полный архив сайтов этих организаций.

Со временем они будут интегрированы в такие проекты как Госрасходы [3], для учета всех расходов органов власти и государства в целом.

Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://ngodata.ru/dataset/reestrmp
[3] https://spending.gov.ru

#data #opendata #archives
Даже не знаю что сказать. Это, безусловно, очень хорошая новость, потому что ОЭСР - это одна из крупных международных организаций в повестке которой есть тема открытых данных. Теперь главное чтобы ответственные ФОИВы ответственно подходили к госполитике открытых данных, а не как одно ведомство, на которое сейчас не буду тыкать пальцем 👉
Forwarded from Майский указ
👍Михаил Мишустин попытается вернуть Российскую Федерацию в международный «элитный клуб» — Организацию экономического сотрудничества и развития (ОЭСР). Переговоры о вступлении в ОЭСР были приостановлены в 2014 году, когда экономическая организация отчего-то решила стать политической и осудила воссоединение России и Крыма.

Прошли годы, угасло напряжение, и наша страна вновь (теперь уже на официальном уровне) приступает к реализации плана по имплементации в национальное законодательство требований и стандартов ОЭСР — лучших мировых практик в сфере госуправления и борьбы с монополиями, устойчивого развития и экологии, налоговой и таможенной политик, etc. Первым перезагрузить переговорный процесс предложил экс-глава Минэкономразвития Максим Орешкин, с его уходом «знамя» подхватил вице-премьер Алексей Оверчук.

И вот премьер Мишустин утвердил весьма конкретный План работы по взаимодействию Российской Федерации с ОЭСР в 2021-2022 гг. Наряду с текущими мероприятиями ОЭСР, к участию в которых возвращаются российские чиновники, он содержит набор амбициозных и объемных задач. В частности, председатель Правительства поручил:

✔️Регулярное представление в ОЭСР данных об открытости и честности в государственном секторе экономики.

✔️Обеспечение сближения регуляторных подходов к обращению лекарственных средств в странах ОЭСР и ЕАЭС.

✔️Участие в исследовательских и аналитических программах ОЭСР по развитию технологий «искусственного интеллекта».

✔️Возврат России к участию в автоматизации программы обмена финансовых операций, в том числе для борьбы с размыванием налоговой базы.

✔️Имплементация в российское законодательство лучших практик ОЭСР по борьбе с незаконным промыслом биоресурсов.

✔️Представление Россией детальной информации для участия в стратегических для ОЭСР обзорах: от применения пестицидов и актуальных экологических данных в рамках проекта CIRCLE — до развития устойчивого производства, климатической нейтральности, образовательных программ.

✔️Отдельная тема — это поручение Мишустина об обязательном использовании опыта, наработанного странами ОЭСР, в реализации практической государственной политики управления почти по всем сферам регулирования.

Безусловно, российским топ-чиновникам (которые в последние пять лет были фактически оторваны от обсуждения вопросов в рабочих группах, комитетах и комиссиях ОЭСР) будет непросто исполнить план, утвержденный Правительством. Но «заявка на победу» от Мишустина (которая, безусловно, согласована с президентом Путиным) — амбициозна и крайне полезна как для экономики, так и для социальной сферы РФ.
В США опубликовали официальные данные по загрузке больниц во время эпидемии COVID-19 [1] с гранулярностью до каждой больницы и по неделям начиная с 31 июля 2020 года.

Также можно обратить внимание что на этом же портале HealthData.gov раскрывается 188 наборов данных связанных с COVID-19 [2] и 4634 по системе здравоохранения в целом [3], причём не менее половины данных поступает из систем здравоохранения отдельных штатов, а сам портал создан U.S. Department of Health которые также ведут HHS Protect Public Data Hub [4] где публикуются дашборды статистики, но сами данные, обязательно, публикуются на HealthData.gov, а уже оттуда транслируются на другие официальные государственные ресурсы.

Ссылки:
[1] https://healthdata.gov/dataset/covid-19-reported-patient-impact-and-hospital-capacity-facility
[2] https://healthdata.gov/search/type/dataset?query=covid-19&sort_by=changed&sort_order=DESC
[3] https://healthdata.gov/search/type/dataset
[4] https://protect-public.hhs.gov/

#opendata #data #covid19 #usa #health
Публикация данных о COVID-19 во Франции - 77 баз данных и 121 пример их использования в открытых проектах [1] на официальном портале data.gouv.fr.

Что дополнительно стоит отметить про французский опыт в открытых данных:
- их портал data.gouv.fr работает на их ПО udata [2] с открытым кодом, используется, похоже, мало где за пределами Франции
- у них опубликовано более 2447 примеров использования открытых данных [3], включая: 1132 визуализации, 667 приложений, 278 публикаций в блогах, 168 статей в СМИ и 131 API https://github.com/opendatateam/udata/
- всего 65 тысяч пользователей, 35 тысяч наборов данных с 195 тысячами ресурсов (файлов, ссылок и тд). [4]

Ссылки:
[1] https://www.data.gouv.fr/fr/search/?tag=covid19
[2] https://github.com/opendatateam/udata/
[3] https://www.data.gouv.fr/fr/reuses/
[4] https://www.data.gouv.fr/fr/dashboard/

#france #opendata
2020_Minsport_reg_survey.pdf
6.3 MB
Спортивная синкопа
Минспорт внезапно опубликовал "Индекс цифровой трансформации сферы физической культуры и спорта регионов РФ в 2020 году".
Очень прилично смотрится. Ну, и не удивительно - в Минспорте сильный CDTO, Андрей Сельский. Он, правда, по своей квалификации больше эйчар, чем айтишник, но на таком уровне важнее менеджерские компетенции, а не знание пяти языков программирования
Новость достаточно важная чтобы о ней написать, но недостаточная чтобы говорить только о ней. Утечка данных о заболевших COVID-19 в Москве - это не первая и не последняя такая утечка в мире. Недавно была куда большая по объёмам утечка данных в Бразилии. Но это не отменяет всего того безобразия того как реестр заболевших COVID'ом вели в Google Docs.

Слов нет, но эмоций много. Я сегодня отказывался комментировать это СМИ чтобы не ругаться матом в прямом эфире.

#leaks
Forwarded from Baza
Если вы переболели ковидом в Москве, у нас для вас плохие новости. Скорее всего ваши персональные данные попали в сеть — сейчас столичные власти расследуют крупнейшую утечку с начала пандемии.

По разным данным, в сеть могла попасть персональная информация 300 тысяч переболевших ковидом москвичей. В таблицах, которые гуляют по интернету, весь набор данных: ФИО, год рождения, адрес регистрации, мобильный номер. У некоторых видны даже паспортные данные.

Откуда произошла утечка, пока точно неясно — представители мэрии о ней знают и говорят, что разбираются: например, оперативно чистят чаты в телеграмм-каналах, где раскидываются базы. Инфу могли украсть с компьютера медицинского работника. Доступ к этой информации есть также у комитета госуслуг города Москвы.
Приятно что Гриша Бакунов из Яндекса время от времени упоминает про открытые данные как ценное явление, жаль что сам Яндекс как корпорация практически ничего не открывает как данные (даже то что, казалось бы, нельзя не открыть, не буду тыкать пальцем 👉).

А машиночитаемая база рецептов - это замечательный и интереснейший датасет. По нему и графы можно построить, и калорийность блюд рассчитывать.

Просто сказка, а не данные.

#opendata #data
Forwarded from addmeto (Grigory Bakunov)
Каждый раз радуюсь, когда появляются новые массивные датасеты в каких-то бытовых областях. Как вам такое: огромный неплохо структурированный набор из более 2 миллионов рецептов, в машинно-читаемом формате. Прямо готовая база для создания ИИ-шефповара, можно создавать совершенно новые но при этом относительно сьедобные блюда.

Чем больше датасетов в бытовых областях, тем меньше "вау" и больше бытового использования уже давно неплохо работающей системы генерации новых обьектов на базе старых. https://github.com/Glorf/recipenlg
Мне очень не хочется это комментировать, но, простите, не могу удержаться. (c)

Ведение баз заболевших в таблицах в Google - это называется не человеческий фактор, а халатность. Это данные составляющие врачебную тайну и их вообще не имели право использовать за пределами медицинских информационных систем или иных регламентированных ГИС. А когда утекут данные по слежки Правительства Москвы за горожанами через городскую сеть WiFi, приложение Активный гражданин и др. - это тоже будет "человеческий фактор"? А неспособность властей Москвы сформировать четкие этические и технические регламенты работать с персональными данными - это тоже человеческий фактор?

Как бы помягче сказать, это ситуация не про дисциплинарные проверки и не про увольнения, а про уголовные дела. Особенно если канал утечки до конца не перекрыли и пытливые умы найдут в этих таблицах тех людей кого они там найти не должны были и не найдут тех кого были должны.

#leaks #moscow
❗️Руководитель Департамента информационных технологий Москвы Эдуард Лысенко:

В ходе проверки информации об утечках персональных данных москвичей, переболевших коронавирусом, было установлено, что взломов и какого-либо другого несанкционированного вмешательства в работу информационных систем Правительства Москвы не было. Утечка произошла вследствие человеческого фактора: сотрудники, которые занимались обработкой служебных документов, допустили передачу этих файлов третьим лицам. Проверка продолжается, по ее результатам будут приняты меры.
Forwarded from Инфокультура
Готовим новый очень интересный и важный проект! Скоро расскажем подробности ⚡️