Ivan Begtin
8.01K subscribers
1.75K photos
3 videos
101 files
4.46K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Наглядная иллюстрация будущего ИИ которое нас ждёт, нас это в смысле, программистов, инженеров и всех остальных кто с ИТ работает - это ИИ способный читать код.

Саймон Вилсон применил GPT-3 к участкам кода [1]. На скриншотах примеры кода, вопросы и полученные ответы.

Помимо того что это забавно, это ещё и серьёзный шаг вперед. ИИ способный читать код может контролировать качество кода, идентифицировать ошибки, отслеживать прогресс разработки.

Иначе говоря быть эдаким супервайзером кода. Это примерно как со строительством. Роботы сами пока ещё не умеют строить дома (почти), но алгоритмические системы могут определять когда строители работают, а когда курят и расслабляются.

То же самое может ожидать и индустрию разработки. Даже если ИИ не будет писать код сам, следить за твоим кодом он сможет.

Ссылки:
[1] https://simonwillison.net/2022/Jul/9/gpt-3-explain-code/

#ai #ethics
Полезное чтение про данные и не только
- "Потому что ИИ на 100% прав и безопасен" научная статья о том что 79% индусов доверяют решениям автоматических алгоритмов больше чем людям и о том что с этим делать [1]
- подборка 5 инструментов с открытым кодом по прослеживаемости данных. Не нашёл там чего-то радикально нового, но всё разумно и кратко-сжато изложено [2]
- каталог данных Tokern [3] автор делает примерно то же что и я, headless data catalog, и тоже через автоматическое определение типов данных с акцентом на чувствительные данные. Конкуренция это хорошо, есть на что посмотреть.
- очень неплохая научная статья про текущее состояние MLOps [4]

Ссылки:
[1] https://research.google/pubs/pub51146/
[2] https://blog.devgenius.io/5-best-open-source-data-lineage-tools-in-2022-f8ef39a7d5f6
[3] https://tokern.io/
[4] https://arxiv.org/pdf/2205.02302.pdf

#ai #readings #datatools #data
Я несколько дней комментировал СМИ по поводу нового законопроекта (почти закона) вводящего оборотные штрафы за утечки персональных данных и, вроде бы, ещё не писал здесь.

Сформулирую несколько ключевых тезисов:
1. Утечки персональных и иных конфиденциальных данных - это, безусловно, серьёзная проблема. Она стала серьёзнее с того момента как российские компании потеряли возможность на диалог с зарубежными регуляторами и теперь не могут получить содействия в удалении утекших данных с зарубежных хостингов.
2. К предыдущим проблемам утечек связанных с работой коммерческих хакеров сейчас добавилась идеологизированная ситуация с тем что утечки не только происходят, но и на их основе создаются интерактивные продукты ориентированные уже не на хакеров, а на обывателей, чем обывателей довольно сильно пугают.
3. Декларируемый законопроект призван, как может показаться из выступлений инициаторов, защитить гражданина от утечек, а ещё точнее "ввести драконовские меры" напугать цифровые компании чтобы те вложили больше ресурсов в безопасность пользовательских данных
4. Все основные меры законопроекта - карательно контрольные. Мол получите штраф, подключитесь к ГосСопке и получите ещё штраф если не уведомили пользователей.
5. Главное чего нет в законопроекте - это интересов гражданина и пользователя. Штрафы идут в федеральный бюджет а гражданин не получает компенсации, ни материальной, ни моральной. Он вообще ничего не получает кроме того что узнает что вот этой компании сделали больно.
6. В то же время последние выступления о том чтобы ввести 3-х уровневое наказание для компаний и за первую утечку только пожурить вызывают только смех. У большинства крупных цифровых холдингов и не было больше одной утечки за последние 10 лет. Вот утечет вся база Госуслуг, чтоже, за первую утечку только пожурят? Очень смешно
7. Поэтому я не могу назвать эту меру ни то что системной, но и даже осмысленной. А самое главное, будущий закон не предлагает пути минимизации утечек как явления.
8. Что для этого нужно? Во первых, как минимум, введения требований по страхованию компаний от утечек и требований по обязательному полугодовому/годовому техническому аудиту. Это очень не понравится цифровым компаниям, потому что страховки будут дорогими, а в свою инфраструктуру никто пускать не любит, но ответственность за утечку должны нести, и компания, и аудитор.
9. Во вторых, и это важно, страховые выплаты в случаях утечек должны идти на покрытие судебных издержек и выплаты пользователям.
10. И, в третьи, и это тоже важно, если и вводить оборотные штрафы, то они также должны идти не в федеральный бюджет, а в специальный фонд по аналогии агентства страхования вкладов для выплат потерпевшим. А оборотные штрафы накладывать надо с учётом холдинговой структуры ИТ бизнеса, иначе у многих компаний сейчас будет ох[р]ененный соблазн вешать свои информационные системы на свои расходные, а не доходные дочерние компании, а потом штрафы платить именно с них.

#thoughts #regulations #dataleaks
Много лет назад, когда в России только-только появился термин вначале "Большое Правительство", а потом "Открытое Правительство" - это были форматы которые декларировались властью, тогда это был Дмитрий Медведев, как форма коммуникации и открытости с гражданами. Я тогда состоял в экспертном совете при Пр-ве и ещё в какой-то дюжине разных экспертных и общественных советов, везде продвигая одну и ту же мысль что открытость данных - это неотъемлимая часть современного гос-ва.

Но эта открытость и коммуникация была, как бы, публичной стороной этих структур. Непубличным, но более очевидным был даже не лоббизм, а расширенная форма вовлечения в государства без государственной службы.

Для тех кто не знает, государственная служба несёт очень много формальных ограничений, не только в виде сдачи деклараций о доходах, но и с формальной невозможностью совмещения, например, с руководством какими-либо коммерческими юридическими лицами. Понятно что для верхней касты номенклатуры эти ограничения хоть и формально есть, а по факту... Многочисленные расследования общеизвестны.

Эти ограничения порождали большой запрос у части "лиц приближённых" на статус, с одной стороны государственный, а с другой госслужбой не обременённый. Отсюда все эти многочисленные гос-НКО, отсюда многочисленные правительственные комиссии, советы, рабочие группы и иные формализованные консультативные объединения. С одной стороны они не обладают юридическим статусом, а с другой их вес в выстроенных отношениях с аппаратами Пр-ва и другими органами власти.

Так вот, когда я читаю о том что Пр-во организует стратегическую сессию по обсуждению кандидатов на роль глав индустриальных центров компетенций по замещению зарубежных продуктов в ключевых отраслях экономики [1] у меня стойкое дежавю.

Если вчитаться в список кандидатов, то очевидно что все они, либо главы госхолдингов, либо крупного связанном с гос-вом бизнеса. Понятно что эти центры компетенций это инструмент влияния на рынки их присутствия и то что за импортозамещение отвечают представители крупнейших олигопольных структур (за редким исключением) - это как раз модель делегирования власти и ответственности из Пр-ва, в эти индустриальные центры.

Экономисты назвали бы это продолжением чеболизации экономики, а я назову это размыванием власти. Впрочем сложно придумать более эффективный способ хоронить какие-то инициативы чем создавать центр компетенций. Хотя, ещё вариант, создавать межведомственные рабочие группы. Звучит не так красиво, конечно, но масштаб трагедии будет сопоставим.

Ссылки:
[1] https://www.rbc.ru/economics/11/07/2022/62cbf3d89a79472e7830a3a7

#government #russia
Иногда полезно перечитывать отложенные ещё в прошлом году материалы и там есть интересные идеи.

Например, возможно, мало кто слышал про подход к разработке информационный систем Documentation-first или Docs First.

Это идея когда всё делается наоборот, а не как в привычном цикле. Вначале пишут документацию, потом по ней проектируют спецификации (API) и только потом пишут код.

То есть цикл не: код -> спецификация -> документация, а документация -> спецификация -> код

Об этом выступал Rahul Dighe на конференции ASC 2021 [1] с аргументами что разработчики - это тоже пользователи и заботится о них нужно ещё начиная со стадии проектирования.

Подход хоть и спорный, но интересный с точки зрения практики. Очень хочется какой-то живой пример где такой пример бы сработал.

А ещё он интересен с точки зрения самого подхода. Перевернуть цикл разработки с, казалось бы, привычной последовательности. А какие ещё процессы можно рассмотреть в той же модели? Так чтобы их можно было перевернуть ?

Ссылки:
[1] https://events.linuxfoundation.org/archive/2021/openapi-asc/program/schedule/

#API #ideas #documentation #docsfirst
TAdviser пишет что Минцифры отменит отсрочку от армии для части ИТ-специалистов [1]. TAdviser не спрашивали у меня комментарии и не запрашивали данные по реально экзотическим юрлицам в реестре аккредитованных. Наверное не читают. TAdviser молодцы, делай как TAdviser ;)

Ну а если серьёзно, то аккредитация ИТ компаний превратилась в профанацию. Если сам статус аккредитованной ИТ компании далее хоть как-то планируют использовать, то его, по любому, необходимо корректировать.

Наиболее корректное изменение - приравнение аккредитации к налоговым льготам. Аккредитация должна идти в два шага. Первый - заявление в Минцифры, второй - подтверждение в ФНС.

А если кому-то очень хочется каких-то льгот раздать всем остальным, то и придумайте новый реестр. Типа, реестр разночинцев всяких правительству угодных и льгот достойных. И там всякого, ликом льстивого, челом яро бьющего, да ретивого, включать.

А называть их всех ИТ компаниями было, ну такое, хреновая идея с самого начала.

Ссылки:
[1] https://www.tadviser.ru/index.php/Статья:Льготы_и_меры_поддержки_для_ИТ-компаний_в_России

#itmarket #policy #laws
all_by_list_20220711_public.xlsx
217.3 KB
А раз Минцифры таки начнут чистить реестр аккредитованных компаний, то вот ещё один кусок из нашей аналитической базы. Это разного рода списки компаний, сортируются по первой колонке "category" включают такие категории как
- Разработка, производство, испытание и ремонт авиационной техники
- Финансовые организации
- Частные охранные организации
- Организации имеющие государственного или муниципального учредителя (РФ)
- Организации имеющие ПО зарегистрированное в реестре отечественного ПО
- Больничные организации
- Страховые организации
- Некоммерческие организации
- Радио и телекомпании
- Телекоммуникационные компании
- Высшие учебные заведения

Обратите внимание что почти все телеком компании в России были аккредитованы как ИТ.

Ну и остальных там хватает.

Это только те организации которых хотя бы 4 в одной категории набирается, а ещё куча разной экзотики вроде онлайн аптек, гостиниц, риэлторов и тд.

Но пусть с этим сами сотрудники Минцифры РФ уже разбираются.

#opendata #data #analytics #itmarket
Те кто когда-либо читали законы, постановления, указы и приказы на регулярной основе, наверняка, замечали что удивительно что все они написаны текстами, а не наборами инструкций.

В мире есть какое-то число инициатив по систематизации нормативных документов, таких как gitLaws или Akomo Ntoso, но в целом прогресс невелик. Отчасти от того, что есть значительное число юристов которые в результате потеряют работу, отчасти от объективной сложности применения чётких правил к нечёткой области деятельности, а отчасти поскольку законы создаются в рамках государственной модели, а многие конституции написаны так что парламенты имеют право принимать любые законы (!).

Иначе говоря есть две противоположные позиции. Одна в том что все НПА поддаются декомпозиции в чёткие правила, а другая в том что нельзя лезть с автоматизацией туда где нужно помнить о гибкости.

Лично я считаю что истина где-то посередине и истина в том что если делать платформу по разработке НПА, она должна более напоминать nocode/low-code платформы чем git или программный код в чистом виде.

Дело в том что явной автоматизации поддаются до 95-99% всех нормативных документов. Какие-нибудь распоряжения о назначении или увольнении и многие типовые указы, распоряжения и тд. Законы, также, вполне чётко могут быть разделены на новеллы и изменения накладываемые автоматически.

При этом, при подготовке любого НПА технологически должно быть возможно:
а) Иметь возможность готовить НПА в режиме конструктора норм.
б) Включить режим ручного написания текста, а не конструктор норм.
в) Иметь сервис способный автоматически проверять корректность/четкость/понятность норм и восстанавливать структурированные нормы из вручную написанного текста.

При это важно помнить что написание правил и законов - это основная функция госаппарата. Лично мне неизвестны чиновники ни в одной стране кто с энтузиазмом воспринимал бы идеи по контролю за их работой. Поэтому никто и не финансирует такие проекты по настоящему, не применяет языковые модели вроде GPT-3 к анализу новых НПА и корпусов законов.

Тем не менее я придерживаюсь мнения что рано или поздно автоматизация в этой области произойдёт. Эволюция правовых систем в новом поколении будет применять обратную реконструкцию норм из текстов в утилитарных целях - лоббирование, судебные разбирательства и тому подобное.

#legaltech #government #laws
Счетная палата США (GAO) опубликовала доклад Federal Spending Transparency: OIGs Identified a Variety of Issues with the Quality of Agencies' Data Submissions [1] посвящённый полноте и качеству раскрытия информации о федеральных государственных расходах. Для тех кто не следил за практиками раскрытия данных в США, эти данные раскрываются в рамках закона DATA Act в котором сформулированы требования и рекомендация к органам власти по публикации этих сведений. В отличие от России и многих стран с централизованными системами закупок, органы власти США гораздо свободнее в выборе процедур, отборке контрагентов и собственных правилах осуществления закупок. DATA Act не создавал новую систему, а требовал от упомянутых там органов власти передавать данные по определенным форматам Казначейству США.

А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.

Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.

Они использовали следующие критерии для оценки
Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
Completeness of agency submission: полнота данных передаваемых агентствами
Timeliness of agency submission: своевременность данных передаваемых агентствами
Completeness of data elements: полнота элементов данных
Timeliness of data elements: своевременность элементов данных
Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться

Ссылки:
[1] https://www.gao.gov/products/gao-22-105427

#procurement #usa #usaspending #dataact #accountingchamber
В рубрике как это работает у них, государственные порталы открытых данных постсоветского пространства.
- data.gov.kg - Кыргызская республика. 644 набора данных. Большая часть данных в формате XLSX. Большая часть данных - статистика. Лицензия для данных не указана. Работает на CKAN
- data.egov.kz - Республика Казахстан. 3575 наборов данных Лицензия для данных не указана. Лицензия для данных не указана. Для выгрузки требуется авторизация через личный код ИИН в стране. По факту не открытые данные
- data.gov.ru - Российская Федерация. Более 26+ тысяч наборов данных. Большая часть данных административные файлы CSV минимального объема. Практически не развивается с 2016 г. Работает на DKAN.
- data.egov.uz - Республика Узбекистан. 4237 наборов данных, собственная разработка. Большая часть данных во внутреннем хранилище, не в виде файлов. Поддерживают экспорт в Excel, XML, CSV, RDF и JSON. Лицензия Creative Commons. Есть открытые наборы данных для обучения ИИ (!)
- opendata.az - Республика Азербайджан. Несколько сотен наборов данных, лицензии не указаны, данные предоставляются в виде веб сервисов, с нерегулярным обновлением. Большая часть данных справочники.
- data.gov.lt - Республика Литва. 1770 наборов данных. Данные под лицензией Creative Commons. Работает на собственном движке. Включает не только открытые, но и инвентаризированные данные допустимые к открытию по запросу. Больше половины наборов данных - геоданные.
- data.gov.lv - Республика Латвия. 622 наборов данных. Сайт на базе Drupal. Больше половины данных CSV и XLSX файлы. Все данные под лицензией Creative Commons
- avaandmed.eesti.ee - Эстонская республика. 1115 наборов данных, все под свободными лицензиями. Большая часть - ссылки на данные в других госсистемах. Много геоданных. Собственная разработка, даёт возможность поиск по географическому покрытию.

Государственные порталы открытых данных отсутствуют у Таджикистана, Туркменистана, Армении и Беларуси.

На что важно обратить внимание:
- лучший портал по смыслу и наполнению - Республика Узбекистан
- худший по доступу - Республика Казахстан (можно сказать вообще не портал открытых данных)
- наиболее замусоренный - Российская Федерация.

#opendata #postsoviet
Вах-вах, в Минцифре и другие чиновники читают мои тексты про то что надо делать компенсационный фонд [1] составленный из штрафов за утечки.

А где восторженные апплодисменты поощрение меня каким-нибудь благодарственным письмом лично из рук министра или ещё кого-нибудь из Правительства? ;)

Ну а если серьёзно, компенсационный фонд - это хорошо, а главное это понять что самые действенные меры в усилении граждан. Они в возможности получать значительно большие компенсации за понесенный ущерб.

Ссылки:
[1] https://t.me/begtin/4060

#dataleaks #digital #privacy
📑 Минцифры готовит новую версию законопроекта об оборотных штрафах за утечку персональных данных

По итогам обсуждений с отраслью Минцифры готовит изменения в законопроект об оборотных штрафах за утечки персональных данных. Министерство настаивает на усилении ответственности операторов персональных данных и при этом считает необходимым прояснить важные детали.

📌 Основные изменения

🔹 Будет определено, что именно является объектом утечки персональных данных, а также то, как будет устанавливаться вина конкретной компании. Например, оператор мобильной связи хранит данные, содержащие номер телефона и ФИО абонента, но «утечь» такие данные могут и из базы интернет-магазина. Кроме того, мошенники часто продают «склейки» из разных баз, выдавая их за утекшие из конкретных компаний данные.

🔹 Будет установлена соразмерность штрафов за утечки объемам и критичности персональных данных, появившихся в незаконном обороте.

🔹 Штрафы будут применяться в два этапа. За первую утечку штраф будет фиксированным. Его размер будет зависеть от объема данных, утечку которых допустила компания. В случае повторной утечки будет применяться оборотный штраф.

🔹 Для оборотных штрафов будут установлены границы («от» и «до» какого процента от выручки можно будет взыскать). Будут учитываться смягчающие и отягчающие обстоятельства. Например, если компания приложила максимум усилий к защите информации, это будет расцениваться как смягчающее обстоятельство при определении размера штрафа. Но если компания скрывала факт утечки, это может стать отягчающим обстоятельством, и тогда наказание будет максимальным.

🔹 Будет предусмотрена процедура добровольной аккредитации компаний по критериям информационной безопасности. Возможно, она будет связана с механизмом страхования профессиональной ответственности. Такая аккредитация может стать подтверждением мер, принятых для защиты от утечек. И это может рассматриваться как смягчающее обстоятельство. Аккредитация потребует проведения регулярных аудитов профессиональными компаниями, которые смогут подтвердить выполнение всех необходимых требований.

📌 Позиция Минцифры

🔹 Минцифры настаивает на усилении ответственности за утечки персональных данных. Это серьезная проблема, для решения которой не хватает существующей регуляторики. Попав в руки к злоумышленникам, данные могут стать инструментом для спам-звонков, нежелательных рассылок, шантажа, мошеннических схем. На основании утекших данных часто создают мошеннические онлайн-сервисы, которые привлекают пользователей своей простотой и удобством, и в итоге причиняют еще больший ущерб гражданам.

🔹 Дополнительная ответственность в виде оборотных штрафов побудит бизнес инвестировать в развитие инфраструктуры информационной безопасности и защиту персональных данных пользователей. Сейчас вопрос нарушений законодательства в области персональных данных регулируется статьей 13.11 Административного кодекса. Максимальное наказание, установленное в ней, предполагает штраф в 500 тыс. рублей для юридических лиц. Оборотные штрафы, на введении которых настаивает Минцифры, будут исчисляться в процентах от выручки компаний. Так, оборотный штраф в 1% для компании с выручкой в 100 млрд руб. составит 1 млрд руб.

🔹 Реальный уровень защиты, действующий в компаниях, сейчас определить сложно. Для этого Минцифры предлагает ввести механизм аккредитации и страхования, с помощью которого можно будет регулярно подтверждать соответствие компаний всем требованиям по уровню безопасности.

🔹 Важно определить, куда будут расходоваться собранные штрафы. Один из вариантов — выплаты компенсаций гражданам, пострадавшим от утечек. Может быть создан специальный фонд, который будет действовать по аналогии с «Агенством по страхованию вкладов», выплачивающим возмещения вкладчикам банков при наступлении страховых случаев.

@mintsifry
Не совсем про данные, а про полезные сервисы для инфраструктуры и работы которым нехватает альтернатив для работы в России.
- Tailscale [1] облачный VPN сервис который помещает все подключенные устройства в общую внутреннюю подсеть. Очень удобно когда у тебя несколько устройств. Не очень удобно при работе из России потому что идёт через инфраструктуру за пределами и потому что оплата в USD.
- Swarmia [2] сервис для разработчиков по отслеживанию метрик работы команд. Удобно для мониторинга команд, хотя и не во всех случаях может работать. По ощущением рынок в РФ под такое маловат, но кто знает.
- Work OS [3] сервис подключения корпоративной авторизации к сервисам стартапов. Позиционируют себя как сервис который делает твои приложения Entreprise ready. Не соглашусь что этого достаточно, но сама идея интересна
- Shortcut [4] интересный трекер задач с разными вариациями и форматами, позволяет многое, и даёт много интеграций с Github, Gitlab и ещё много чего, но как всегда требует оплаты в USD. Не знаю дозрел ли рынок в РФ до такого, по ощущением что не так много того с чем можно было бы интегрироваться. Или я ошибаюсь?

А каких сервисов Вам лично не хватает? У каких нет качественных российских альтернатив несмотря на востребованность и наличие рынка?

Ссылки:
[1] https://tailscale.com
[2] https://www.swarmia.com
[3] https://workos.com
[4] https://shortcut.com

#startups #onlineservices #itmarket
Команда Clickhouse выложила ClickBench [1] методологию, инструмент и результаты сравнения аналитических баз данных. Сравнивают много что: Aurora, Athena, Clickhouse, MySQL, Druid, Greenplum и тд. Около 30 разных продуктов в разных конфигурациях.

Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.

Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.

Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].

Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test

#datatools #dbms #data #benchmarks #clickhouse
В связи с тем что вышла куча новых законов и законопроектов по регулированию цифрового рынка, данных и тд. журналисты задают мне много вопросов, я где могу комментирую, но часто приходится говорить "вопрос точно не ко мне".

Так что я что могу и понимаю, прокомментирую, номера законов и проектов законов указывать не буду, они все и так на слуху:

1. Передача данных бизнеса государству для обезличивания

Очень плохая идея, похуже чем многие другие инициативы. Фактически даёт возможность государству потребовать у владельцев данных эти данные бесплатно и кому-то ещё их передать "обезличенными". Это рынок ломает и создает административный рынок. Причём это не подкреплено обоснованиями по работе с монопольными рынками или предварительной аналитической работой. Иначе говоря никакой доказательной политики тут нет. Поэтому это просто очень плохая инициатива с плохими последствиями.

2. Сбор биометрии без согласия граждан

Ничего хорошего не только с точки зрения того что государство [сверх]концентрирует [сверх]личные данные, но и в том что фактически это начинает происходить насильственным образом через коммерческих операторов услуг которым будут навязывать биометрию. Понятно что это навязывание не сейчас родилось и не в этом НПА, а именно это НПА просто делает ещё один шаг в сборе таких данных.

3. Наказание за утечки данных

Я уже об этом писал недавно. То что взяли мою идею с компенсационным фондом - хорошо. То что развивается модель штрафов, а не прокачка рынка инфобеза - плохо. Я считаю самую адекватную модель страховую и аудиторскую, а Минцифра могла бы ввести реестр аудиторов по инфобезу. Ну или ФСТЭК, ну или ещё кто. Но это понятная модель существования рынка в целом.

4. Блокировки за "порочащие сведения"

К ИТ рынку никакого отношения не имеет, имеет отношение к СМИ. По хорошему пусть это комментируют редактора СМИ и контентных проектов которые под это попадут. Хорошо это или плохо, опять же пусть оценивают участники "рынка компромата". Я лично считаю что "порочащие сведения" не являются синонимом "лжи", поэтому это тоже цензура.

#data #regulation #laws #privacy
Если бы я не знал Python, я бы выучил язык R. Для работы с данными - это, пожалуй, два наиболее актуальных и полезных языка для разработчиков и аналитиков. Но, если Python создавался изначально как язык общего назначения, то R именно как язык для изучения аналитиками. Ему, например, обучают сотрудников Счетной палаты Индии, во многом из-за простоты обучения

Я лично почти ничего не пишу об этом языке, но это не значит что у R нет большого сообщества и большой востребованности.

Среди авторов я лично могу порекомендовать Алексея Селезнева и его канал R4Marketing

Алексей пишет кратко и доходчиво, это как раз Телеграм формат.

P.S. А если Вы ещё не определились изучать Python или R, рекомендую посмотреть обзор Python vs R на DataCamp

#recommendations #telegram #rlang
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]

В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.

Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.

В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org

#digitalpreservation #webarchives
Про текущее состояние открытости данных на примере Фонда социального страхования (ФСС РФ).

ФСС РФ формально не является федеральным органом исполнительной власти, но, тем не менее выполняет многие его функции и с 2015 года фондом публиковались открытые данные.

У фонда было де-факто два способа раскрытия данных
- раздел на портале data.gov.ru [1] на который осталась ссылка на сайте фонда. Данные не обновлялись более 5 лет, ну и в целом это наименьшие по объёму стат показатели и административные справочники
- портал открытых данных data.fss.ru [2] на него уже нет ссылок с официального сайта ФСС РФ и сам портал всё ещё в статусе "тестового режима". На нем последние актуальные данные 4-х летней давности, опубликованы в 2018 году.

В результате актуальных ведомственных данных ФСС РФ нет уже более 4-х лет, а проекты по открытости заброшены.

Ссылки:
[1] https://data.gov.ru/organizations/7736056647
[2] https://data.fss.ru

#opendata #government #russia #fssrf
В рубрике как это работает у них, шотландский общественный портал открытых данных opendata.scot

• создан в 2021 г. на базе JKAN [1] статического генератора сайтов поверх известного инструмента с открытым кодом Jekyll․
• агрегирует данные из нескольких десятков порталов открытых данных Шотландии, в основном на базе ArcGIS и CKAN.
• автор Jack Gilmore [2] разработчик в одном из госорганов в Шотландии, делал его в свое свободное время
• весь открытый код доступен [3] и заодно и данные собираемые в Github.
• а также доступна аналитика в разных разрезах [4], автор собрал список госорганов в Шотландии, провязал его с данными из Wikidata и собрал список тех которые публикуют открытые данные и тех которые это не делают.
• автор активно использует Github для управления задачами сбора данных и мониторинга доступности сайтов [5]

В целом это очень простой проект, в котором можно обратить внимание на:
- его дешевизну, он почти ничего не стоит
- агрегацию имеющихся данных
- использование Github как хостинга

Главный недостаток в том что оригинальный автор JKAN забросил проект много лет назад [6], но учитываю простоту этого движка это не критично.

Ссылки:
[1] https://github.com/OpenDataScotland/jkan
[2] https://github.com/JackGilmore
[3] https://github.com/OpenDataScotland/the_od_bods
[4] https://opendata.scot/analytics/platform-health/
[5] https://github.com/OpenDataScotland/the_od_bods/actions
[6] https://github.com/timwis/jkan

#opendata #scotland #dataportals