Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике инструментов работы с данными, об инструментах с открытым кодом для работы над качеством данных.

- OpenRefine - инструмент для ручной/автоматизированной очистки наборов данных. Работает преобразуя их в плоские таблицы, поддерживает Excel/CSV/JSON/JSON lines и другие форматы. Позволяет проводить довольно гибкие преобразования по отдельным колонкам. Основан на продукте Google Refine, когда-то переданным компанией в open source.
- Great Expectations - "Большие ожидания", библиотека для языка Python, одна из наиболее активно используемых для автоматической валидации значений в наборах данных, потоках данных, data pipelines и не только.
- Soda-SQL - инструмент с открытым кодом для создания метрик и тестирования данных в SQL базах данных. Поддерживает несколько SQL баз данных и несколько базовых видов/типов полей. Умеет анализировать данные в СУБД и на основе этого рекомендовать автоматизированные тесты.
- Re-data - инструмент подсчёта метрик и проверки качества данных в SQL базах данных. Включает возможность активного мониторинга данных.
- ODD Platform - Open Data Discovery Platform, включает механизмы проверки качества данных, а сама платформа делается на основе ODD Spec спецификации описания метаданных. Здесь Open Data Discovery - это [Open] [Data Discovery], не открытые данные, а открытое обнаружение данных.

Я от себя добавлю что часто инструменты контроля качества данных сильно замедляют работу с данными если они не оптимизированы. К примеру Soda-SQL и Great Expectations, скажем так, имеют большие возможности по их ускорению, потому про по умолчанию заложенные там проверки через регулярные выражения можно сильно оптимизировать. К примеру, решая похожие задачи по классификации данных в DataCrafter'е, могу сказать что там вообще нет регулярных выражений, но и нет жесткой закодированности идентифицирующих типы данных правил. Вместо них некий аналог RegExp'ов работающий многократно быстрее.

Много лет назад я подумывал написать свой движок для обработки регулярных выражений в контексте, оптимизированный под результаты предыдущих сравнений. К примеру, у тебя есть несколько тысяч регулярных выражений на соответствие которым надо проверить конкретную строку/текст. Как сделать это быстро? Идеальный сценарий - индекс построенный по этим регулярным выражениям и построение конечного автомата по проверке, неидеальный сценарий - хотя бы зависимости между регулярными выражениями и автоматический отсев каких-то сравнений после других сравнений (кривой аналог построения индекса, на самом деле).

В частных случаях задача решается. Лично я её решал и решил для сравнений связанных с датами и строками размера до 50 символов довольно грубым способом на 50% состоящим из замены регулярных выражений на их сборный конструктор-аналог и на 50% заменой индекса на код по предпроцессингу входящего потока. Результаты 3 года назад опубликовал в виде библиотеки для Python qddate, там не все наработки, но значительная часть по распознаванию дат в любых форматах. Поэтому можно ли ускорить проверку качества данных и расчёт метрик по миллиардам записей в базах данных? Конечно можно и значительно!

#opendata #metadata #dataquality #datatools #tools
Информационная прозрачность Китая (тюлевая занавеска) и России (ночные шторы).
В новом отчете американского Центра кибербезопасности и новых технологий "Запряженная молния: Как китайские военные осваивают искусственный интеллект" немало интересного.
Меня же поразило то, что он дает простую и наглядную возможность сравнить Россию и Китай по уровню информационной прозрачности и открытости.
Если в качестве критерия сравнения взять закупки военных, то результат получается поразительный. Это все равно что сравнивать прозрачность тюлевой занавески (у Китая) и ночных штор для спальни (у России).

В России закупки Минобороны (а также ФСБ и СВР) уже несколько лет, так сказать, привилегированные - на сайте Госзакупок они о своих тратах не отчитываются. А с 2022 станут также закрытыми закупки Росгвардии и ФСО.

В Китае открыто публикуются данные о всех закупках армии и военных госпредприятий: от сидений для унитазов до ударных военных беспилотников. Состав публикуемых данных отличается в зависимости от категории закупок:
• Для категории “public” (таких примерно 75%) публикуется: что закупается и сколько, подразделение-покупатель, для кого закупает, бюджет проекта, тендерное агентство, победитель тендера.
• Для категории “confidential” (таких примерно 22%) не указывается бюджет, а для категории “secret” (таких примерно 3%) еще и для кого закупается.

Другой печальный сюрприз отличий военных закупок Китая и России – состав поставщиков.
• В Китае 61% поставщиков – частные компании, 25% - госпредприятия и их дочки, 9% университеты, 2% - предприятия Академии наук и 3% - прочие.
• В России предположите сами (как пишет Коммерсантъ – «значительная их часть находится в госсобственности»).

Вы, наверное, думали, что с этим делом у Китая, примерно, как в России.
А оказалось, примерно, как в США.
Отчет: https://cset.georgetown.edu/publication/harnessed-lightning/
#Китай
А есть ли где-либо подробный правовой разбор законопроекта о публичной власти № 1256381-7 [1] ?

Там гигантский текст на 174 страницы и даже без поправок в другие законы, а полностью новый закон. Что очень странно, обычно к таким законопроектам присоединяют ещё множество поправок в иные законы.

А то там про открытость и прозрачность хоть и немного, но обеспечение гласности упоминается, что редкость в наших законов последних лет. Хочется понять что за всем этим стоит.

Если знаете, приглашаю в чат @begtinchat

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1256381-7

#laws #regulation
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
Энрико Бертини (Enrico Bertini), ассоциированный профессор визуализации данных Нью-Йоркского университета и со-ведущий подкаста Data Stories, с конца октября публикует образовательные статьи по визуализации в своем блоге. Энрико прекрасный преподаватель и исследователь, так что не проходите мимо.

Его новый материал посвящен тому, как сделать ваши визуализации более «чистыми» и простыми для восприятия. Маст рид, если вы новичок в области.

https://filwd.substack.com/p/clarity-and-aesthetics-in-data-visualization
Я лично особой нежностью "люблю" траты нашего отечества на создание аналога Википедии через вливание сотен миллионов рублей в ОАО "БРЭ" и одного не могу понять - зачем, почему и с чего это происходит?

По публичной отчетности на ресурсе ФНС [1] ОАО БРЭ потратило 565 из 688 миллионов рублей (82%!) за 2020 год.

Сайт ОАО почти не обновлялся в несколько лет [2], но при этом издательством он, не потерян, потому что в 2019 году они там создали раздел про АНО БРЭ [3].

Раскрытия информации о деятельности ОАО БРЭ не делает с 2015 года [4], что происходит на деньги этой субсидии неизвестно, электронная версия энциклопедии не даёт никакой истории изменений [5] и происходящее наводит на неприятные мысли что результата там и не будет.

При этом последние контракты ОАО БРЭ заключало в 2020 году [6].

Поэтому вопрос - где результат и куда идут деньги?

Ссылки:
[1] https://bit.ly/3wwnIJd
[2] https://greatbook.ru/
[3] https://bit.ly/3D500Gf
[4] https://bit.ly/3EZsxh2
[5] https://bigenc.ru/
[6] https://bit.ly/3n3Aa00
Научная статья Diego A. Forero, Walter H. Curioso и George P. Patrinos "The importance of adherence to international standards for depositing open data in public repositories" [1] о значимости международной стандартизации в публикации открытых данных в общедоступных репозиториях. В статье весьма подробно о том как организации выделяющие финансирование исследований в США и в Европе обязывают учёных публиковать результаты как открытые данные, о стандартах TOP Transparency and Openness Promotion [2] и множество ссылок на научные статьи и дискусии о принципах обмена данных в ситуации пандемии и необходимости доступности качественных данных.

Статья опубликована в BMC (Springer Nature), поэтому у неё довольно чёткий уклон в сторону биоинформатики, но много отсылок и на государственные порталы открытых данных в ЕС и США.

И тут же вдогонку пример поисковой системы по данным - DataMed.org [3] более 2.300.000+ наборов данных из 76 цифровых репозиториев. На его же основе Covid19 Data Index [4] где более 7800+ наборов данных исследований по COVID-19.

Ссылки:
[1] https://bmcresnotes.biomedcentral.com/articles/10.1186/s13104-021-05817-z
[2] https://www.cos.io/initiatives/top-guidelines
[3] https://datamed.org/
[4] https://www.covid19dataindex.org/

#opendata #datacatalogs #datasets #data #medicine #biomed
В рубрике "как это устроено у них" в большинстве развитых стран и крупных международных институтах есть обязательная архивация всех материалов. Для научных учреждений это так называемые планы управления данными (DMP, Data management plan) и множество инициатив по георезервированию данных. А для органов власти и международных организаций - это национальные веб архивы.

Пример, веб-архив европейского союза EU Web Archive [1] создан и поддерживается The Publications Office of the European Union и в нём собраны архивы всех сайтов относящихся к органам управления Европейского союза, связанным с органами управления Европейского союза и получающими финансирование из бюджета Европейского союза.

Все архивы собраны через сервис Archive-It [2] собраны в 5 рубрик:
- Brexit archive
- European Union
- Horizon 2020
- Presidencies of the Council of the EU
- Publications

Архивы собираются с марта 2019 года, охватывают 14 383 веб ресурса, большая часть которых относится к научной программе Horizon 2020.

Подобных национальных проектов по веб-архивации довольно много, об этом есть хороший обзор в Википедии [3]. Они носят, как утилитарный характер восстановления потерянной информации, так и являются инструментом общественного контроля благодаря которому можно убедиться что при смене власти предыдущие лица принимающие решения не "заметут следы" каких-то их действий.

А для тех кто любит работать с большими данными, напомню что есть такие проекты как HTTP Archive [4] веб архив для анализа данных, с интересными инсайтами и Common Crawl [5] поисковый индекс развернутый в облаке Amazon Web Services доступны через API для коммерческих и исследовательских проектов.

Ссылки:
[1] https://op.europa.eu/en/web/euwebarchive
[2] https://archive-it.org/home/euwebarchive
[3] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
[4] https://httparchive.org/
[5] https://commoncrawl.org/

#opendata #archives #webarchives #data
Я последние, наверное уже лет 16 интересовался и интересуюсь технологиями в госсекторе и в разных ролях создавал, проектировал, использовал государственные информационные системы и только в последние несколько лет ушёл в специализацию в данные, а раньше это были и госзакупки, и системы поддержки принятия решений и ещё много чего другого.

В России есть немало наработок которые реализованы вполне неплохо, но очень много есть мирового опыта который вообще никак не реализуется. Хуже всего дело обстоит с G2G проектами, в какой-то форме есть G2B и, как ни странно, но сервисы G2C (государственные услуги для граждан) работают лучше сервисов для бизнеса и для для других органов власти.

А я перечислю лишь некоторые проекты которые нужны другим органам власти и пока их нет в России на федеральном уровне:
- Сервис генерации статических госсайтов. Под мероприятие, под конкретный информационный сайт и тд. В США для этого используется платформа Federalist, в Сингапуре - Isomer. Его не надо делать обязательным, достаточно сделать его хорошо, а госорганы сами к нему придут - это быстрее и дешевле чем заказывать на рынке.

- Конструктор форм. На самом деле многие из очень типовых госуслуг реализуются через конструкторы форм. В государственном конструкторе должна быть предусмотрена авторизация через ЕСИА, а в остальном можно взять за пример сервис форм Яндекса или Google или многих стартапов. В Сингапуре есть такой сервис - forms.gov.sg

- Платформа API. Есть в США, Сингапуре, Канаде, Франции и ещё паре десятков стран. Систематизирует документацию и регламенты доступа к государственным API. Подсказка - в России сотни (!) недокументированных API. Через них поступают многие данные в наш каталог Datacrafter'а. Такие платформы всё более актуальны, они являются частью систематизации информационных ресурсов государства.

- Платформа [мета]данных. То чем в России мог бы быть портал открытых данных и то чем он, к сожалению, не является. Системы управления госданными в мире имеют как минимум 2 контура - открытые данные и данные по результатами инвентаризации в госоргане. По хорошему это должно было бы быть частью национальной системы управления данными.

- Сервис и реформа технической документации. Такое есть в Сингапуре, США, на тех же сервисах генерации статических сайтов. А из примеров недалёких от нас - это система документирования в Италии docs.italia.it. Всё редактируется в Markdown, можно скачивать и в других форматах. Удобно искать, удобно писать, удобно с этим работать. Это не только сервис, но и реформа требований к сдаче контрактной документации и предоставления документации пользователям. До сих пор по многим системам документация - это тысячи (!) страниц нечитабельного текста.

- Системы автоматического мониторинга (в том числе безопасности). Например проект Pulse в США, для мониторинга актуальности протоколов TLS/SSL на официальных сайтах органов власти. До недавних пор был открыт для всех, потом его закрыли, видимо из-за опасений в адрес "русских/корейских/китайских хакеров". Необходимый сервис и не только в части SSL, но и регулярного официального сканирования безопасности публично доступной инфраструктуры органов власти.

- Сервисы статуса доступности сайтов/онлайн сервисов. В коммерческом рынке это сервисы вроде status.com, в госпроектах такое тоже начинают применять и разрабатывать унифицированные сервисы охватывающие все госресурсы. Тот же Pulse умел не только сканировать TLS соединения, но и отслеживать доступность.

- Официальные счетчики посещаемости. В мире есть сильное давление на органы власти чтобы они не сливали сведения о посетителях госсайтов компаниям Adtech. Поэтому есть много противодействия тому что органы власти ставят счетчики Google, Facebook и далее по списку. Для госсайтов делают унифицированные счетчики в ведении органа власти и аналитика собирается только в них и отдаётся представителям госорганов. В США это analytics.usa.gov, сделаный специально под высоконагруженные сайты, но можно взять и один из открытых продуктов и использовать его.
- Единый дизайн-гайд. Тема как-то помершая в России, хотя и были попытки. Во многих странах госсайты сделаны "безобразно и единообразно" по одному дизайн гайду. Хорошо документированному, открытому, сопровождаемому, удобному и тд. Это полезный инструмент, будучи хорошо сделанным он будет применяться без принуждения.

- Единый портал. Довольно давняя тема внедряемая во многих странах. Логика такая - правительство вцелом, отдельные органы власти тратят слишком много ресурсов на многочисленные веб-сайты. Нет никакого обоснования тому что их сотни и тысячи. В мире есть большие инициативы вроде gov.uk или usa.gov или gov.pl и ещё десятков других когда сервисы и сайты органов власти сконцентрированы на одном корневом ресурсе. В России эту функцию частично решает портал госуслуг, но только частично. А вот портал gov.ru выглядит просто таки архаично.

Это не полный перечень, сюда можно добавить ещё довольно многое, я могу расписать несколько десятков показательных и полезных сервисов только навскидку, а если покопаться в записях то сотни. Если хотя бы часть из перечисленного будет появляться и появляться в хорошом виде на платформе Гостех, значит от этой платформы будет ощутимая польза. Если нет, ну что ж, подождём следующей плаформы:)

#govtech #government #technology #data #datamangement #api
Почему я делаю акцент на финансировании Большой российской энциклопедии? Потому что вот уже пару месяцев пишут про большой проект портала "Знание" на её основе. Можно почитать октябрьскую публикацию на сайте РАН [1] о первом заседании научно-редакционной коллегии портал «Знания» , который привлечет до 10 тыс. экспертов.

Об этом портале есть короткая заметка в Википедии [2] и, если кратко, то только за 2019-2021 годы на портал потратили более 1.5 миллиардов рублей, а всего запланировано до конца 2022 года потратить 2.5 млрд рублей. При этом, напомню, за 3 года финансирования у него нет никаких публичных результатов, само ОАО БРЭ непрозрачно, а за 2021 год нет каких-либо следов контрактации ОАО БРЭ, а все расходы идут, если верить отчетности, на содержание коллектива (в лучшем случае это на производство контента) [3].

Если почитать интервью Сергея Кравец в РГ [4], то очевидно что это не технологический, а контентный проект. Не автоматическая интеграция и сведение баз данных, а претензия на ручную актуализацию до 40 тысяч статей ежегодно.

Ключевые вопросы во всем этом в том что:
1. Какие модели создания востребованного контента сейчас актуальны в мире и могут использоваться? Это требует как минимум исследования, но и без него видно что выживают, в основном, модели краудсорсинговые, а не энциклопедические. Практически все существующие классические энциклопедии мертвы, оживить их уже невозможно.
2. Какие формы потребления контента необходимы для молодежи? Есть как минимум предположение что игровой контекст для потребления знаний стал первоочередным. Edutainment за пределами образовательного процесса как минимум.
3. Какова связь знаний и образования? Предполагается ли навязать портал Знания в образовательный процесс? Тогда его надо сразу было передавать в какое-нибудь издательство Просвещение или в Минпросвет РФ, а не в БРЭ.

Для понимания, доход фонда Викимедия составляет 129 миллионов долларов за 2020 год [5] из которых 120 миллионов это пожертвования читателей, компаний и НКО. Это 7 миллионов жертвователей из которых 17 пожертвовали более $50 000 (более 3.5 миллионов рублей каждый). Там нет бюджетных средств, только средства доноров.

Можно ли создать аналог Википедии в России? Честно говоря я не очень в это верю, поскольку такие проекты - это, в первую очередь, очень мотивированные люди которые хотели бы именно его создать, а не участвовать более крупных международных проектах. Но если это делать, то нужна как минимум схожая модель существования. Софинансирование от граждан, статус НКО, получение удобным образом налогового вычета с пожертвований, возможность личного участия и современные технологии помноженные на репутацию команды которая могла бы такое создать.

Поэтому повторюсь это скорее, невозможно. Можно ли потратить лучшим образом те 2.5 миллиарда рублей что тратят на портал "Знания"? Да, конечно возможно. Даже если раздавать субсидии производителям игр с популяризацией знаний и НКО с просветительскими проектами - эффект был бы куда больше. Он, в принципе, был бы.

А в текущей форме портал Знания не сможет существовать без регулярного бюджетного допинга на эти самые "40 тысяч правок статей в год и 10 тысяч привлекаемых экспертов", о чем просто нельзя говорить без иронии, поскольку за каждой из них слышно только одно "дайте больше денег" при отсутствии гарантии чего бы то ни было.

Всё это на фоне того что на современные просветительские проекты найти в стране финансирование очень сложно, государственные средства уходят на проекты вроде портала "Знания", а частные и корпоративные доноры предпочитают финансировать проекты прямой помощи детям, старикам, бездомным и тд.
И я не могу не добавить и не акцентировать на закрытости всей этой истории. Вот мы знаем что у портала "Знания", оказывается, есть Научно-редакционная коллегия портала, а как это она есть, а портала нет? Где её состав? Где протоколы заседаний? А Дмитрий Чернышенко, оказывается, председатель Совета Портала «Знания». А где можно почитать положение об этом совете? Его состав? И, простите, я буду зануден, протоколы заседаний совета ? Вообще Дмитрий Чернышенко знает во что ввязался? Думается мне догадывается, иначе присутствовал бы на мероприятии лично, а не направлял бы письмо его участникам.

Многим уже понятно что когда портал Знания будет запущен весной 2022 года, то он получит очень много публичной критики, по всем тем причинам что я озвучивал выше и, с высокой вероятностью, может не пережить 2022 год. Но деньги то уже будут потрачены и это ещё большой вопрос какая их доля пойдет на этих 10 тысяч экспертов.

Ссылки:
[1] http://www.ras.ru/news/shownews.aspx?id=b2fbc33e-71bb-4f9d-8d47-8afe983cfd01
[2] https://ru.wikipedia.org/wiki/Знания
[3] https://t.me/begtin/3236
[4] https://rg.ru/2021/10/19/v-rossii-sozdaetsia-pervyj-v-mire-enciklopedicheskij-portal.html
[5] https://wikimediafoundation.org/about/annualreport/2020-annual-report/financials/

#budget #znanie #spending
Дмитрий Скугаревский из Европейского университета опубликовал в Рюмочной ИПП [1] результаты анализа полноты данных в ЕГРЮЛ, надеюсь он и его коллеги выложат в будущем результаты в виде статьи или иной завершённой работы с кодом и данными. От себя прокомментирую что коллеги охватили период до 1 января и анализировали полноту заполнения сведений.

Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.

Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.

#opendata #data #registries #ngos
Хорошая новость в том что Минцифры наконец-то начали чистить/приводить в порядок реестр отечественного ПО и опубликовали перечень правообладателей с нерелевантными сведениями [1] с призывом им зайти и обновить о себе информацию. Как сторонник повышения качества госданных лично я очень поддерживаю эту идею, все бы реестры можно было так почистить.

Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.

А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.

Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.

А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat

Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/

#registries #it #digital
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.

А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.

С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.

Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].

И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.

Потеснят ли они Google? Будет интересно на это посмотреть

Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com

#privacy #search
Недавно я писал про различные онлайн сервисы которые в мире создаются G2G, органами власти для органов власти. Один из них - мониторинга безопасности и качества создания веб-сайтов Pulse когда-то был создан в США командой 18f и был доступен по адресу pulse.cio.gov (сейчас переадресует), а с приходом в Белый дом команды Трампа он был переименован в DigitalDashboard.gov и теперь доступен только после авторизации.

Исходный код Pulse был открыт с 2015 года, он открыт и сейчас, но уже заархивирован и не обновляется с 2019 г. За это время многие органы власти и активисты форкали репозиторий pulse и создавали его клоны для доменов госорганов своих стран. К примеру, https-norge по норвежским госсайтам, pulse.openstate.eu по сайтам органов власти Нидерландов, https.jetzt по сайтам правительства и земель Германии. На этих сайтах можно посмотреть как этот сервис выглядит.

Похожие продукты создавались и создаются в других странах. В Канаде под аналогичным названием Pulse работает закрытая система мониторинга HTTPS для госинфраструктуры.

#privacy #security #govdomains #tls #dnssec
Наши друзья и партнёры Инфокультуры - Центр цифровых прав проводят регулярные курсы по обучению юристов цифровому праву.
Forwarded from DRC LAW: IT-юристы
​​Интенсив для юристов по цифровому праву с 29 ноября по 3 декабря

Сегодня закон пытается догнать стремительно уходящие вперед технологии. Вопросы регулирования криптовалют, доменные споры, авторское право и реклама в интернете. Для современного юриста разобраться в этих вопросах значит обеспечить себе базу знаний, которые помогут быть востребованным специалистом как в современных реалиях и в будущем.

🎓 С 29 ноября по 3 декабря 2021 года пройдет пятидневный интенсив по современному российскому и международному законодательству CyberLaw School, разработанный специально для in-house и частнопрактикующих юристов, адвокатов и специалистов консалтинговых компаний.

Программа обучения будет состоять из 7 модулей:

1. Intermediaries & ISP
2. Tax & Ad
3. IP & Copyright & Domains
4. Big Data & AI
5. Privacy & Security
6. Forensic
7. Digital assets & crypto/blockchain

5 дней, 11 экспертов, 7 модулей, 45 академических часов актуального материала от лучших практикующих экспертов. Не только теория, но и разбор кейсов из реальной практики. По итогам обучения выдается удостоверение о повышении квалификации. Ознакомиться с программой и подробнее узнать о наших тренерах можно на сайте https://cyberlaw.center/.

Наш курс прошли юристы из таких организаций, как: Universal Music Group, АО «Мерседес-Бенц РУС», ПАО Сбербанк, Финансовая группа БКС, АО «Тинькофф Банк» и многие другие.

Для вашего удобства мы предлагаем опционально и дистанционное участие в обучении. Таким образом вы можете выстроить свой персональный график очного/заочного посещения занятий.

📆 Старт программы уже 29 ноября. Количество мест ограничено. Успейте записаться на обучение у экспертов в области цифрового права. Будет непросто и интересно.

👉 Регистрируйтесь по ссылке: https://clck.ru/YjuaL
В Север.Реалии статья о реалиях прохождения переписи населения, "Цена таким данным нулевая". Фальсификации при переписи населения [1], на ту же темы в Deutsche Welle Всероссийская перепись населения: чем опасна фальсификация данных [2] и выступление Натальи Зубаревич на Эхо Москвы [3].

Перепись у нас в стране очень политизирована, в ней выражается многое, и замороженные национальные конфликты [4] и общей уровень недоверия государству граждан и ещё много чего.

Но в чем права Наталья Зубаревич и экономисты и демографы так в том что данные переписи необходимы, насколько возможно качественные, насколько возможно подробные, насколько возможно локализованные, но анонимизированные. Да, государство и так владеет базами данных о граждан в виде данных в ФНС, в Пенсионном фонде, в ФСС, в ФОМС, а также базы данных SIM карт и передвижения есть у сотовых операторов и ещё у ряда коммерческиз и государственных структур есть разной степени актуальности, полноты и достоверности базы данных.

Перепись - это один из немногих дата-продуктов государства который хотя бы частично предоставляется исследователям, бизнесу и самим гражданам в виде аналитики, официальной статистики и иных срезов данных.

Поэтому то что граждане не доверяют переписчикам, то перепись охватывает не всё, это, конечно, скорее трагедия для всех кто потом эти данные будет использовать при принятии решений и мне не хочется злорадствовать в стиле "опять ничего не получается". Да лучше бы получалось и лучше бы в российские данные были доступны с раскрытием до муниципалитета и переписного участка, например, как в Австралии [5] или США и в других странах доступны данных до уровне блока (block level).

Ссылки:
[1] https://www.severreal.org/a/tsena-takim-dannym-nulevaya-falsifikatsii-pri-perepisi-naseleniya/31557044.html
[2] https://www.dw.com/ru/perepis-naselenija-rossii-chem-opasna-falsifikacija-dannyh/a-59801766?maca=rus-yandex_new_politics_mm-9641-xml
[3] https://echo.msk.ru/programs/personalno/2926988-echo/
[4] https://kazan.mk.ru/social/2021/11/11/ilnar-garifullin-po-tatarskim-rayonam-bashkortostana-ezdyat-bashkirskie-agitbrigady.html
[5] https://www.abs.gov.au/census/find-census-data

#opendata #data #census
В рубрике международные каталоги данных Pacific Data Hub [1] каталог данных Тихоокеанского содружества (Pacific Community) [2] объединяющего тихоокеанские островные государства при ассоциированном партнерстве с Новой Зеландией и Австралией.

В каталоге 1126 наборов данных, большая часть данных в простых CSV форматах, почти все данные статистические, кроме того в рамках каталога существует ещё один каталог микроданных [3].

Многие межгосударственные организации сейчас создают свои порталы открытых данных и программы обмена данными. Например, ESA Data Hub [4] портал открытых данных Европейского космического агентства, UNFCCC Climate Finance Data Portal портал данных ООН по финансированию программ изменения климата [5], портал данных по миграции [6], хаб открытых статданных COMESA [7] и ещё десятки порталов структур ООН, Мирового банка, объединений стран и так далее.

Международных инициатив по открытости данных всё больше, большая их часть начинается именно с порталов открытых данных.

Ссылки:
[1] https://pacificdata.org
[2] https://www.spc.int
[3] https://microdata.pacificdata.org/index.php/home
[4] https://climate.esa.int/en/odp/#/dashboard
[5] https://unfccc.int/climatefinance?home
[6] https://www.migrationdataportal.org/
[7] https://comstat.comesa.int/

#opendata #data #datacatalogs
В рубрике данные о России, не в России и в России, каталог открытых наборов данных о биоразнообразии GBIF Global Biodiversity Information Facility [1]. В каталоге более 63 тысяч наборов данных посвящённых таксономии живых существ и из них 548 наборов данных опубликовано из Российской Федерации [2], например, Национальный банк-депозитарий живых систем при МГУ [3] и многие другие.

Если быть точным, то у GBIF есть сообщество и в России [4] посвящённое оцифровке коллекций, правильному ведению метаданных, принципам FAIR и многое, а также о том как пишутся статьи на данных [5].

Здесь надо сказать что в России, возможно как и во многих других странах, внедрение практики открытости науки и открытости данных в науке продолжается там где есть живая наука интегрированная в мировую. Там где она есть там есть и принципы FAIR, и интеграция с большими международными каталогами данных и многое другое что является просто естественным развитием исследовательской деятельности.

При этом в России постепенно появляются руководства по управлению исследовательскими данными. Они есть, как минимум в виде рекомендаций [6] в ГПНТБ СО РАН и в Офисе управления исследовательскими данными СибГМУ [7], но нет ничего на уровне инициатив Минобрнауки или РНФ или иных финансирующих отечественную науку организаций.

Ссылки:
[1] https://www.gbif.org/
[2] https://www.gbif.org/dataset/search?publishing_country=RU
[3] https://plant.depo.msu.ru/
[4] http://gbif.ru/
[5] http://gbif.ru/datapaper
[6] http://www.spsl.nsc.ru/naukresursy-i-uslugi-gpntb-so-ran-dlya-nauki-i-biznesae-i-biznesu/rdm/
[7] https://ssmu.ru/ru/nauka/databank/

#opendata #openscience #openaccess #FAIR