Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Довольно простое и давно планировавшееся обновление в DataCrafter'е - экспорт данных таблиц в простых форматах. Сейчас поддерживаются JSONl, csv и parquet. JSON lines для всех видов данных, а csv и parquet для данных в плоских таблицах. При генерации данных для экспорта всегда есть баланс между нагрузкой на базы данных, объёмами хранения и скоростью отдачи результатов. Эти данные экспортируются не на лету, а по расписанию, тем самым нагрузка на БД и процессор минимизируется, а хранить приходится сильно больше.
Forwarded from APICrafter
Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv
Вышла свежая версия Delta Lake [1], open source продукта по созданию озер данных используемого во многих облачных решениях, например, в MS Azure [2], а также в Google Cloud и AWS. Создатели Delta Lake, компания Databricks [3], а сам проект переведен в Linux Foundation [4].

Инструмент полезный, если не первоочередной для инженеров данных не имеющих ограничений на работу с облачными продуктами.

Ссылки:
[1] https://github.com/delta-io/delta/releases/tag/v1.1.0
[2] https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-what-is-delta-lake
[3] https://databricks.com/
[4] https://www.linuxfoundation.org/projects

#data #tools
ICIJ опубликовали данные из Pandora Papers [1]. Они доступны для поиска на их сайте и в виде дампов [2] для графовой базы данных Neo4J. Проще всего их скачать из репозитория на Github [3] в виде файла дампа на 429 МБ, а работать с данными в Neo4J Desktop [4]. Я думаю что сейчас в ближайшее время много будет желающих заглянуть в эти данные, журналисты так наверняка найдут там что-то интересное.

И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.

Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/

#leaks #data #opendata #datasets
Приложение родительского контроля Life360 поймали на продаже данных 33 миллионов пользователей [1]. Вернее как поймали, об этом и раньше было известно что продажа данных - это часть их бизнес модели, но подробности не были доступны. А вот теперь мы можем узнать из откровений бывшего сотрудника что Life360 продавали данные таким агрегаторам перс. данных как X-Mode и Safegraph. В статье также упоминается что X-Mode продавали данные департаменту обороны США, а Safegraph продавли их Centers for Disease Control and Prevention (CDC), агентству США отслеживающему распространение COVID-19.


Ссылки:
[1] https://themarkup.org/privacy/2021/12/06/the-popular-family-safety-app-life360-is-selling-precise-location-data-on-its-tens-of-millions-of-user

#privacy #apps #mobile
А вот и первые современные медиа пишущие о цифровой архивации. В рассылке Сверхновой о том почему архивация сайтов важная и примеры того кто и как это делает [1]. Там же они упоминают мою инструкцию о том как архивировать сайты и я её напомню для тех кто мог пропустить [2].

Напомню также про другие мои тексты о цифровой архивации:
- The Bit list of Digitally endangered species [3]
- О архивации институтов развития [4]
- О сервисах веб-архивации [5]
- О исчезновении сайта установного суда Санкт-Петербурга [6]
- О подходах к цифровой архивации [7]
- О сравнении архивных копий веб-страниц [8]
- Рождённые в цифре. Цифровые архивы в новейшей истории [9]
- О Archives Unleashed Toolkit [10]

А также многом другом что можно найти у меня в телеграм канале по хэштегу #digitalpreservation

И, вновь, повторюсь что хорошо что о цифровых архивах начали писать журналисты. Это большой прогресс за прошедшие годы.

Ссылки:
[1] https://supernovamedia.substack.com/p/--e13
[2] https://begtin.substack.com/p/18
[3] https://t.me/begtin/3258
[4] https://t.me/begtin/3253
[5] https://t.me/begtin/3070
[6] https://t.me/begtin/3057
[7] https://t.me/begtin/2397
[8] https://t.me/begtin/2356
[9] https://begtin.substack.com/p/7-digital-born-
[10] https://t.me/begtin/2044

#digitalpreservation #webarchives #archives
Forwarded from Инфокультура
В каталог открытых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории

Генетические и биологические (зоологические и ботанические) коллекции Российской Федерации
Цель создания ресурса - разработка информационной системы по генетическим и биологическим (зоологическим и ботаническим) коллекциям РФ в виде общедоступного WEB - сервера, предназначенного для выполнения ключевых функций по проблеме инвентаризации и документирования генетических ресурсов в РФ и удовлетворения информационных потребностей федеральных органов власти, научного сообщества, международных и национальных общественных организаций.

Портал социологических данных РАНХиГС
"Портал социологических данных РАНХиГС — это большая тематическая информационная платформа, открытая база актуальных исследований, проводимых различными подразделениями Академии. Причем речь идет не только о социологических, но и о междисциплинарных проектах.

Фонд данных ДЗЗ
Геопортал Роскосмоса - ресурс, который сочетает в себе средство просмотра космических снимков земной поверхности и средство поиска/заказа данных из Федерального фонда данных ДЗЗ. Отдельным группам пользователей также предоставляется сервис заказа проведения космической съёмки российскими аппаратами ДЗЗ."

База социологических данных ВЦИОМ
Базы данных результатов социологических опросов ВЦИОМ. Включая базы данных Спутник, Архивариус и Roper

Каталог социальных исследований Евразийский монитор
Каталог результатов социологических исследований Евразийский монитор. Включает большое число исследований и данные в формате Microsoft Excel.

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём через в форму на сайте или на почту infoculture@infoculture.ru. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datacatalogs #datasets
Презентация исследователей Университета Саффолка о навыках работы с данными у... библиотекарей [1] и исследователей.

Да, это не ошибка, современная библиотека - это цифровая библиотека, не только с книгами, но и с другими "цифровыми артекфактами" включая данные и о роли Data Librarian я ранее писал. Не все понимают её необходимость, но это только пока ещё.

В исследовательской работе библиотекари данных - это люди умеющие курировать данные, управлять ими и проводить исследования. В некоторых областях деятельности такие роли уже есть, в каких-то появятся позже. А в данной презентации хороший обзор исследований в этой области и предложения по описанию навыков для этой роли.


Ссылки:
[1] https://zenodo.org/record/5155667

#data #dataskills #dataliteracy
В силу многих причин я, как и многие, смотрю на деятельность Правительства РФ обращая внимания на детали и нюансы.

Нюансы координационных и совещательных органов:
1. На сайте Пр-ва перестали обновляться новости по многим правительственным комиссиям. Например, Правительственная комиссия по модернизации экономики и инновационному развитию России, в разделе "Документы и события" последняя новость от 6 апреля 2020 г. [1], в то время как в разделе "Состав" упоминаются [2] 4 распоряжения Правительства РФ менявшие состав правкомиссии.
2. Подструктуры координационных органов не упоминаются на сайте Правительства РФ. Например. Рабочая группа по разработке и реализации НТИ при правительственной комиссии по модернизации экономики и инновационному развитию России упоминается в новостях СМИ и на сайте Минобрнауки РФ [3], но нигде нет её состава (логично в разделе правкомиссии на сайте Пр-ва РФ). Аналогичная ситуация с рабочей группой по инвестиционному развитию Правительственной комиссии по экономическому развитию и интеграции, она упоминается в новостях на сайте Пр-ва РФ, без каких-либо сведений о её составе и участниках совещаний [4]
3. Схожая ситуация с Государственной пограничной комиссией у которой состав уже менялся несколько раз, а новости и документы за 2015 год [5] и ещё со многими другими госкомиссиями, не буду перечислять все.
4. Комиссия по законопроектной деятельности с июля 2019 года перестала публиковать факты одобрения законопроектов [6]

Нюансы доступности документов
1. Среднее время задержки публикации документов на сайте Пр-ва РФ и портале официального опубликования publication.pravo.gov.ru составляет около 16 дней. На сайте Пр-ва РФ сейчас, 7 декабня, размещены НПА принятые 22 ноября [7], а на портале официального опубликования на 7 декабря. Так было и раньше и такое чувство что от смены правительства это не зависит, актуальных документов никогда нет на сайте Пр-ва.
2. На 7 декабря 2020 года Правительство приняло 3229 распоряжения, на 7 декабря 2021 года 3458 распоряжений. Итого прирост на 230 распоряжений в год. Прошлый состав Правительства при Д. Медведеве выдавал максимум до 2734 распоряжений за 2017 год.
3. В случае постановлений Правительства РФ в 2021 году на 7 декабря было принято 2195 постановлений, а в 2017 году на 7 декабря было принято 1489 постановления. Итого прирост на 33%.

Что-то ещё было, всё сразу не вспомню.

Ссылки:
[1] http://government.ru/department/491/events/
[2] http://government.ru/department/491/members/
[3] https://minobrnauki.gov.ru/press-center/news/?ELEMENT_ID=28416
[4] http://government.ru/news/41784/
[5] http://government.ru/department/443/events/
[6] http://government.ru/department/593/activities/
[7] http://government.ru/docs/all/

#transparency #openness #government
Свежая версия законопроекта о Национальной системе управления данными (НСУД) от Минэкономразвития [1] стала вызывать больше оптимизма чем пессимизма.

Из разумного:
- даны определения открытых данных, общедоступных данных
- НСУД сформулировано как "совокупность взаимосвязанных методологических, правовых, организационно-управленческих и информационно-технологических компонентов, обеспечивающих эффективное управление данными НСУД на федеральном, региональном и муниципальном уровне" что приближает НСУД к изначальной концеции управленческой модели, а не технической
- вводится понятие ИСПС (Информационная система публичного сектора) - информационная система, эксплуатацию которой обеспечивает орган или организация публичного сектора в целях выполнения, реализации и (или) предоставления государственной, муниципальной функции, полномочия и (или) услуги соответственно - объединяющая ГИС/ФГИС/ведомственные ИС (кстати тут надо будет ещё много нормативки поменять)
- вводятся обязательства у операторов ИСПС

Что недостаточно:
- определение открытых данных дано неточно: информация, предоставление доступа и использование которой обусловлено форматом ее представления, допускающим возможности реализации автоматической обработки, идентификации, преобразования - ключевое в открытости это отсутствие ограничений, а в этом определении это не указано. Хотя и есть уточнение в описаниие доступа к данным: 4) доступ категории «свободный доступ» предоставляется к открытым данным, обезличенным данным, свободно распространяемой информации, а также к иным общедоступным данным, содержащимся в информационных системах публичного сектора, и представляет собой реализацию прав на получение и использование данных НСУД без ограничений;
- не определена организационная рамка перевода данных из одного статуса доступа в другой
- нет четких требований по обязательному раскрытию и ведению реестра всех категорий видов данных

В любом случае это прогресс по сравнению с текущей ситуации.

А я не могу не напомнить о том что в России до сих пор нет Национальной стратегии в области данных и уже несколько лет нет целостной госполитики по открытости данных (планов по открытию данных органами власти).

Ссылки:
[1] https://regulation.gov.ru/projects#npa=115660

#opendata #data #nsud
Для тех кто интересуется вопросами комплаенса и соответствия сертификациям и требованиям, немного устаревший, но любопытный сервис Compliencerank [1] (ранее GDPR Tracker) состоящий из краудсорсинговой базы 15 тысяч сервисов, 60 сертификаций и других сведений и соответствии онлайн сервисов требованиям по защите информации.

Устаревший потому что не обновлялся 2 года, полезный, потому что полезный для потребителя и регуляторов. Но такие продукты некоммерческие по своей природе и этот тоже прожил недолго, при том что создатели его изначально небольшой стартап комплаенс платформы.

А вот проект Terms of Service. Didn't read [2] не так давно словно обрел второе дыхание и активно развивается. Я об этом писал относительно недавно. Авторы анализируют вручную условия использования онлайн платформ и сервисов и классифицируют положения требований по степени их опасности для пользователей.

Из российских сервисов там упомянуты: VK, Yandex, Odnoklassniki. Немного, но есть.

Я бы сказал что такие обзоры и аналитика нужны в России, но не могу так сказать потому что не вижу какой-то устойчивой модели их существования. Нужно, или много энтузиазма (длинного энтузиазма, что редкость), или системная работа встроенная в существующую постоянную активность.

Ссылки:
[1] https://compliancerank.com
[2] https://tosdr.org

#privacy #complience
Про блокировку Tor'а в России все уже написали, а я скажу так - это большая глупость блокировать инструменты для квалифицированных пользователей.

Во первых потому что для грамотного в ИТ человека найти зеркало Tor'а вообще проблемой не является.
Во вторых - это выставлять себя на посмешище. Почему? Смотри пункт 1.

Конечно, Tor, далеко не простой инструмент по модели его существования и несомненно им пользуются многие по настоящему незаконные деятели. Но тут не надо быть двуличными чтобы предполагать что эти деятели свернут свою активность если что-то запретить. Скорее запреты - это демонстрация неспособности спецслужб технически или оперативной работой выявлять криминальное использование таких технологий.

Поэтому, повторюсь и повторю неоднократно - единственный способ по настоящему блокировать доступ граждан к контенту - это контроль конечных устройств, компьютеров и мобильных телефонов. Этого пока нет, но учитывая тренд в сторону предустановки отечественного ПО - рано или поздно могут такие попытки начаться.

#privacy #security
Тот момент когда хочется написать "Набрали в Минфин СММщиков по объявлению" (с). На странице Минфина России в фэйсбуке [1] опубликовали графики с искажением профицита бюджета и расходов бюджета. В общем грубые визуальные ошибки. Но как пишет репостящее Минфин РФ Министерство финансов Республики Башкортостан - это "полезная информация". Критическое мышление не свойственно не только рядовым гражданам, но и сотрудникам Минфина РФ и других Минфинов, не так ли?;)


Спасибо @ahminfin за наводку.

[1] https://www.facebook.com/ruminfin/posts/4517873578281196

#курьёзы #visual #data #graphics #minfin #govfinances #ржачно
Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics