Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Forwarded from Bloomberg
❗️Власти Великобритании одобрили экстрадицию основателя WikiLeaks Джулиана Ассанжа в США, сообщает WikiLeaks, защита обжалует это решение. 2022[BBG]
Помните как Saxo банк публиковал весьма забавные и немного странные прогнозы? Вот я давно подумывал не начать ли писать похожие прогнозы по развитию рынка ИТ в России до конца года.
Всё написанное исключительно мои домыслы, никаких инсайдов у меня нет и, вообще, (с).

VPN станет госуслугой
Запрещать не будут, но сделают госуслугой или госмонопольной услугой, с авторизацией через Госуслуги и оказываемой, например, монопольно Ростелекомом. Все остальные VPN сервисы в России будут запрещены под угрозой уголовного преследования их создателей, тех кто их продвигает и пользователей. Основание - тотальная деанонимизация. Прогноз - 3 месяца

Весь российский ИТ сектор попадёт под санкции
Потому что ИТ сервисы обеспечивает инфраструктуру для всей экономики, а цель санкций - это максимальный ущерб именно всей экономике. Прогноз - 3 месяца

Госрасходы на ИТ сократятся минимум вдвое
Но мы об этом не узнаем или узнаем минимально потому что их начнут секретить и переводить в неконкурентные торги. Прогноз - анонс предварительной структуры бюджета на 2023 г, прогноз - 3-5 месяцев.

Появится сословие ИТшников
Создадут их реестр по аналогии с реестром ИТ компаний, зарегистрировавшись можно будет получить сертификат с гербовой печатью, личную печать, введут награждения заслуженного и народного артиста ИТшника.
А также будут как купцы по категориям: 1-й, 2-й, 3-й (senior, middle, junior)․ Все льготы привяжут к нахождению в этом реестре, по части персонифицированных льгот он заменит реестр(ы) ИТ компаний.
Прогноз - полгода

ИТшников будут ненавидеть больше чем москвичей
Потому что: а) сословие б) льготы в) [не]лёгкий снобизм как производное первого и второго.
Прогноз - полгода

#humour #predictions
В рубрике интересных продуктов для работы с данными SteamPipe. Это фреймворк для доступа к более чем 200+ источникам данных через SQL запросы [1].

Идея проста - любые данные должны иметь SQL интерфейс для этого у StreamPipe 78 плагинов [2] для доступа к большинству известных СУБД и к разного рода онлайн сервисам и протоколам.

Например, доступ к почтовому ящику IMAP через SQL [3] или доступ к сетевой информации сертификатов, доменов, IP адресов через SQL [4].

Сама идея подкупает своей универсальностью и реализация вполне рабочая. Скорее всего там есть существенные ограничения в работе с рядом иерархических данных, но, с другой стороны преимущества универсального доступа велики.

Проект написан на Go командой стартапа Turbot [5], доступен с открытым кодом и активно развивается [7].

Проект должен хорошо вписываться в любой ELT/ETL инструмент и стоит ожидать новых ETL продуктов на Go с его поддержкой.

Ссылки:
[1] https://steampipe.io/
[2] https://hub.steampipe.io/plugins
[3] https://hub.steampipe.io/plugins/turbot/imap
[4] https://hub.steampipe.io/plugins/turbot/net
[5] https://turbot.com/
[6] https://github.com/turbot/steampipe

#opensource #datatools #etl
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research
Тут Минцифры РФ обещает не вводить наказания за использование VPN. Но мы то понимаем 😏 что наказания в нашей стране устанавливает не Минцифры, а совсем другие органы власти, которые телеграм каналы не ведут и в ПМЭФах и ЦИПРах не участвуют.

#vpn #privacy
Forwarded from Roskomsvoboda
Минцифры обещает не вводить наказания за использование VPN

Об этом рассказал глава министерства Максут Шадаев. Он также отметил, что использование таких приложений власти не приветствуют:

💬«Никаких наказаний для пользователей категорически не будет вводиться. Мы против этого. Поэтому, кому очень надо, такую возможность будет иметь, и будет иметь ее дальше, и сохранит. Но, конечно, политике государства, когда в принципе ограничивают доступ к каким-то ресурсам, это противоречит».

➡️ https://roskomsvoboda.org/post/mincif-prot-nakaz-vpn-youtube/
Весьма интересный обзор Welcome to the New Database Era [1] от Ethan Batraski из Ventrock о том как постепенно, но верно облачные базы данных выходят в мэйнстрим и про стартапы вроде Hasura, Xata, Ottertune, Polyscale и др.

Взгляд автора особенно интересен как взгляд венчурного капиталиста на рынок баз данных и про основные развития этого рынка.

Например, о том что команды работающие с данными просто хотят чтобы у них была рабочая инфраструктура, а не нанимать DevOps или DBA и других или о том что всё большую актуальность приобретает HTAP или о том машинное обучение не используется практически для оптимизации баз данных (это важная идея, кстати) и о том что нет хороших промышленных примеров прорывов в индексировании данных.

По мне так текст просто наполнен инсайтами и идеями, хотя и для некоторых из них нужно большее погружение в рынок баз данных и сервисов на их основе.

Ссылки:
[1] https://ethanjb.medium.com/welcome-to-the-new-database-era-f4f8c8c407e1

#databases #opensource #data
Облачные сервисы повсеместны и имеют много плюсов и большой минус - доступ к облаку может пропасть в любой момент. Не говоря уже о том что облачные сервисы почти всегда нарушают пользовательскую приватность. Альтернативный архитектурный подход в разработке приложений по модели local first [1] это архитектурный шаблон разработки программ в которых данные, в первую очередь, обязательно хранятся локально и синхронизируются с облаком без потери функциональности приложения если сервер/сервис недоступен.

Основные идеалы архитектуры local-fist:
1. Никаких индикаторов загрузки (спиннеров): работа всегда доступна
2. Работа не ограничена одним устройством
3. Сеть опциональна
4. Прозрачная интеграция работы с коллегами
5. Длинное Сейчас (The Long Now)
6. Безопасность и приватность по умолчанию
7. Ваш полный контроль и владение данными и процессами

Здесь, конечно, можно вспомнить что именно такая модель использовалась многими приложениями из 90-х, и вот мода на такую архитектуру возвращается.

Например о такой архитектуре пишут создатели Riffle [2], исследовательского проекта по построению приложений на данных по модели local first.

Ссылки:
[1] https://www.inkandswitch.com/local-first/
[2] https://riffle.systems/essays/prelude/

#data #architecture
Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].

Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.

Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.

Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.

И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.

Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.

Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/

#itmarket #data
Свежий доклад ORelly о каталогах данных сделанный в партнерстве/при поддержке стартапа Alation [1]. Хотя такие доклады при поддержке одного из коммерческих игроков нельзя назвать полностью нейтральными, но доклад полезный, определяет три вида каталогов данных: инструментальные, отраслевые и платформенные.

Плюс отсылки на интересные проекты, не все из них широко известны. Например, я неожиданно для себя открыл Ground [2], проект Google и UC Berkley по анализу контекста работы с данными.

Ссылки:
[1] https://www.alation.com/resource-center/snowflake-summit-2022/oreilly-implementing-a-modern-data-catalog
[2] http://www.ground-context.org

#datacatalogs #dataplatforms #data
Вышел Tauri 1.0 [1] первый релиз фреймворка для построения кросс-платформенных приложений с помощью языка Rust. Авторы очень постарались чтобы приложения на его основе имели минимальный футпринт - были бы как можно меньше по размеру, потребляли бы меньше CPU и оперативной памяти. В нынешнее время приложений распухающих до сотен гигабайт это вызывает большое уважение и признак высокой квалификации разработчиков. У создателей много бенчмарков подтверждающих такой подход [2] и в целом одного взгляда на код и на примеры достаточно чтобы понять что будущее приложений для десктопа если не за Tauri, то за подобными фреймворками как новым подходом.

А подход как раз в том о чём я ранее писал про модель local-first [3]. Дословно из их описания
Tauri allows you to build "local first" applications without a webserver, so your users don't have to share their data with big tech. Using local databases and rust based cryptography have never been easier.

При том что как раз big tech не связанный с разработкой ПО активно Tauri используют, например, Cloudflare и Digital Ocean.

Из любопытных продуктов на Tauri можно обратить внимание на SpaceDrive [4] файловый менеджер в активной разработке с множеством интересных возможностей вроде поддержки облачных файловых систем, шифрованного хранилища, управления ключами и тд.

А также большая подборка приложений в списке Awesome Tauri [5]

Если говорить про настольные приложения по интенсивной работе с данными, например, настольные приложения для data wrangling нового поколения, то Tauri выглядит как очень подходящий инструмент.

Ссылки:
[1] https://tauri.app/blog/tauri_1_0/
[2] https://tauri.app/about/benchmarks
[3] https://t.me/begtin/3977
[4] https://www.spacedrive.com/
[5] https://github.com/tauri-apps/awesome-tauri

#opensource #frameworks #datatools
Отвлекаясь от технологических тем, в Полит.ру есть проект "После" про моделирование будущего России, интервью со мной назвали «Единственная стратегия выживания – это радикальная деконсерватизация общества» [1] а я как мог говорил о самых радикальных преобразованиях как возможное будущее страны.

А может быть даже не о самых радикальных.

Ссылки:
[1] https://polit.ru/article/2022/06/21/begtin/

#politics #russia
Полезное чтение про данные
- The Death of Data Modeling - Pt. 1 [1] о том как текущие подходы к разработки влияют на моделирование данных и о том что это необходимо перезапускать/воскрешать уже в рамках Modern Data Stack
- Airflow Summit 2022 — The Best Of [2] материалы саммита AirFlow, хорошая подборка ссылок
- Automated Experiment Analysis - Making experimental analysis scalable [3] про автоматизацию ML экспериментов в Grab
- A framework for designing document processing solutions [4] фреймворк для потоковой обработки сканированных документов

Ссылки:
[1] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[2] https://medium.com/apache-airflow/airflow-summit-2022-the-best-of-373bee2527fa
[3] https://engineering.grab.com/automated-experiment-analysis
[4] https://ljvmiranda921.github.io/notebook/2022/06/19/document-processing-framework/

#data #datatools #readings
В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.

Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].

Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].

В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.

Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.

Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers

#opendata #usa #opengov
В рубрике стартапов на данных и связанных с данными

- CloudQuery [1] сервис инвентаризации облачных активов. Это когда у вас серверов и других сервисов много, а управлять ими уже сложно ну или надо хотя бы знать где что находится. Также есть в открытом коде [2]. Подняли $15M инвестиций 22 июня [3]

- Avo [4] система управления аналитикой и прослеживаемостью пользователей. Подняли $5M в 5 раундов, последний раунд в сентябре 2020 г. Дают удобный интерфейс для отслеживания каждого пользователя и с интеграцией с RudderStack, Segment, Posthog и другими инструментами.

- Y42 [5] платформа управления данными с претензией на полный цикл охвата: интеграция, моделирование, визуализация и оркестрация. Всего подняли 33.9M в 2 раунда. Последний раунд в октябре 2021 г.

- Castor [6], стартап по каталогизации данных, получил инвестиций в объёме $23.5M в начале июня [7]. В основном делают акцент на большей понимаемости данных, удобном интерфейсе каталога и тд.

- Immuta [8] разработчики платформы по защите данных с функциями обнаружения чувствительных данных подняли раунд E на $100M [9] инвестиций. Это корпоративный каталог с акцентом на интеграцию со всеми крупнейшими облачными базами данных Snowflake, RedShift, BigQuery и тд. Общий объём привлеченных ими инвестиций $276M

Ссылки:
[1] https://www.cloudquery.io/
[2] https://github.com/cloudquery/cloudquery
[3] https://www.cloudquery.io/blog/cloudquery-raises-15m-series-a
[4] https://www.avo.app/
[5] https://www.y42.com/
[6] https://www.castordoc.com/
[7] https://techcrunch.com/2022/06/07/castor-a-data-catalog-startup-nabs-23-5m-to-expand-its-platform/
[8] https://www.immuta.com
[9] https://www.immuta.com/articles/series-e-funding-announcement/

#startups #data #itmarket
В качестве регулярного напоминания проект по созданию каталога каталогов данных DataCatalogs [1] созданный командой @infoculture.

В нем собрано описание 263 каталогов данных всех типов и категорий: открытых, закрытых, государственных, общественных, частных и тд., сгруппированных по 115 темам.

Этот сайт создан поверх базы в Airtable которую мы ведем в Инфокультуре и можно предложить туда каталог данных через форму на сайте [2].

У Airtable есть большие достоинства в удобстве моделирования и ведения базы данных вручную, но минусы в проприетарности и невозможности простого построения веб-интерфейса открытыми решениями.

Из незавершённого:
- нет экспорта каталога в открытые данные и выкладкой на сайте или в Github. Проще всего через Github Actions скорее всего
- нет автоматизированного пополнения Awesome Opendata Russia [3], списка ссылок на порталы и ресурсы по открытым данным в России.

Если есть идеи и предложения по развитию этого каталога каталогов, присылайте нам, возьмём в работу.

Ссылки:
[1] https://datacatalogs.ru
[2] https://www.datacatalogs.ru/add-resource
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datasets #datacatalogs
YaLM 100B [1] GPT-подобная нейросеть для обработки и создания текста. Доступна под лицензией Apache 2.0 и вчера выложена командой Яндекса на Github.

Авторы заявляют 100 миллиардов параметров, отсюда 100B в названии, и то что модель создавалась на основе 1.7 ТБ текстов и рассчитывалась 65 дней на кластере из 800 видеокарт A100.

Подробнее в статье в Medium [2] и на Habr [3].

Ссылки:
[1] https://github.com/yandex/YaLM-100B
[2] https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-like-neural-network-in-open-source-d1df53d0e9a6
[3] https://habr.com/ru/company/yandex/blog/672396/

#datasets #gpt #neuralnetworks #ai
Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив

Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.

Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.

Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.

В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.

Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Мало кто думает об архивации чего-бы то ни было как потеряв какие-то очень важные данные или файлы. Личное осознание значимости бэкапов - это часто последствия личного же травматического опыта.

Практические механизмы применяемые в корпоративной среде - это, чаще всего, разного рода инструменты входящие в состав операционной системы. А для СУБД - это чаще генерация дампов баз данных специфичных для конкретной СУБД.

Когда речь заходит об архивации на системном уровне то возникает вопрос стандартов и универсальных спецификаций. А их и то оказывается не так много. У библиотеки Конгресса США есть коллекция форматов рассматриваемых для архивации табличных данных/баз данных [1]․

Почти все они - это форматы обмена данными, такие как XML, JSON, CSV, HDF, CDF, XLS и тд. Рекомендуемыми форматами для данных при этом являются CSV/TSV и SQLite [2].

А вот в Швейцарии разработали и приняли ещё в 2013 году стандарт SIARD, его описание также есть в библиотеке Конгресса [3]. Этот стандарт описывает унифицированный экспорт баз данных не только с точки зрения данных, но и всех связанных объектов, понятий, артефактов и метаданных. Стандарт не самый древний, но ограниченный с самого начала такими СУБД как Oracle, Microsoft SQL Server, MySQL, IBM DB2, Microsoft Access. Тут не то что NoSQL нет, но и нет поддержки облачных СУБД, нет многих популярных баз данных и не только. А сам стандарт с 2015 года практически не развивался.

Что характерно, других универсальных стандартов экспорта/импорта СУБД не существует. Что иногда кажется странным, поскольку в ИТ очень любят разрабатывать собственные спецификации. Например, в Modern Data Stack уже есть множество стандартов описания метаданных в СУБД таких как OpenMetadata [4] и OpenLineage [5] которые довольно сильно пересекаются с SIARD в части метаданных описывающих данные, но не заходят в область непосредственно сохранения контента.

Вопрос о том как сохранять унаследованные данные после закрытия проектов по прежнему открытый. Всё что я могу вспомнить даже в довольно крупных организациях - это положенные на сетевое хранилище дампы с кратким описанием содержания.

Ссылки:
[1] https://www.loc.gov/preservation/digital/formats/fdd/dataset_fdd.shtml
[2] https://www.loc.gov/preservation/resources/rfs/data.html
[3] https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml
[4] https://docs.open-metadata.org/metadata-standard/schemas
[5] https://github.com/OpenLineage/OpenLineage

#databases #digitalpreservation