Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.8K photos

3 videos

101 files

4.51K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Очень интересный инструмент, проект и подход Zed [1] как сами создатели его описывают это Zed offers a new approach to data that makes it easier to manipulate and manage your data. А по сути команда компании Brim Data [2] разработали собственную модель данных [3] и, в привязке к ней, форматы файлов ZNG, ZST, ZSON, ZJSON которые, как они обещают, дают лучше скорость обработки данных, лучше хранят данные и так далее.

Я, как удачно, прямо сейчас занимался систематизацией кода DataCrafter'а с выделением в открытый код сборщика и преобразователя данных. И вот тут Zed кажется инструментом чрезвычайно подходящим для применения, но вначале его надо тщательно протестировать.

Ссылки:
[1] https://zed.brimdata.io
[2] https://www.brimdata.io/
[3] https://zed.brimdata.io/docs/formats/zed/

#data #datatools #opensource

zed.brimdata.io

The Zed Project | Zed

Super-structured Zed makes cleaning and wrangling data easy.

1.9K viewsIvan Begtin, 14:47

Интересное чтение про обработку 22GB CSV файла с транзакциями с помощью Pandas [1] и к нему же в дополнение аналогичная задача решаемая с помощью движка Deephaven [2], автор декларирует 60-кратное ускорение её выполнения через преобразование данных в формат Parquet.

Интересно было бы увидеть и сравнение с другими инструментами, например, с тем же Zed [3], но общая мысль такова что надо использовать правильные инструменты для разных задач.

По своему опыту могу сказать что для задач дата-инженерии Pandas так себе инструмент, скорее узнаваемый, но не самый быстрый и для задач обработки больших данных есть другие подходы.

Идеальный сценарий при неограниченных ресурсах - это ELT подход, когда вначале тот же CSV файл загружается в базу первичных данных и далее уже с данными внутри СУБД делаются все необходимые манипуляции, например, через dbt.

Сценарии при неограниченных ресурсах начинаются с ревизии того где находятся наибольшие ограничения: процессор, память, дисковое хранилище и тд.

Например, в задачах обработки данных где есть построчная изоляция преобразования, а то есть результат преобразования зависит только от содержания данных в одно записи, и не зависит от других записей, самым очевидным оказывается разделение набора данных на потоковые батчи и обработка в n-ное число потоков или процессов.

Другой путь в преобразовании изначальных данных из CSV в форматы более пригодные для обработки, такие как тот же Parquet, собственно об этом и пишут в блоге Deephaven. Есть и много других способов, подходов, трюков.

Что я могу сказать, так то что многие задачи решаются не теми инструментами которыми пользуются каждый день. Например, обработка CSV файлов с помощью Pandas может оказаться куда медленнее чем с помощью консольных утилит вроде csvkit [4], xsv [5] и аналогов. Я когда-то специально для себя делал инструментарий и выносил его в открытый код в утилиту undatum [4] который умел разрезать на куски JSONlines и BSON файлы и, в добавок, поддерживал CSV файлы тоже. Это тоже частая задача, которую пытаются решать инструментами вроде Pandas.

Чего не хватает в индустрии дата-инженерии - это большого числа соревнований по преобразованию данных по аналогии с Global Data Compression Competition 2021[7]. Когда есть типовые требования к окружению, компьютер с заранее определенными ресурсами, и набор [не]типовых задач по преобразованию данных. Потому что одну и ту же задачу можно решить десятками разных способов и инструментов.

Ссылки:
[1] https://towardsdatascience.com/batch-processing-22gb-of-transaction-data-with-pandas-c6267e65ff36
[2] https://medium.com/@deephavendatalabs/make-pandas-60x-faster-c064ed26d3c1
[3] https://t.me/begtin/3807
[4] https://github.com/wireservice/csvkit
[5] https://github.com/BurntSushi/xsv
[6] https://github.com/datacoon/undatum
[7] https://www.gdcc.tech

#data #datatools #readings #dataengineering

Batch Processing 22GB of Transaction Data with Pandas

How you get around limited computational resources and work with large datasets

2.7K viewsIvan Begtin, 05:09

Forwarded from addmeto (Grigory Bakunov 🧪)

Гугл теперь официально принимает запросы на удаление результатов поиска, содержащих персональную информацию (контакты, физический адрес, телефон, емейл, логин и тп). До этого причиной для удаления была только попытка украсть ваши деньги через использование вашего имени.

Вот список информации, которая может быть причиной для удаления:
- Номера, позволяющие вас идентифицировать (номер паспорта или SSN, наверное для некоторых СНИЛС)
- Номера банковских счетов
- Номера кредитных карт
- Фото рукописных подписей
- Фото других документов, удостоверяющих личность
- Очень личные данные, такие как медицинские записи
- Персональная контактная информация (физические адреса, номера телефонов и адреса электронной почты)
- Конфиденциальные учетные данные для входа (логины и пароли)

https://www.theverge.com/2022/4/27/23044951/google-search-results-personal-information-address-phone-number

Google can now remove search results that dox you without second-guessing intent

You ask it to remove links to your address and more.

1.7K viewsIvan Begtin, 11:24

Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata

2.2K viewsIvan Begtin, 10:31

EPDS (he European Data Protection Supervisor) [1] анонсировали две новые социальные платформы с заботой о приватности EU Voice [2] и EU Video [3].

EU Voice основано на Mastodon, платформе для социальных сетей с открытым кодом.

EU Video работает на базе движка Peertube, также с открытым кодом.

А российское правительство могё'т развернуть свой экземпляр Mastodon или поддерживать бизнес товарища Дурова приоритетнее?;)

Ссылки:
[1] https://edps.europa.eu/press-publications/press-news/press-releases/2022/edps-launches-pilot-phase-two-social-media_en
[2] https://social.network.europa.eu/public
[3] https://tube.network.europa.eu/

#opensource #socialnetworks #eu #government #privacy

European Data Protection Supervisor

EDPS launches pilot phase of two social media platforms

The European Data Protection Supervisor (EDPS) launches today the public pilot phase of two social media platforms: EU Voice and EU Video. EU institutions, bodies, offices and agencies (EUIs) participating in the pilot phase of these platforms will be able…

2.0K viewsIvan Begtin, 11:03

Я продолжаю писать на английском языке о инструментах для работы с данными которые делал последние несколько лет. Написал заметку [1] про утилиту APIBackuper используемую для извлечению данных из API. Не открою большого секрета если скажу что большая часть данных в DataCrafter[2] собрана с её помощью. Слишком многие данные в России доступны только как API.

Но в заметке пример сбора данных с недокументированного API аэропорта Берлина.

Ссылки:
[1] https://medium.com/@ibegtin/apibackuper-a-command-line-tool-to-archive-backup-data-api-calls-3eb0e98e1a3b

#tools #datatools #opensource #articles

APIBackuper: a command-line tool to archive/backup data API calls

A lot of data published as API, iterable by page or skip parameters API. Sometimes it’s documented, sometimes not, but quite often it’s…

2.1K viewsIvan Begtin, 15:53

Из свежего полезного чтения про оптимизацию работы с данными, заметка How to Build a Lossless Data Compression and Data Decompression Pipeline [1] о построении многопоточного компрессора bz2 на Python. Статья полезная, но лично мне так и хочется ехидно прокомментировать про то что "хипстеры обнаружили для себя многопоточность". Многопоточное сжатие и другие многопоточные операции это один из многих трюков отличающих общедоступные и коммерческие продукты по обработке данных. При правильно подобранном железе и иных оптимизациях оно даёт многократное ускорение.

При этом придумывать что-то своё совершенно необязательно. Есть реализация многопоточного Gzip на Python - pgzip [2] . Есть реализация многопоточности в python-zstandard [3] и это если только говорить про компрессию, а есть и другие многопоточные задачи используемые при обработке данных.

Другое чтение, про Software defined assets [4] про новый декларативный подход управления данными и оркестрацией от команды Dagster. Не могу сказать что с лёту мне удалось понять принципиальные преимущества подхода, но почитать точно стоит

Ссылки:
[1] https://python.plainenglish.io/lossless-data-compression-and-data-decompression-pipeline-2f5391a6b7e7
[2] https://github.com/pgzip/pgzip
[3] https://python-zstandard.readthedocs.io/en/latest/multithreaded.html
[4] https://dagster.io/blog/software-defined-assets

#readings #tools #datatools

How to Build a Lossless Data Compression and Data Decompression Pipeline

A parallel implementation of the bzip2 high-quality data compressor tool in Python.

2.2K viewsIvan Begtin, 07:05

Российский Forbes пишет что США планируют упростить получение виз для специалистов из России [1] ссылаясь на статью в Bloomberg [2] (закрыта пэйволом). Если кратко то теперь для ИТ специалистов и инженеров по ряду специальностей из России не потребуется наличие работодателя для получения рабочей визы. Это не отменяет того что из России напрямую в США сейчас не уехать, но для всех тех у кого сейчас российское гражданство и кто уже уехал или на низком старте - это будет возможность уехать, без сценариев возвращения.

У этой новости есть плохая и хорошая сторона.

Хорошая сторона в том что возможно градус культуры отмены русских (россиян) будет снижаться или сходить на нет, а акценты будут сделаны на культуре отмены российского пр-ва. Хорошая для ИТ специалистов из России, конечно, а не для России как страны.

Плохая сторона в том что как бы российские власти окончательно не перешли бы в режим коммуникации с ИТ рынком только от негатива. Не снижать налоги, а запрещать выезд. Не льготная ипотека, а усиление посадок и работа из тюрьмы и так далее.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/464551-bloomberg-uznal-o-planah-ssa-uprostit-polucenie-viz-dla-specialistov-iz-rossii
[2] https://www.bloomberg.com/news/articles/2022-04-29/biden-seeks-to-rob-putin-of-his-top-scientists-with-visa-lure

#it #russia #market

Bloomberg узнал о планах США упростить получение виз для специалистов из России

Администрация США обсуждает планы, как упростить получение виз для высокообразованных российских специалистов, узнал Bloomberg. Одно из предложений — не требовать трудоустройства в США для получения рабочей визы. США хотят так ослабить российские выс

2.6K viewsIvan Begtin, 09:56

Я ранее писал про реестр семантических типов данных registry.apicrafter.io [1], сегодня добавил к нему расширение схемы описания каждого такого типа.
Напомню, это реестр смысловых значений полей данных полезный для задач:
- идентификации персональных данных
- улучшения навигации по каталогам данных
- автоматическое документирование данных
- автоматические тестирование данных

Во первых - это связь типа данных со свойством из Wikidata [2], хотя в Wikidata далеко не всё, а только то что соотносится с данными Википедии, поэтому большая подборка идентификаторов библиографии, и не так много идентификаторов из физического мира или продуктов. Тем не менее одно из важнейших достоинств Wikidata - это хорошо систематизированные данные связываемые онтологическим образом. А для свойств присутствующих там также включены правила проверки и иные метаданные.

Например, код РНБ [3], для которого есть примеры и есть регулярное выражение для проверки [1-9]\d{3,8} и так ещё многие коды, в большей степени не российские, но некоторые российские тоже есть.

Когда смотришь на Wikidata кажется что казалось бы вот он идеальный источник осмысления данных, но устроен он так что это скорее его надо пополнять в будущем.

А во вторых - это примеры данных по каждому семантическому типу данных, чтобы было понятно как выглядят именно эти данные.

При этом многие не понимают до конца зачем нужно осмысление хранимых данных и, соответственно, автоматическая идентфикация их типов. Здесь явно нужна референсная реализация каталога данных или надстройки/расширение имеющегося, вроде CKAN. Потому что основное - это повышение качества data discovery.

Ссылки:
[1] http://registry.apicrafter.io
[2] https://wikidata.org
[3] https://www.wikidata.org/wiki/Property:P7029

#data #opendata #metadata #opensource

www.wikidata.org

National Library of Russia ID

identifier for authority control used by the National Library of Russia, Saint-Petersburg

2.3K viewsIvan Begtin, 13:01

Forwarded from Пост Лукацкого

Президент подписал еще один Указ - на этот раз про ответные санкции, который запрещает любые сделки между российскими юрлицами и физлицами и иностранными лицами, список которых в течение 10 дней должен быть утвержден Постановлением Правительства. Согласно ст.153 ГК РФ "Сделками признаются действия граждан и юридических лиц, направленные на установление, изменение или прекращение гражданских прав и обязанностей". Иными словами, будет запрещено любое взаимодействие с санкционными лицами (абсолютно зеркальная американцам мера).

И теперь все зависит от того, что Правительство включит в список. Включить конкретные названия компаний и госорганов из недружественных стран? Будет чуть проще. Напишет про "любое лицо, поддержавшее санкции недружественных государств" и будет совсем нехорошо, так как под такое определение попадет, например, наличие учетки на Github или в Facebook, использование Threat Intelligence (даже в обход американских санкций), закидывание денег на Apple, участие в иностранной конференции онлайн (я вот RSAC хотел оплатить) и т.п. А еще под это определение попадает любой российский ИТ-специалист, который решил переждать неспокойные времена за пределами РФ и поработать на иностранные компании. То есть Минцифры вроде и говорит, что они не поддерживают запрет на отъезд айтишников из России, а Президент своим указом делает такой отъезд противозаконным, заставляя просить айтишников политического убежища (шутка... или нет?).

Так что ждем Постановления Правительства. К концу майских праздников, думаю, все решится. В интересные времена живем, граждане и товарищи 😊

publication.pravo.gov.ru

Указ Президента Российской Федерации от 03.05.2022 № 252 ∙ Официальное опубликование правовых актов ∙ Официальный интернет-портал…

Указ Президента Российской Федерации от 03.05.2022 № 252
"О применении ответных специальных экономических мер в связи с недружественными действиями некоторых иностранных государств и международных организаций"

1.9K viewsIvan Begtin, 11:52

Я еще напишу об этом, но по сути для зарубежных компаний это означает невозможность осуществления комплаенс процедур, им будет проще вообще не работать с российским рынком, чем рисковать невозможностью проверки контрагентов.

2.2K viewsIvan Begtin, 15:10

Forwarded from Shumanov

Хроники закрытия России. Подготовлен проект постановления Правительства РФ об исключении сведений об отдельных компаниях из Единого государственного реестра юридических лиц.

В случае принятия проекта постановления и засекречивания информации в ЕГРЮЛ о десятках тысяч российских компаний, экономика страны превратится в минное поле для любого добросовестного контрагента как из России, так и из-за рубежа. Уже многие иностранные банки для выполнения операций с любыми российскими компаниями и физлицами требуют справки об отсутствии связи с лицами, внесенными в санкционные списки. В случае, если этот проект постановления Правительства все-таки примут, то законным способом проверить, что в собственниках конкретной компании нет лиц, находящихся под санкциями просто будет невозможно. Если такие сведения будут нужны рынку, хотя даже российский рынок в таких сведениях остро нуждается, то должна появится теневая услуга проверки такой информации. Это прямой путь к коррупции.

2.1K viewsIvan Begtin, 15:10

Интересные продукты для работы с данными и не только

- PostgresML [1] реализация системы машинного обучения внутри Postgres, только через SQL. Для настоящих фанатов Postgres
- PyScript [2] реализация языка Python на Javascript
- HARI - The First Annotation And Dataset Analytics Platform [3] - интересный коммерческий продукт для визуализации и анализа алгоритмов распознвания видео. К сожалению описания маловато
- tinypandas [4] для тех кто привык к pandas, но хочет инструмент попроще. Не знаю кому такое может пригодится, но вдруг
- Metabase 0.43 [5] новая версия Metabase, самое интересное, на мой взгляд, поддержка JSON записей в Postgres, но много чего другого тоже есть
- Reconcilation [6] инструмент для создания сервисов обогащения данных для OpenRefine, написан на Python + Flask. Нужен для тех кто пользуется OpenRefine и хочет его расширять
- Squirel [7] свежая ETL на базе Python позиционируемая как инструмент для ML.

Ссылки:
[1] https://postgresml.org/
[2] https://pyscript.net/
[3] https://www.quality-match.com/hari
[4] https://talegari.github.io/tidypandas/_build/html/index.html
[5] https://github.com/metabase/metabase/releases/tag/v0.43.0
[6] https://github.com/preftech/reconciliation
[7] https://squirrel-core.readthedocs.io/en/latest/

#opensource #tools #datatools

PostgresML | You know Postgres. Now you know machine learning – PostgresML

Build AI apps in minutes with a GPU-powered Postgres database

2.3K viewsIvan Begtin, 16:42

Я обещал написать подробнее по поводу проекта постановления Правительства Российской Федерации о сокрытии сведений из ЕГРЮЛ и бух. балансов [1]

Если коротко - это плохое решение в плохой ситуации. Проверка контрагентов в России и в мире - это часть задач по обеспечению должной осмотрительности и процедур KYC (Know-your-customer) и антикоррупционных проверок и ещё много чего. Даже если из 3.2 миллионов юр лиц будут удалены сведения лишь о 10к (а скорее больше), то надо помнить что это наиболее экономически активные юридические лица.

Сокрытие информации приведет к следующему:
1. Зарубежные компании будут отказываться от работы с российскими юр. лицами поскольку не могут проверить контрагентов.
2. Отсутствие сведений об учредителях будет пометкой что компанией владеет подсанкционное юр лицо или это подсанкционное юрлицо. "Спасибо" (на самом деле нет) Минфину за такое.

Поэтому это плохое решение.

Ссылки:
[1] https://regulation.gov.ru/projects#npa=127206

#opendata #data #government #egrul

3.1K viewsIvan Begtin, 08:58

В MIT Technology Review статья о том что Meta (ранее - Facebook) создали новую языковую модель для того чтобы обойти недостатки GPT-3 [1]․ Она называется OPT-175B и уже есть некоторые подробности о её содержании[2]. 175 в названии - это 175 миллиардов параметров, а раскрытие модели - это интересный шаг. Meta, как критикуют, так и ставят в пример. Действительно вокруг их работы есть много этических аспектов, но сам шаг публикации такой модели крайне интересен.

Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

#opendata #ai #ml #languagemodels

MIT Technology Review

Meta has built a massive new language AI—and it’s giving it away for free

Facebook’s parent company is inviting researchers to pore over and pick apart the flaws in its version of GPT-3

2.4K viewsIvan Begtin, 10:40

Mozilla опубликовали результаты анализа десятков мобильных приложений используемых для поддержания душевного здоровья [1], результаты неутешительные, большая их часть нарушает приватность, следит и продаёт данные. Многие, также, используют ИИ и не рассказывают делается ли это этично или нет․ Например, популярное в России приложение Calm совсем не безвредно [2].

Ну и методология анализ вцелом вполне полезная, но трудоёмкая.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/categories/mental-health-apps/
[2] https://foundation.mozilla.org/en/privacynotincluded/calm/

#privacy #mobileapps

Mozilla Foundation

*Privacy Not Included | Shop smart and safe | Mozilla Foundation

Review of mental health and prayer apps

2.4K viewsIvan Begtin, 11:24

Для тех кто интересуется инструментами работы с данными в командной строке, ещё один полезный инструмент trdsql [1]. Утилита написанная на Go позволяет делать SQL запросы к файлам в формате CSV, LTSV, JSON иTBLN. Удивительно что в этом списке нет JSON lines, но в целом утилита выглядит весьма неплохо и полезна для всех кто постоянно работает с файлами и не грузит их в одну из SQL СУБД, но синтаксис SQL любит и знает.

Из интересного - утилита умеет анализировать данные и выдавать рекомендации по запросам.

Ссылки:
[1] https://github.com/noborus/trdsql

#datatools #commandline

GitHub - noborus/trdsql: CLI tool that can execute SQL queries on CSV, LTSV, JSON, YAML and TBLN. Can output to various formats.

CLI tool that can execute SQL queries on CSV, LTSV, JSON, YAML and TBLN. Can output to various formats. - noborus/trdsql

2.6K viewsIvan Begtin, 15:09