Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Очень интересный инструмент, проект и подход Zed [1] как сами создатели его описывают это Zed offers a new approach to data that makes it easier to manipulate and manage your data. А по сути команда компании Brim Data [2] разработали собственную модель данных [3] и, в привязке к ней, форматы файлов ZNG, ZST, ZSON, ZJSON которые, как они обещают, дают лучше скорость обработки данных, лучше хранят данные и так далее.

Я, как удачно, прямо сейчас занимался систематизацией кода DataCrafter'а с выделением в открытый код сборщика и преобразователя данных. И вот тут Zed кажется инструментом чрезвычайно подходящим для применения, но вначале его надо тщательно протестировать.

Ссылки:
[1] https://zed.brimdata.io
[2] https://www.brimdata.io/
[3] https://zed.brimdata.io/docs/formats/zed/

#data #datatools #opensource
Интересное чтение про обработку 22GB CSV файла с транзакциями с помощью Pandas [1] и к нему же в дополнение аналогичная задача решаемая с помощью движка Deephaven [2], автор декларирует 60-кратное ускорение её выполнения через преобразование данных в формат Parquet.

Интересно было бы увидеть и сравнение с другими инструментами, например, с тем же Zed [3], но общая мысль такова что надо использовать правильные инструменты для разных задач.

По своему опыту могу сказать что для задач дата-инженерии Pandas так себе инструмент, скорее узнаваемый, но не самый быстрый и для задач обработки больших данных есть другие подходы.

Идеальный сценарий при неограниченных ресурсах - это ELT подход, когда вначале тот же CSV файл загружается в базу первичных данных и далее уже с данными внутри СУБД делаются все необходимые манипуляции, например, через dbt.

Сценарии при неограниченных ресурсах начинаются с ревизии того где находятся наибольшие ограничения: процессор, память, дисковое хранилище и тд.

Например, в задачах обработки данных где есть построчная изоляция преобразования, а то есть результат преобразования зависит только от содержания данных в одно записи, и не зависит от других записей, самым очевидным оказывается разделение набора данных на потоковые батчи и обработка в n-ное число потоков или процессов.

Другой путь в преобразовании изначальных данных из CSV в форматы более пригодные для обработки, такие как тот же Parquet, собственно об этом и пишут в блоге Deephaven. Есть и много других способов, подходов, трюков.

Что я могу сказать, так то что многие задачи решаются не теми инструментами которыми пользуются каждый день. Например, обработка CSV файлов с помощью Pandas может оказаться куда медленнее чем с помощью консольных утилит вроде csvkit [4], xsv [5] и аналогов. Я когда-то специально для себя делал инструментарий и выносил его в открытый код в утилиту undatum [4] который умел разрезать на куски JSONlines и BSON файлы и, в добавок, поддерживал CSV файлы тоже. Это тоже частая задача, которую пытаются решать инструментами вроде Pandas.

Чего не хватает в индустрии дата-инженерии - это большого числа соревнований по преобразованию данных по аналогии с Global Data Compression Competition 2021[7]. Когда есть типовые требования к окружению, компьютер с заранее определенными ресурсами, и набор [не]типовых задач по преобразованию данных. Потому что одну и ту же задачу можно решить десятками разных способов и инструментов.

Ссылки:
[1] https://towardsdatascience.com/batch-processing-22gb-of-transaction-data-with-pandas-c6267e65ff36
[2] https://medium.com/@deephavendatalabs/make-pandas-60x-faster-c064ed26d3c1
[3] https://t.me/begtin/3807
[4] https://github.com/wireservice/csvkit
[5] https://github.com/BurntSushi/xsv
[6] https://github.com/datacoon/undatum
[7] https://www.gdcc.tech

#data #datatools #readings #dataengineering
Forwarded from addmeto (Grigory Bakunov 🧪)
Гугл теперь официально принимает запросы на удаление результатов поиска, содержащих персональную информацию (контакты, физический адрес, телефон, емейл, логин и тп). До этого причиной для удаления была только попытка украсть ваши деньги через использование вашего имени.

Вот список информации, которая может быть причиной для удаления:
- Номера, позволяющие вас идентифицировать (номер паспорта или SSN, наверное для некоторых СНИЛС)
- Номера банковских счетов
- Номера кредитных карт
- Фото рукописных подписей
- Фото других документов, удостоверяющих личность
- Очень личные данные, такие как медицинские записи
- Персональная контактная информация (физические адреса, номера телефонов и адреса электронной почты)
- Конфиденциальные учетные данные для входа (логины и пароли)

https://www.theverge.com/2022/4/27/23044951/google-search-results-personal-information-address-phone-number
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata
EPDS (he European Data Protection Supervisor) [1] анонсировали две новые социальные платформы с заботой о приватности EU Voice [2] и EU Video [3].

EU Voice основано на Mastodon, платформе для социальных сетей с открытым кодом.

EU Video работает на базе движка Peertube, также с открытым кодом.

А российское правительство могё'т развернуть свой экземпляр Mastodon или поддерживать бизнес товарища Дурова приоритетнее?;)

Ссылки:
[1] https://edps.europa.eu/press-publications/press-news/press-releases/2022/edps-launches-pilot-phase-two-social-media_en
[2] https://social.network.europa.eu/public
[3] https://tube.network.europa.eu/

#opensource #socialnetworks #eu #government #privacy
Я продолжаю писать на английском языке о инструментах для работы с данными которые делал последние несколько лет. Написал заметку [1] про утилиту APIBackuper используемую для извлечению данных из API. Не открою большого секрета если скажу что большая часть данных в DataCrafter[2] собрана с её помощью. Слишком многие данные в России доступны только как API.

Но в заметке пример сбора данных с недокументированного API аэропорта Берлина.

Ссылки:
[1] https://medium.com/@ibegtin/apibackuper-a-command-line-tool-to-archive-backup-data-api-calls-3eb0e98e1a3b

#tools #datatools #opensource #articles
Из свежего полезного чтения про оптимизацию работы с данными, заметка How to Build a Lossless Data Compression and Data Decompression Pipeline [1] о построении многопоточного компрессора bz2 на Python. Статья полезная, но лично мне так и хочется ехидно прокомментировать про то что "хипстеры обнаружили для себя многопоточность". Многопоточное сжатие и другие многопоточные операции это один из многих трюков отличающих общедоступные и коммерческие продукты по обработке данных. При правильно подобранном железе и иных оптимизациях оно даёт многократное ускорение.

При этом придумывать что-то своё совершенно необязательно. Есть реализация многопоточного Gzip на Python - pgzip [2] . Есть реализация многопоточности в python-zstandard [3] и это если только говорить про компрессию, а есть и другие многопоточные задачи используемые при обработке данных.

Другое чтение, про Software defined assets [4] про новый декларативный подход управления данными и оркестрацией от команды Dagster. Не могу сказать что с лёту мне удалось понять принципиальные преимущества подхода, но почитать точно стоит

Ссылки:
[1] https://python.plainenglish.io/lossless-data-compression-and-data-decompression-pipeline-2f5391a6b7e7
[2] https://github.com/pgzip/pgzip
[3] https://python-zstandard.readthedocs.io/en/latest/multithreaded.html
[4] https://dagster.io/blog/software-defined-assets

#readings #tools #datatools
Российский Forbes пишет что США планируют упростить получение виз для специалистов из России [1] ссылаясь на статью в Bloomberg [2] (закрыта пэйволом). Если кратко то теперь для ИТ специалистов и инженеров по ряду специальностей из России не потребуется наличие работодателя для получения рабочей визы. Это не отменяет того что из России напрямую в США сейчас не уехать, но для всех тех у кого сейчас российское гражданство и кто уже уехал или на низком старте - это будет возможность уехать, без сценариев возвращения.

У этой новости есть плохая и хорошая сторона.

Хорошая сторона в том что возможно градус культуры отмены русских (россиян) будет снижаться или сходить на нет, а акценты будут сделаны на культуре отмены российского пр-ва. Хорошая для ИТ специалистов из России, конечно, а не для России как страны.

Плохая сторона в том что как бы российские власти окончательно не перешли бы в режим коммуникации с ИТ рынком только от негатива. Не снижать налоги, а запрещать выезд. Не льготная ипотека, а усиление посадок и работа из тюрьмы и так далее.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/464551-bloomberg-uznal-o-planah-ssa-uprostit-polucenie-viz-dla-specialistov-iz-rossii
[2] https://www.bloomberg.com/news/articles/2022-04-29/biden-seeks-to-rob-putin-of-his-top-scientists-with-visa-lure

#it #russia #market
Я ранее писал про реестр семантических типов данных registry.apicrafter.io [1], сегодня добавил к нему расширение схемы описания каждого такого типа.
Напомню, это реестр смысловых значений полей данных полезный для задач:
- идентификации персональных данных
- улучшения навигации по каталогам данных
- автоматическое документирование данных
- автоматические тестирование данных

Во первых - это связь типа данных со свойством из Wikidata [2], хотя в Wikidata далеко не всё, а только то что соотносится с данными Википедии, поэтому большая подборка идентификаторов библиографии, и не так много идентификаторов из физического мира или продуктов. Тем не менее одно из важнейших достоинств Wikidata - это хорошо систематизированные данные связываемые онтологическим образом. А для свойств присутствующих там также включены правила проверки и иные метаданные.

Например, код РНБ [3], для которого есть примеры и есть регулярное выражение для проверки [1-9]\d{3,8} и так ещё многие коды, в большей степени не российские, но некоторые российские тоже есть.

Когда смотришь на Wikidata кажется что казалось бы вот он идеальный источник осмысления данных, но устроен он так что это скорее его надо пополнять в будущем.

А во вторых - это примеры данных по каждому семантическому типу данных, чтобы было понятно как выглядят именно эти данные.

При этом многие не понимают до конца зачем нужно осмысление хранимых данных и, соответственно, автоматическая идентфикация их типов. Здесь явно нужна референсная реализация каталога данных или надстройки/расширение имеющегося, вроде CKAN. Потому что основное - это повышение качества data discovery.

Ссылки:
[1] http://registry.apicrafter.io
[2] https://wikidata.org
[3] https://www.wikidata.org/wiki/Property:P7029

#data #opendata #metadata #opensource
Президент подписал еще один Указ - на этот раз про ответные санкции, который запрещает любые сделки между российскими юрлицами и физлицами и иностранными лицами, список которых в течение 10 дней должен быть утвержден Постановлением Правительства. Согласно ст.153 ГК РФ "Сделками признаются действия граждан и юридических лиц, направленные на установление, изменение или прекращение гражданских прав и обязанностей". Иными словами, будет запрещено любое взаимодействие с санкционными лицами (абсолютно зеркальная американцам мера).

И теперь все зависит от того, что Правительство включит в список. Включить конкретные названия компаний и госорганов из недружественных стран? Будет чуть проще. Напишет про "любое лицо, поддержавшее санкции недружественных государств" и будет совсем нехорошо, так как под такое определение попадет, например, наличие учетки на Github или в Facebook, использование Threat Intelligence (даже в обход американских санкций), закидывание денег на Apple, участие в иностранной конференции онлайн (я вот RSAC хотел оплатить) и т.п. А еще под это определение попадает любой российский ИТ-специалист, который решил переждать неспокойные времена за пределами РФ и поработать на иностранные компании. То есть Минцифры вроде и говорит, что они не поддерживают запрет на отъезд айтишников из России, а Президент своим указом делает такой отъезд противозаконным, заставляя просить айтишников политического убежища (шутка... или нет?).

Так что ждем Постановления Правительства. К концу майских праздников, думаю, все решится. В интересные времена живем, граждане и товарищи 😊
Я еще напишу об этом, но по сути для зарубежных компаний это означает невозможность осуществления комплаенс процедур, им будет проще вообще не работать с российским рынком, чем рисковать невозможностью проверки контрагентов.
Forwarded from Shumanov
​​Хроники закрытия России. Подготовлен проект постановления Правительства РФ об исключении сведений об отдельных компаниях из Единого государственного реестра юридических лиц.

В случае принятия проекта постановления и засекречивания информации в ЕГРЮЛ о десятках тысяч российских компаний, экономика страны превратится в минное поле для любого добросовестного контрагента как из России, так и из-за рубежа. Уже многие иностранные банки для выполнения операций с любыми российскими компаниями и физлицами требуют справки об отсутствии связи с лицами, внесенными в санкционные списки. В случае, если этот проект постановления Правительства все-таки примут, то законным способом проверить, что в собственниках конкретной компании нет лиц, находящихся под санкциями просто будет невозможно. Если такие сведения будут нужны рынку, хотя даже российский рынок в таких сведениях остро нуждается, то должна появится теневая услуга проверки такой информации. Это прямой путь к коррупции.
Интересные продукты для работы с данными и не только

- PostgresML [1] реализация системы машинного обучения внутри Postgres, только через SQL. Для настоящих фанатов Postgres
- PyScript [2] реализация языка Python на Javascript
- HARI - The First Annotation And Dataset Analytics Platform [3] - интересный коммерческий продукт для визуализации и анализа алгоритмов распознвания видео. К сожалению описания маловато
- tinypandas [4] для тех кто привык к pandas, но хочет инструмент попроще. Не знаю кому такое может пригодится, но вдруг
- Metabase 0.43 [5] новая версия Metabase, самое интересное, на мой взгляд, поддержка JSON записей в Postgres, но много чего другого тоже есть
- Reconcilation [6] инструмент для создания сервисов обогащения данных для OpenRefine, написан на Python + Flask. Нужен для тех кто пользуется OpenRefine и хочет его расширять
- Squirel [7] свежая ETL на базе Python позиционируемая как инструмент для ML.

Ссылки:
[1] https://postgresml.org/
[2] https://pyscript.net/
[3] https://www.quality-match.com/hari
[4] https://talegari.github.io/tidypandas/_build/html/index.html
[5] https://github.com/metabase/metabase/releases/tag/v0.43.0
[6] https://github.com/preftech/reconciliation
[7] https://squirrel-core.readthedocs.io/en/latest/

#opensource #tools #datatools
Я обещал написать подробнее по поводу проекта постановления Правительства Российской Федерации о сокрытии сведений из ЕГРЮЛ и бух. балансов [1]

Если коротко - это плохое решение в плохой ситуации. Проверка контрагентов в России и в мире - это часть задач по обеспечению должной осмотрительности и процедур KYC (Know-your-customer) и антикоррупционных проверок и ещё много чего. Даже если из 3.2 миллионов юр лиц будут удалены сведения лишь о 10к (а скорее больше), то надо помнить что это наиболее экономически активные юридические лица.

Сокрытие информации приведет к следующему:
1. Зарубежные компании будут отказываться от работы с российскими юр. лицами поскольку не могут проверить контрагентов.
2. Отсутствие сведений об учредителях будет пометкой что компанией владеет подсанкционное юр лицо или это подсанкционное юрлицо. "Спасибо" (на самом деле нет) Минфину за такое.

Поэтому это плохое решение.

Ссылки:
[1] https://regulation.gov.ru/projects#npa=127206

#opendata #data #government #egrul
В MIT Technology Review статья о том что Meta (ранее - Facebook) создали новую языковую модель для того чтобы обойти недостатки GPT-3 [1]․ Она называется OPT-175B и уже есть некоторые подробности о её содержании[2]. 175 в названии - это 175 миллиардов параметров, а раскрытие модели - это интересный шаг. Meta, как критикуют, так и ставят в пример. Действительно вокруг их работы есть много этических аспектов, но сам шаг публикации такой модели крайне интересен.

Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

#opendata #ai #ml #languagemodels
Mozilla опубликовали результаты анализа десятков мобильных приложений используемых для поддержания душевного здоровья [1], результаты неутешительные, большая их часть нарушает приватность, следит и продаёт данные. Многие, также, используют ИИ и не рассказывают делается ли это этично или нет․ Например, популярное в России приложение Calm совсем не безвредно [2].

Ну и методология анализ вцелом вполне полезная, но трудоёмкая.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/categories/mental-health-apps/
[2] https://foundation.mozilla.org/en/privacynotincluded/calm/

#privacy #mobileapps
Для тех кто интересуется инструментами работы с данными в командной строке, ещё один полезный инструмент trdsql [1]. Утилита написанная на Go позволяет делать SQL запросы к файлам в формате CSV, LTSV, JSON иTBLN. Удивительно что в этом списке нет JSON lines, но в целом утилита выглядит весьма неплохо и полезна для всех кто постоянно работает с файлами и не грузит их в одну из SQL СУБД, но синтаксис SQL любит и знает.

Из интересного - утилита умеет анализировать данные и выдавать рекомендации по запросам.

Ссылки:
[1] https://github.com/noborus/trdsql

#datatools #commandline