Ivan Begtin
8.09K subscribers
1.57K photos
3 videos
100 files
4.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике полезных инструментов работы с данными CSVFiddle [1] сервис по разбору CSV файлов из проекта DucksDb. Он построен на базе DucksDB-Wasm [2] для аналитики прямо в браузере и использует функцию read_csv_auto [3] полезную фичу DucksDb по разбору CSV файлов практически любого типа. Что особенно актуально для разбора CSV файлов экспортированных из Excel когда до колонок с данными есть всякие другие записи. Довольно частая ситуация.

CSVFiddle умеет разбирать такие данные и позволяет прямо в браузере работать с ними с помощью SQL запросов.

Я, кстати, кажется ничего не писал про DuckDB [4], а это такая весьма интересная OLAP СУБД как замена SQLite для аналитической работы. Задач для применения масса, а ещё умеет импортировать Parquet файлы.

Делает его команда исследователей из Centrum Wiskunde & Informatica в Амстердаме, год назад они создали DuckDb Labs [5], коммерческую компанию. Меня удивляет что они до сих пор не привлекли никакого венчурного финансирования, впрочем, может ещё привлекут.

Ссылки:
[1] https://csvfiddle.io
[2] https://duckdb.org/2021/10/29/duckdb-wasm.html
[3] https://duckdb.org/docs/data/csv#read_csv_auto-function
[4] https://duckdb.org/
[5] https://duckdblabs.com/news/spin-off-company-DuckDB-Labs/

#opensource #datatools #csv #dbms
Как многие наверняка уже слышали и читали в США Верховный суд отменил решение запрещающие отдельным штатам вводить запреты абортов на поздней стадии. Это обычно упоминают в СМИ как "Верховный суд запретил аборты", но суть не меняется, во многих штатах США уже сейчас такие аборты оказались под запретом.

И здесь немедленно возник вопрос приватности тех кто ходит в клиники абортов, уже известно что Google начал скрывать информацию о посещении клиник пользователями устройств с Андроид [1].

Но всё не ограничивается только сервисами Google. Очень многие женщины в США пользуются мобильными приложениями для отслеживания менструальных циклов и беременности и, внимание, оказалось что данные в этих приложениях не подпадают под Health Insurance Portability and Accountability Act (HIPAA) [2] закон о защите данных о здоровье граждан.

Сейчас многие эти приложения удаляют опасаясь что информация из них может быть истребована полицией или судьями.

У этой истории есть много отражений о которых стоит подумать.
1. Технологические компании живут по критериям собственного понимания морали, а не помощи полиции/судьям. Решение Google - это ровно о том чтобы избежать возможности помощи правоохранителям которые могли бы заказать такие данные.
2. Приватность приложений (сбор данных) сейчас во многом определяется магазинами приложений. К вопросу о российском магазине приложений который вот-вот должен запуститься. А что там с приватностью? А что будет если российские законодатели пойдут, также, по пути запрета абортов?

Ссылки:
[1] https://www.washingtonpost.com/technology/2022/05/04/abortion-digital-privacy/
[2] https://www.washingtonpost.com/technology/2022/05/07/period-tracking-privacy/

#privacy #mobileapps
Для тех кто интересуется пониманием содержания данных, data understanding, держу в курсе проекта metacrafter [1]. В него добавилось ещё несколько десятков правил идентификации типов данных. Теперь там присутствуют многие типы данных из анлоязычных датасетов связанных с датой и временем, геоданными итд. Всего 109 правил для более чем 60 типов данных.

А также обновился реестр семантических типов данных metacrafter-registry [2], туда были добавлены типы данных хэшей используемых при анализе ПО и других задачах таких как telhash, imphash, rich pe header и ещё многое другое. А также актуализирована связь типов данных со свойствами Wikidata.

Я напомню что metacrafter - это օpen-source продукт для анализа СУБД и наборов данных и разметки смысла данных в отдельных полях/колонках. С его помощью можно, например, выявлять персональные данные. В продукте используются правила написанные регулярными выражениями и функциями на Python, но так чтобы без существенной потери производительности.

Наша команда, также, разрабатывает правила за пределами open source продукта, позволяющие идентифицировать отраслевые и иные специфичные данные. Например, это ещё более 100 правил используемых для анализа данных на русском и французском языках.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://github.com/apicrafter/metacrafter-registry

#opensource #datatools #data
На всякий случай напомню что в телеграм канале @ministryofpoems вы всегда можете найти мою едкую поэззию и прозу. Веду я его как хобби, выражения там не экономлю, плохими словами ругаюсь редко, но прицельно.
Forwarded from ministryofpoems
Выступающий:
Здравствуйте, спасибо за возможность выступить. Я представляю не раз тут упоминавшуюся госкорпорацию Росстрах и сегодня расскажу о том чем мы на самом деле занимаемся, не то из-за чего нас боятся (смех в зале).

Но вначале немного интерактива (раздаётся журчание). Что такое страх? Страх - он как вода. Без него общество не может выжить, когда его слишком много, то в нем как в воде можно захлебнуться.

Росстрах сегодня — это интегрированный холдинг из 10 государственных информационных агентств, 5 социологических служб, 3х исследовательских институтов и пока один кинопроизводственный концерн.
Можно сказать Росстрах — это корпорация гармоничного страха.
Расскажу больше о наших проектах
Система "Гераклит"
С момента принятия 1931-ФЗ по квотированию страхов для СМИ головной болью редакторов была проверка, которую необходимо было проходить для каждой публикации. Не секрет что у Администрации хтонического ужаса и Министерства лёгкого попугивания просто не хватало людей и проверки затягивались на часы.

Система Гераклит - это универсальное решение с искусственным интеллектом. Система не только определяет степень "пугательности" текста, но и определяет тип побуждаемого им страха, определяет аудиторию этого страха и сопоставляет его с квотой выделенному данному СМИ.

Некоторые показатели. Скорость обработки текстов не более 5 минут, только 1,2% текстов передаются на ручную проверку операторам, в день проверяет до 100 тысяч публикаций.

Из зала: Можно вопрос по ходу?
Выступающий: Я хотел вопросы на конец отложить, но давайте по
Из зала: А что делать СМИ которые не превышали квоту и вообще не имели "страховых" публикаций? Вот у нас виртуальный фотоканал про котиков, как нам быть?
Выступающий: Вот тут я хочу напомнить про постановление Правительства 3164-ПП где установлены обязательные диапазоны. Если Вы малый медиаканал до 10 тысяч подписчиков, то Вам надо зарегистрироваться в спец реестре недо-сми
Из зала: А если больше 10 тысяч?
Выступающий: Тогда увы, надо менять формат. Но тут лучше ответят коллеги из Министерства лёгкого попугивания.
Выступающий: Если позволите, я продолжу. Уникальность системы не только в том что она способна выявлять превышения, но и она же может помочь когда доля обязательного страха в медиа недостаточна. Вам достаточно направить текст специальному AI помощнику и он добавит в него немного нужного страха.
Вот пример, на экране. Текст про пользу выращивания васильков в домашних условиях, без изменений. А вот текст который AI помощник создал на базе предыдущего. Обратите внимание на то как аккуратно расставлены акценты на важности участия в государственной программе всеобщего донорства. Этот страх проходит у нас по классификации - страх быть не как все, страх публичного порицания.
Из зала: Но, ведь смысл текста меняется!
Выступающий: Только в нюансах…
Forwarded from Об ЭП и УЦ
Пост навеян тематикой Министерства поэм от Ивана Бегтина:
Министерство аккредитации УЦ -
Ведомство трансформации ЭЦП
Захотело 63-тий закон поправить
И ошибки явные исправить.

Начали с темы сокращения,
Чтобы не было порабощения.
Сократили УЦ на порядок
Думали, что навели порядок

Внесли норму об МЧД,
Не понимая, что это и где.
Создали классификатор полномочий
Только эффективность его не очень.
В рубрике стартапы на данных и про данные
- LightBits получили $42M инвестиций [2] на их корпоративный продукт хранилища данных для виртуальных машин на ими же придуманном стандарте NVMe/TCP [3]. Вообще в этом рынке огромная и ожесточенная конкуренция, а значит и продукт заслуживает внимания раз создателям удаётся привлекать на него инвестиции.

- ZingData [4] подняли посевной раунд на $2.4M [5], они создают mobile-first BI инструмент. Лично я пока не чувствую в этом перспективной темы, но может они какую-то важную нишу найдут.

- SnowPlow [6] привлекли ещё $40M [7] инвестиций на свой продукт по потребительской аналитике. Начинали они с веб-аналитики, а теперь это весьма продвинутая дата-платформа.

Ссылки:
[1] https://www.lightbitslabs.com
[2] https://www.lightbitslabs.com/press-releases/lightbits-raised-42-million-in-growth-capital/
[3] https://www.lightbitslabs.com/nvme-over-tcp/
[4] https://getzingdata.com/blog
[5] https://getzingdata.com/blog/zing_data_seed_raise/
[6] https://snowplowanalytics.com
[7] https://snowplowanalytics.com/blog/2022/06/30/snowplow-announces-series-b/

#startups #data
В Евросоюзе опубликовали черновик закона (регуляторного документа) по раскрытию особо ценных наборов данных для бизнеса и исследователей [1].

Опубликовали черновик ещё в конце мая и до 21 июня собирали обратную связь, которую, тоже будет полезно почитать чтобы знать позицию организаций в ЕС [2].

Также стоит обратить внимание на то какие данные определяются сейчас как особо ценные:
1) geospatial;
2) earth observation and environment;
3) meteorological;
4) statistics;
5) companies and company ownership;
6) mobility.

В обратной связи многие пишут что список неполон и нужны данные относящиеся к качеству жизни, например, статистика преступности.

А вот раскрытие данных о компаниях и их владельцах может повлиять на рынок проверки контрагентов и усилить конкуренцию.

Ссылки:
[1] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets_en
[2] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets/feedback_en?p_id=30829659

#opendata #eu #regulation #laws
На один из наших проектов связанных с работой с большими открытыми данными есть потребность в бэкенд разработчике на Python, работа в России, в Москве.

Работа не для джунов, нужен опыт с чистым Python, Postgres и MongoDB. Проект интересный и сложный. Если готовы работать сами или можете порекомендовать, то сделать это можно вот тут https://hh.ru/vacancy/66696558

#vacancies #projects
В качестве примера утилиты metacrafter [1] по распознаванию типов данных две очень разные базы данных , в одной копия данных по сетевой инфраструктуры в РФ собранная из bgpview, а в другой база федеральных госконтрактов заключенных с 2007 по 2011 годы.

Обе базы содержат вложенные объекты и хранятся в MongoDB, поэтому анализ данных происходит ещё и вглубь объектов.

И распознаются уже более половины значащих полей с данными, распознаются с привязкой к зарегистрированным семантическим типам данных.

Но ещё есть многое что нужно дорабатывать и добавлять. Например, ещё не распознаются и не определяются коды ASN, в реестре типов уже есть, а в правила они ещё не добавлены. Или старые коды продукции в России - ОКП, тоже не определяются как и ряд редко используемых справочников.

Есть доля ложных срабатываний по кодам стран, которые определяются как language tag, потому что значения код ISO 3166 Alpha2 почти полностью входят в коды RFC 5646 и так далее. Но это всё решает усложнением правил.

Уже сейчас почти в каждой базе данных есть хотя бы несколько идентифицируемых семантических типов данных.

Куда более сложная задача, о которой я писал ранее, это выявление / понимание типов данных без предобучения, на основе повторяющихся шаблонов и связывание наборов данных, в том числе, через подобные типы данных

Ссылки:
[1] https://github.ccom/apicrafter/metacrafter

#opensource #dataunderstanding
Полезное чтение про данные и госполитику в этой области
- Understanding Criminal Justice Innovations [1] за авторством Meghan J. Ryan о том как применение технологий меняет подходы к борьбе с преступностью и о "темной стороне" их применения. Ничего радикального нового, но хорошо систематизировано. В основном опыт США.

- Narrowing the data gap: World Bank and Microsoft commit to unlocking better development outcomes for persons with disabilities [2] в блоге Microsoft о их сотрудничестве с Мировым Банком для помощи людям с ограниченными возможностями в развивающихся странах. Про создание "disability data hub". Интересно почему тут нет ещё и UNDP, но может быть появятся на какой-то следующей стадии.

- Better Data Sharing for Benefits Delivery [3] о том как необходимо развивать практику обмена данными для лучшей помощи незащищённым социальным группам. В контексте регулирования в США и помощи пострадавшим от COVID-19

- We need smarter cities, not “smart cities” [4] о том что нужны более-умные города, а не умные города. Статья описывает разницу между человекоцентричным и пользовательско- / клиентско- центричным технократическим подходом. Статья рекламирует программу UNDP UrbanShift [5] в которой участвует много городов Глобального Юга.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4136813
[2] https://blogs.microsoft.com/blog/2022/06/15/narrowing-the-data-gap-world-bank-and-microsoft-commit-to-unlocking-better-development-outcomes-for-persons-with-disabilities/
[3] https://www.newamerica.org/oti/briefs/better-data-sharing-for-benefits-delivery/
[4] https://www.technologyreview.com/2022/06/27/1053896/we-need-smarter-cities/
[5] https://www.shiftcities.org/

#data #readings
Я, честно говоря, уже перестаю удивляться во что превратился реестр ИТ компаний. Теперь туда внесли ещё и Альфа-Банк [1].

Да внесите туда уже весь бизнес, ну право слово. В каждой компании есть хотя бы один "ИТшник". Хотя бы выглядеть будет не так странно, как внесение туда всех кого только можно.

Ссылки:
[1] https://tass.ru/ekonomika/15119991

#itmarket
Тут с 1-го июля pravo.gov.ru стал единственным официальным информационно-правовым ресурсом, потому что вступил в силу указ Пр-та РФ от 03.03.2022 № 90 [1].

Ключевое слово тут единственным поскольку ранее федеральные законы публиковались, также, в Российской Газете, видимо, РГ более не будет получать на это государственную субсидию и на сайте РГ более не будет обязательной публикации федеральных законов.

Другое изменение - это появление раздела "Тексты правовых актов с внесёнными изменениями" [2]. В остальном, на самом деле, в этой новости не так много хорошего потому что ФСО, управляющее pravo.gov.ru, это силовое, а не правовое ведомство, с высокой степенью закрытости даже в части их публичных полномочий.

Я напомню несколько важных фактов:
1. Наиболее актуальные тексты официально опубликованных документов на publication.pravo.gov.ru необосновано публикуются в виде сканов. У этого нет никаких обоснований, кроме нежелания публиковать их удобным образом для пользователей.
2. На pravo.gov.ru отсутствуют открытые данные. Когда-то, года 4 назад, они ещё были. Неудобные для работы, но хоть как-то. Потом все наборы данных убрали и оставили только API с существенными ограничениями на поиск и число запросов.
3. Мало кто знает, но власти субъектов федерации не обязаны публиковать свои НПА на pravo.gov.ru, они публикуют их только если заключили соглашение с ФСО России (вернее с их подведом). Например, НПА органов власти Москвы в publication.pravo.gov.ru отсутствуют [3]. Я писал об этом в марте 2021 года [4]

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202203030006?index=0&rangeSize=1
[2] http://actual.pravo.gov.ru/
[3] http://publication.pravo.gov.ru/SignatoryAuthority/region77
[4] https://t.me/begtin/2656

#opendata #laws #lawmaking
Тем временем в Казахстане, в отличие от России, продолжает развиваться повестка открытости гос-ва и сам факт открытости диалога власти - это хороший признак такого развития.

Но есть и то за кто можно коллег из Казахстана покритиковать. Портал открытых данных РК data.egov.kz хотя и называется порталом открытых данных, но по факту таким не является. Помимо того что нет чётко сформулированных условий использования для каждого набора данных, таких как Creative Commons или ODBl, важно то что данные невозможно скачать без регистрации через государственный портал требующий местного кода ИИН. Фактически данные доступны только жителям республики и только после однозначной идентификации. Это противоречит принципам доступности открытых данных.

#opendata #kazakhstan
🔹 2022 жылғы 7 шілдеде сағат 12:00-де Ақпаратқа қол жеткізу мәселелері жөніндегі комиссияның отырысы өтеді.

Отырыста Шымкент қаласы, Түркістан, Жамбыл және Павлодар облыстары әкімдіктері қызметінің ашықтығын қамтамасыз етудің кейбір мәселелерін, «Мемлекеттік органның ашықтығы» бағыты бойынша жүргізілген операциялық бағалаудың қорытындыларын, мемлекеттік органдар деректерінің өзектілігі мәселесін қарастыру жоспарлануда.

Отырыстың тікелей көрсетілімі https://www.facebook.com/aqparatqogam бойынша өтеді.

🔸 7 июля 2022 года в 12.00 часов состоится заседание Комиссии по вопросам доступа к информации.

На заседании планируется рассмотреть вопросы обеспечения открытости деятельности акиматов г. Шымкент, Туркестанской, Жамбылской и Павлодарской областей, итоги операционной оценки по направлению «Открытость государственного органа», актуальности данных государственных органов.

Трансляция заседания пройдёт по ссылке: https://www.facebook.com/aqparatqogam

@aqparatqogam
Для тех кто следит за тем как развивается рынок данных в мире.

Полезные материалы с конференции Databricks AI, часть 1 и часть 2․ А также оттуда же разбор про Spark Connect.

Всё это весьма далеко, конечно, от российской реальности, но полезно всем тем кто продолжает работать с глобальными облачными провайдерами сервисов работы с данными.

#dataengineering #data #clouds
Комитет государственных доходов Армении опубликовал цифры поступления налогов по 1000 крупнейших налогоплательщиков за 1-й квартал 2022 г. [1]

Для тех кому сложно читать на армянском, можно посмотреть автопереведенную выжимку на starthub.am [2] в лидерах там Soft Construct (10-е место), Synopsys Armenia, Krisp, Webb Fontaine и ещё много других.

По сравнению с российскими интеграторами суммы невелики, но и Армения небольшая страна.

Цифры налоговая служба публикует с задержкой в квартал, а то есть через 3 месяца будет следующий отчет который покроет период с 1 апреля по 31 июня. Вот тогда и будет интересно что по факту происходит с релокацией российского ИТ сектора в Армению, не просто разработчиков, а компаний.

Ссылки:
[1] https://www.petekamutner.am/Shared/Documents/_ts/_ti/Taxpayer_Information_Listings/2022/ck_hhpektt_2022_1_1000_khv_hark.xlsx
[2] https://translated.turbopages.org/proxy_u/hy-ru.ru.fff8ec87-62c3fde1-559f95a6-74722d776562/https/starthub.am/news/13503.html

#itmarket #armenia
Как сохранять исходный код ? Как сохранять код публичных репозиториев который может исчезнуть, например, в связи с закрытием организации или проектов?

Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также можно самостоятельно добавлять туда репозитории с помощью сервиса "Save code now" [2].

А в июне добавился новый сервис "Add forge now" [3] для добавления новых источников открытого кода, платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.

Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/

#digitalpreservation #opensource #sourcecode
Как я ранее обещал буду понемногу выкладывать выборки из аналитической базы по российскому ИТ рынку.

Здесь два Excel файла.
В одном список ИТ компаний принадлежащих на 100% зарубежным юридическим лицам и одновременно имеющие ИТ льготы в России, а не просто аккредитацию Минцифры.

Во втором список госпредприятий и госучреждений имеющих налоговые льготы. Второй список, скорее всего, неполон, но основные точно отмечены.

А я скажу что сейчас аналитическая база уже готова. Она является сводом примерно 5 реестров и туда осталось только добавить данные по программным продуктам из реестра отечественного ПО. Дальше уже долгий процесс обогащения данных другими источниками и краудсорсингом.

#opendata #data #dataprojects