Ivan Begtin

На самом деле картинка не очень показательна, интереснее эти цифры выглядели бы в пропорциях:
- к расходам других крупнейших лоббистов
- к выручке этих компаний
- к капитализации этих компаний
и тд.

К сожалению, по России даже косвенно очень сложно измерить масштаб лоббирования цифровым бизнесом. Бизнес-модель другая, не цифровые конгломераты оказывают наибольшее влияние, а гос[~~банки/предприятия/корпорации~~] уходят в цифру.

#lobbying #it #digital

1.6K viewsIvan Begtin, 06:14

Ivan Begtin

Forwarded from Венчур в картинках

Расходы технологических компаний на лоббирование своих интересов

Не думаю, что какое-то значение имеет сама сумма расходов, но тренд показателен.

@ventureinpics

1.5K viewsIvan Begtin, 06:14

Ivan Begtin

В продолжение о подходах к каталогизации данных, управлении метаданными, в Towards Data Science заметка от Prukalpa, сооснователя Atlan, про проблемы с документированием данных и их подход к этой теме [1].

Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.

Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]

Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.

Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)

Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.

Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?

Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/

#opendata #datasets

Medium

Data Documentation Woes? Here’s a Framework.

The principles and steps we used to build a documentation-first culture

1.9K viewsIvan Begtin, edited 06:53

Ivan Begtin

Небольшая команда из стартапа Quickwit использовали базу Common Crawl (бесплатный открытый поисковый индекс) и создали игрушку автоподсказчик продолжения поисковой фразы [1].

Сервис позволяет продолжать слова существительными или прилагательными, например "Cats are carnivores" или "Cats are awesome".
В этом демо у них использовались текст около 1 миллиарда веб страниц, с общим индексом в 6.8 терабайт.

А стоимость всей инфраструктуры выходит в $1000 ежемесячно. Вообще больше всего это похоже на рекламу Amazon и их сервисов работы с данными, потому что при желании можно было бы существенно расходы сократить, но усилий надо было бы приложить существенно больше.

В любом случае получилась небольшая технологическая игрушка, весьма забавная.

Ссылки:
[1] https://common-crawl.quickwit.io

1.8K viewsIvan Begtin, 05:15

Ivan Begtin

Это как никогда острая и болезненная тема в том что первой реакцией государства на трагические события оказывается реакция по ограничению прав и свобод. Ключевая проблема не в анонимности в сети, а в отсутствии профилактики преступлений, в значительном падении роли участковых и так далее.

#privacy #anonymity

1.6K viewsIvan Begtin, 15:12

Ivan Begtin

Forwarded from DRC LAW: IT-юристы

Опять началась широкая дискуссии по поводу анонимности в интернете.
После трагедии в Казане спикер Госдумы Вячеслав Володин предложил ограничить анонимность в Интернете. Покончить с анонимностью в соцсетях также предложили и в Общественной палате России, ссылаясь на международный опыт, в том числе опыт Австрии и Южной Кореи.

Следует сказать, что это уже не первая и не последняя попытка лишения российских пользователей анонимности. Власти и не отрицают своего желания деанонимизировать каждого в интернете, и даже несколько лет назад приняли неработающий закон об обязательной идентификации пользователей мессенджеров.

Однако все отсылки на международную практику являются не более чем манипуляцией общественным сознанием, не имеющей ничего общего с реальностью.

В 2019 году правящая партия Правительство Австрии действительно продвигала план по борьбе с языком ненависти, заставляя пользователей социальных сетей и онлайн-комментаторов сообщать подробности о своей реальной личности. Кроме того в том же году Правительство представило федеральный законопроект, получивший название «запрет на использование цифровых масок», который требовал бы от пользователей регистрацию на платформе и форумах с указанием имена и адреса, прежде чем они смогут оставить один комментарий. Однако после серьезной волны общественного обсуждения, Правительство Австрии отказалось от этих планов.

А в Южной Кореи Конституционный суд страны еще в 2012 году отменил нормы закона, обязывавшие интернет-пользователей, комментирующих сообщения, раскрывать свои настоящие имена. В постановлении было указано, что эти нормы ограничивают свободу слова в Южной Корее.

Как неоднократно отмечали в ООН, право на анонимность является фундаментальным правом человека и представляет из себя гарантию для реализации иных прав человека, в т.ч. права на свободу мнения и свободу слова.
Так что у вас есть право на анонимность. И любое наступление на это право следует воспринимать как наступление на базовые права человека, несовместимое с международными конвенциями. Не стоит обманывать себя самих. И ни в коем случае не давайте обманывать себя другим. Никакая деанонмизация не сделает нашу жизнь в онлайн или в оффлайне боле безопасной.

РИА Новости

Володин предложил ограничить анонимность в интернете

Необходимо обсудить предложения по ограничению анонимности в интернете, считает спикер Госдумы Вячеслав Володин. РИА Новости, 11.05.2021

1.6K viewsIvan Begtin, 15:12

Ivan Begtin

В рубрике интересных наборов данных данные Управления транспортной безопасности США которые еженедельно в PDF форматах публикуют статистику по пересечению границы США [1] с разбивкой до часа и конкретного терминала. ИТшник Mike Lorengo написал код по преобразованию этих документов в машиночитаемую форму и опубликовал вместе с данными [2] на Github и написал об этом всём на Reddit [3].

Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.

Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.

Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].

Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.

Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] http://03samara.ru/page/operativnaja-svodka

#timeseries #data

GitHub

GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json

Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json - GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json

1.9K viewsIvan Begtin, edited 18:05

Ivan Begtin

Forwarded from Madeniet_aqparat_ministrligi

Прошло обсуждение о госполитике по доступу к информации и о мировых трендах сферы

Министерство информации и общественного развития РК и Центр прикладных исследований «Талап» совместно провели в онлайн-формате круглый стол «Государственная политика доступа к информации: Ситуация в Казахстане и мировые тренды».
Во время мероприятия директор Департамента развития коммуникаций государства и общества МИОР РК Бекзат Рахимов подробно рассказал о проекте «Годовой отчет о сотоянии сферы доступа к информации в Республике Казахстан» и презентовал его основные тезисы.
С темой «Открытые и большие данные в государственном управлении» выступил руководитель ассоциации участников рынка данных России Иван Бегтин.
Запись трансляции доступна по ссылке: ⤵️
https://youtu.be/-qGpmOb8O3g

@aqparatqogam

1.9K viewsIvan Begtin, 19:07

Ivan Begtin

Observable [1], проект красивых интерактивных записных книжек (notebooks) по визуализации данных открыли код их библиотеки кода для Javascript, Observable Plot [2] используемой ими в их проекте. Библиотека выглядит очень привлекательно, а открытый код позволяет использовать те же визуализации что в коммерческом продукте Observable.

Ссылки:
[1] https://observablehq.com/
[2] https://observablehq.com/@observablehq/plot

#opensource #datavis

2.2K viewsIvan Begtin, 10:49

Ivan Begtin

Начну неделю с ноты юмора и почти оффтопика и раскрыть что вот уже 10 лет пишу стихи и мелкое прозаическое творчество про государство. В 2019 году в Точке Кипения в АСИ появилась выставка Музей бюрократической культуры [1] и несколько лет пишу эти стихи в телеграм канал Министерство стихов [2]. В музее тщательное отобранные, лучшие произведения, а в канале вперемешку всякого, чаще посредственное, чем шедевры, поскольку сбрасываю я туда стихи и мелкую прозу без детальной вычитки и тд.

Иногда, реже, небольшие зарисовки как, например, Выездная виза [3] появляются ещё где-то, но в основных моих рабочих каналах блогах и рассылках.

Чаще всё написано довольно иронично, иногда до сарказма, иногда, очень редко удаётся написать что-то "доброе". В любом случае все совпадения случайны, при написании стихов ни одного кота не пострадало (с).

Признаться я всё не решаюсь собрать всё это в какой-то единый ресурс, нехватает времени и есть сомнения в большой исторической ценности этого, но надеюсь что написанное порадует любителей наблюдать за современной бюрократической культурой.

—
Эй, гражданский! Ты, ты не мешкай
Важный станешь, а не просто пешкой
Да забудь ты про картины свои и скульптуры
Любуйся! Красуйся! Впитывай!
Национальный музей бюрократической культуры!

Всё настоящее, без дури и липы
Видишь сгорбленная фигура над бумагой кипы?
Заполняет не абы что, а пожарные инструкции
Требует трудового законодательства конструкция

А вот экспонат, чиновник старой закалки
Опытен, хитёр и не без смекалки
Смотри, в текстах зачищает точки и запятые
Эй, не читай, все на сложные слова заменил простые

Эй, гражданский, не беги! Это же ностальгия!
И не надо мне тут про аллергию!
А то впишу сейчас тебе административное нарушение
За несанкционированное покидание музейного помещения!
—
Ссылки:
[1] http://ivanbegtinmuseum.tilda.ws/
[2] https://t.me/ministryofpoems
[3] https://te.legra.ph/Vyezdnaya-viza-01-25

#poems #humour

2.6K viewsIvan Begtin, 06:25

Ivan Begtin

Forwarded from Ассоциация участников рынка данных

Сразу несколько новых регуляторных документов, Постановлений Правительства про данные и информационные системы:
О генсхеме развития сетей связи и инфраструктуры хранения и обработки данных в РФ
Постановление Правительства Российской Федерации от 04.05.2021 № 703 "О федеральной государственной информационной системе "Генеральная схема развития сетей связи и инфраструктуры хранения и обработки данных Российской Федерации" [1]

О правилах проверки во ФГИС ЕФИР
Постановление Правительства Российской Федерации от 04.05.2021 № 715 "Об утверждении Правил проведения органами и организациями, указанными в статье 10 Федерального закона "О едином федеральном информационном регистре, содержащем сведения о населении Российской Федерации", проверки полноты, актуальности и достоверности сведений о населении Российской Федерации, предусмотренных в соответствии со статьей 10 указанного Федерального закона к направлению из государственных информационных систем данных органов и организаций для формирования и ведения единого федерального информационного регистра, содержащего сведения о населении Российской Федерации, а также при необходимости размещения в указанных государственных информационных системах ранее не размещенных сведений о населении Российской Федерации" [2]

А также Правительство утвердило положение о Единой информационной платформе управления данными [3] но об этом есть только новость на сайте Правительства РФ, но нет ещё самого документа. Ждём его на pravo.gov.ru.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202105130006
[2] http://publication.pravo.gov.ru/Document/View/0001202105120021
[3] http://government.ru/news/41888/

#nsud #data #regulation

publication.pravo.gov.ru

Постановление Правительства Российской Федерации от 04.05.2021 № 703 ∙ Официальное опубликование правовых актов ∙ Официальный интернет…

Постановление Правительства Российской Федерации от 04.05.2021 № 703
"О федеральной государственной информационной системе "Генеральная схема развития сетей связи и инфраструктуры хранения и обработки данных Российской Федерации"

1.5K viewsIvan Begtin, 06:39

Ivan Begtin

Deep fake Geography (география дипфейков) это участившиеся случаи подлога спутниковых снимков с помощью искусственного интеллекта [1]. Об этом в статье A growing problem of ‘deepfake geography’: How AI falsifies satellite images [1] от Kim Eckart из Университета Вашингтона.

В статье приводится несколько примеров когда специальный алгоритм вносит в снимки несуществующие элементы которые потом невозможно доказать ненатренированному глазу. А с развитием технологий есть вероятность что и натренированному глазу и алгоритмам выявления дипфейков их не обнаружить.

Подробнее об этой проблеме в статье Deep fake geography? When geospatial data encounter Artificial Intelligence [2]

Тема довольно серьёзная, в связи с тем что многие страны до сих пор заинтересованы в сокрытии информации о многих объектах на своей территории. Например, военных объектов ~~или тайных баз инопланетян~~. Как бы то ни было, есть реальный риск давления правительств некоторых стран для дипфейковости снимков некоторых участков снимаемых основными коммерческими поставщиками спутниковых данных.

Ну и, конечно, не всякому спутниковому кадру в СМИ и соцсетях можно верить.

Ссылки:
[1] https://www.washington.edu/news/2021/04/21/a-growing-problem-of-deepfake-geography-how-ai-falsifies-satellite-images/
[2] https://www.tandfonline.com/doi/full/10.1080/15230406.2021.1910075

#data #ai #deepfakes

University of Washington

A growing problem of ‘deepfake geography’: How AI falsifies satellite images

Using satellite photos of three cities and drawing upon methods used to manipulate video and audio files, a team of researchers led by the University of Washington set out to identify new ways of...

1.8K viewsIvan Begtin, 14:17

Ivan Begtin

Scheme flooding техника и одноимённый сервис [1] определения уникального идентификатора пользователя и то какие приложения установлены на его настольном компьютере. Работает через перебор протоколов по которым браузер запускает специализированные приложения такие как Zoom, Skype, Telegram и другие.

Результаты выглядят примерно вот так как на этой картинке. А подробнее в тексте авторов из [2] FingerpringJS

Работает на всех популярных браузерах кроме Opera (или с ним не тестили). Исходный код тестов открыт [3]

Ссылки:
[1] https://schemeflood.com/
[2] https://fingerprintjs.com/blog/external-protocol-flooding/
[3] https://github.com/fingerprintjs/external-protocol-flooding

#privacy #fingerprinting

1.7K viewsIvan Begtin, 17:04

Ivan Begtin

Forwarded from Ассоциация участников рынка данных

Стал доступен текст Постановления Правительства РФ от 14 мая 2021 года №733 [1]. В тексте даны определения ряда понятий используемых в НСУД, в законопроекте поправок в 149-ФЗ.

Получается что сейчас постановление правительства дублирует положения проекта законопроекта. Документ уже подвергался критике экспертов [2], в том числе и довольно "циничной".

Ссылки:
[1] http://static.government.ru/media/files/UN7KKWcK3TgpjAmRcaTzRWUZezbIQQWf.pdf
[2] https://t.me/smart_regulation/3449
[3] https://t.me/CynExp/3241

#nsud #government #data

1.4K viewsIvan Begtin, 08:56

Ivan Begtin

Особенность проектики проектирования регулирования данных в Великобритании, Австралии и ряда других стран анлосферы - это трёхэтапная разработка ключевых концептуальных документов.

На первом этапе инициируется создание концепции которая должна быть проработана достаточно чтобы её можно было бы обсуждать, но недостаточно для того чтобы принимать как есть.

На втором этапе интенсивный сбор обратной связи, запросами предложений и комментариев, предложений, идей и так далее. Активная работа с экспертами.

На третьем этапе подготовка Government Response на высказанные замечания, критику и идеи. В этом случае участвуют уже не только авторы первой версии концепции, но и представители власти ответственного органа.

В Великобритании только что опубликовали Government response to the consultation on the National Data Strategy [1], подробный документ-ответ на реакцию экспертов на национальную стратегию данных Великобритании, размещённую в сентябре 2020 года. Она была опубликована в начале сентября 2020 года, далее с 9 сентября по 9 декабря 2020 года (3 месяца) шёл сбор предложений и замечаний.

Это хороший пример того как работает медленная, но последовательная разработка законов в этой области.

Ссылки:
[1] https://www.gov.uk/government/consultations/uk-national-data-strategy-nds-consultation/outcome/government-response-to-the-consultation-on-the-national-data-strategy#conclusion-and-next-steps-delivering-the-national-data-strategy

#opendata #data #datastrategy

GOV.UK

Government response to the consultation on the National Data Strategy

1.7K viewsIvan Begtin, 09:35

Ivan Begtin

Коммерсант пишет [1] что Минцифры повторно направило в правительство законопроект, регулирующий оборот обезличенных данных в России. Согласно новому варианту, бизнес безвозмездно должен будет передавать властям такие данные россиян. Их сбор нужен государству, чтобы начать оказание цифровых услуг, считают эксперты. Но, по мнению бизнеса, инициатива затормозит развитие рынка больших данных и проектов в области искусственного интеллекта.

Если всё так, то затронет это, в первую очередь, весь крупный бизнес владельцев данных.

Интересно увидеть итоговый текст документа, если он у Вас есть - поделитесь, обсудим его вместе предметно.

Ссылки:
[1] https://www.kommersant.ru/doc/4731592

#data #regulation

Коммерсантъ

Пишите в обезличку

Власти бесплатно соберут с бизнеса данные россиян

1.5K viewsIvan Begtin, 11:24

Ivan Begtin

В рубрике интересные наборы данных, большой набор данных Russian Open Speech To Text опубликованный на Github [1] и Azure Open Datasets [2]. Это большой набор данных используемый в задачах распознавания речи на русском языке, пригодный, в первую очередь, для задач обучения алгоритмов. Но также это один из немногих наборов данных созданный за счёт пожертвований пользователей, авторы с сентября 2019 года сумели собрать $608 [3], что может быть и не так много, но вполне неплохо для работы связанной со сбором данных.

Впрочем важнее что сам набор данных весьма интересный и довольно редкий. А если он окажется и полезным, то не жалко и поддержать его авторов.

Ссылки:
[1] https://github.com/snakers4/open_stt
[2] https://azure.microsoft.com/en-us/services/open-datasets/catalog/open-speech-to-text/
[3] https://opencollective.com/open_stt

#opendata #datasets

GitHub

GitHub - snakers4/open_stt: Open STT

Open STT. Contribute to snakers4/open_stt development by creating an account on GitHub.

1.6K viewsIvan Begtin, 13:06

About

Blog

Apps

Platform