Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В 2020 году в России было зарегистрировано 605.5 тысяч ИП и ликвидировано 947.5 тысяч ИП, зарегистрировано 232.1 тысячи юридических лиц и ликвидировано 545.6 тысяч юридических лиц. Это наибольшее число ликвидаций ИП с 2012 года, наименьшее число регистраций ИП с 2014 года и наименьшее число регистраций юридических лиц с 2012 года.

Причин может быть множество:
- снижение деловой активности на время COVID-19
- ухудшение экономической ситуации
- ограниченный режим регистрации ИП и юридических лиц и ограничения в сроках приёма в налоговых органов
А может быть и что-то ещё.

В рубрике "полезные наборы данных", актуализированный набор данных временных рядов налоговой статистики [1] регистрации юр. лиц и индивидуальных предпринимателей.
Набор данных включает:
- данные статистики по субъектам федерации в виде временных рядов
- данные статистики по субъектам федерации по годам и индикаторам
- данные статистики по Российской Федерации (агрегировано)
- первичные данные с сайта ФНС России в формате Excel файлов
- исходный код для обработки Excel файлов и генерации файлов статистики

С помощью примера исходного кода можно извлечь и другую статистику, например, по видам юр. лиц, детальные цифры по которым тоже есть в статистических формах ФНС России.

Объём данных небольшой, но полезный в рамках исследований по COVID-19 и деловой активности в принципе.

Ссылки:
[1] https://hubofdata.ru/dataset/nalogstats-timeseries

#opendata #datasets #statistics
В рубрике интересные наборы данных (за рубежом). Национальное управление архивов и документации США опубликовало два больших набора данных на инфраструктуре Amazon AWS. Это национальный архивный каталог [1] и данные переписи 1940 года [2].

Национальный архивный каталог - это база из 225 гигабайт с описанием 127 миллионов цифровых объектов
Перепись 1940 года - это 15 терабайт включающих метаданные к 3.7 миллионам сканированных документов и сами документы с описанием переписных листов, карт переписи и так далее.
Обо всём этом подробнее в блоге NARA [3]

Надо отдать должное Amazon, в их реестре открытых данных [4] всего 233 набора, довольно скудные метаданные по ним, но все эти наборы и базы данных огромного размера и востребованные аудиторией для которых они публикуются.

Ссылки:
[1] https://registry.opendata.aws/nara-national-archives-catalog/
[2] https://registry.opendata.aws/nara-1940-census/
[3] https://aotus.blogs.archives.gov/2021/04/15/nara-datasets-on-the-aws-registry-of-open-data/
[4] https://registry.opendata.aws/

#opendata #datasets #archives #usa #amazon #aws
Я уже написал несколько лонгридов в рассылку [1] о том как собирать, анализировать и описывать данные. Но, всё время чувствую что недостаточно раскрываю эту тему.
Управление метаданными не такая сложная штука в концептуальном смысле, но тяжело ложится в логику российского планирования. Потому что метаданные к данным, документация, хорошо описанный код, пометки к исследованиям, просто заметки к своей работе - это всё культура помнить о себе и других не только в моменте, а в будущем, через много лет. Обычно к этому приходят, или с годами, особенно когда сталкиваются с невозможностью разобрасться с чужими или собственными документами/кодом/данными и тд. многолетней давности, или через культуры среды, например, воспроизводимость исследований - это часть культуры и принципов работы исследователей. Кто-то трактует это узко - возможность воспроизвести в коротком промежутке времени, а кто-то как возможность воспроизвести исследование и через 20 лет.

Управление метаданными - это именно вопрос стратегического понимания зачем данные или иные цифровые объекты создаются.

Поэтому наиболее проработаны вопросы метаданных у национальных архивных и библиотечных институтов, но и ведение таких архивов которые должны сохранятся столетия - это предмет практической и научной работы. Метаданные для архивации чаще всего вносятся для удобства поиска и каталогизации и для воспроизводимости цифровых архивируемых объектов.

Научные архивы отличаются тем что, с одной стороны, они "ближе к земле", а с другой требуют всё того стратегического подхода. Поэтому есть десятки стандартов метаданных по отраслям: лингвистика, биоинформатика, генетика, метеорология и тд.
Но научные архивы напрямую связаны с таким понятием как "воспроизводимость исследований", а в современном мире технологических исследований - это "воспроизводимое вычислительное исследование" (reproducible computational research, RCA). А особенность таких исследований что не только данные нужны, но и методика и все инструменты. А эти инструменты могут быть как жёстко проприетарными (и как тогда воспроизводить?) так и самописными и во всех случаях для них необходимо воссоздание необходимой среды. Вот очень полезная статья о роли метаданных для RCA, оттуда новый термин "капитал метаданных" (metadata capital) - это вложения организации в создание высоко-качественных метаданных для своих данных.

Отдельно можно поговорить про данные в корпоративных каталогах, а вернее системах управления данными (data management systems) и в каталогах данных для ИИ или иных каталогов данных особенно большого размера. Корпоративный мир предельно практичен. К наборам данных добавляются лишь критически значимые метаданные, те же каталоги Kaggle, Amazon Open Data или открытые данные Azure - радикально минималистичные. А вот внутрикорпоративные каталоги для data science наоборот, часто весьма детальные, но с чётким акцентом на data discovery (находимость данных) в достаточно ограниченном промежутке времени.

Во всех случаях важно помнить что метаданные - описание наборов данных, артефактов кода, иных цифровых объектов это совсем недёшево, не с точки зрения денег, а с точки зрения трудозатрат и времени. Качество метаданных - это первая ступень анализа качества любого каталога/реестра/перечня данных, его можно мониторить автоматизировано, но по результатам мониторинга его надо и исправлять.

Например, одна из бед российских государственных порталов открытых данных - это отсутствие международных стандартов, в данном случае, DCAT. Рекомендации к порталам давно не обновлялись, да и методическая работа над ними не ведётся уже очень давно. Но никогда не поздно начать.

Ссылки:
[1] https://begtin.substack.com
[2] https://arxiv.org/ftp/arxiv/papers/2006/2006.08589.pdf

#metadata
Главная проблема большей части утечек личных данных именно в сопоставлении. Даже сопоставление десятка баз по email адресам может дать очень много инсайтов. Неприятных инсайтов(
Что и требовалось доказать. Уже стали появляться обогащенные базы сторонников Навального :-( "Да там просто e-mail и ничего больше", - говорили они. Ага, щазззз. Сейчас еще смапят в утекшую базу LovePlanet и вперед :-) pic.twitter.com/B5zazapYT7
— Alexey Lukatsky (@alukatsky) April 19, 2021
Лично я не то чтобы удивился по поводу новости о том что НИИ Восход просит субсидию на локализацию SAP [1] и том что это нужно «Ростех», «Росатом» и ОАО РЖД и тд., а просто до сих пор не могу прийти в себя. SAP - это очень специфическая платформа, прям даже сказать "очень" - это ничего не сказать. Это вещь в себе и не случайно практика SAP есть в нескольких крупных интеграторах и точно не в НИИ Восход, там такое просто не могло никогда появиться в виду специфики работы подведа Минцифры и отсутствия SAP в Минцифре и в ФОИВах (и других органах власти) как явления.

Тут всё очень просто, на самом деле, когда РЖД, Росатому или Ростеху что-то надо - они сами это делают и у них есть на это деньги, ресурсы, люди или компетенции. При всём желании я не поверю что у Росатома меньше ИТ компетенций и так далее по всем госкорпорациям по списку.

Поэтому очень странная эта инициатива. Если там есть геополитика дружбы с Германией - это понятное политическое решение, вернее непонятно "почему Восход" есть же много других госинформатизаторов, но понятное с других точек зрения. Потому что в случаях реальной потребности давно бы на это нашлись внебюджетные деньги.

Ссылки:
[1] https://www.kommersant.ru/doc/4780864

#it #russia
Когда общественно значимые данные публикуются в коммерческом сервисе и недоступны как открытые данные, то как это назвать? Вообще - это называется коррупцией в худшем случае и в лучшем недобросовестное получение рыночного преимущества. Яндекс всегда выступал за собственные бизнес интересы вопреки вопросам открытости, да и в направлении открытости данных за всех эти годы от них не было, ни инициатив, ни поддержки. Но ведь те кто собрали реестр пунктов вакцинации должны были понимать что он должен быть максимально публичен? И вот даже интересно, кто его ведет и кому писать официальные запросы.
Forwarded from Образ жизни
🔎 Поиск пунктов вакцинации теперь доступен в «Яндекс.Картах». «Жители любого города смогут найти адрес, контакты и время работы ближайшего пункта, а также построить до него маршрут», — уточнили в компании.

📱Нужно вбить ключевые фразы (например «вакцинация» или «где сделать прививку») в поисковой строке. Более 4,5 тыс. текущих точек будут дополняться совместно с Минздравом.

💉 Напоминаем, массовая вакцинация в России началась 18 января. Сегодня в стране зарегистрированы три препарата: «Спутник V», «ЭпиВакКорона» и «КовиВак». Привиться можно в государственных или частных медучреждениях.

⚡️ Больше новостей по актуальной теме вакцинации читайте на вакцина.стопкоронавирус.рф и будьте здоровы. Позаботьтесь о себе и близких, запишитесь на прививку по ссылке.

#стопкоронавирус #здоровьевприоритете #coronavirus
Может ли мягкий искусственный интеллект приносить повседневную пользу? Да, например, один энтузиаст прикрутил OpenAI к командной строке в Linux и написал об этом подробно [1] и заснял видео [2]. Если вкратце, то автор сделал надстройку над терминалом Linux и с помощью OpenAI научился транслировать задачи написанные на естественном языке в команды Shell.

Конечно, далеко не всё распознаётся как хотелось бы и всё это куда больше похоже на забавный эксперимент, но... не стоит недооценивать развитие технологий. В самых очевидных, полуавтоматизированных задачах применение OpenAI и других AI технологий может дать интересный результат. Например, написать текст на основе синопсиса, нарисовать эскиз веб-приложения из текстового описания, рисовать картину со слов человека и ещё многое другое.

Ссылки:
[1] https://riveducha.onfabrica.com/openai-powered-linux-shell
[2] https://www.youtube.com/watch?v=j0UnS3jHhAA

#ai #tools #shell #linux
В рубрике интересных наборов данных, база Web Data Commons - Schema.org Table Corpus [1] j опубликованный 29 марта 2021 года командой Web Data Commons [2], проекта Университета Манхейма. В наборе данных 4.2 миллиона таблиц в виде данных в формате schema.org [3] извлечённых из веб-страниц Common Crawl.

Исходный код экстрактора данных данных также доступен [4].

Хороший проект, интересные результаты, и реальная польза от Common Crawl как гигантской базы данных веб-страниц на основе которой проводятся многочисленные исследования. А для разного рода коммерческих проектов по агрегации данных это всё может быть интересным источником вдохновения.

Ссылки:
[1] http://webdatacommons.org/structureddata/schemaorgtables/
[2] http://webdatacommons.org/
[3] https://schema.org/
[4] http://webdatacommons.org/framework/index.html

#opendata #data #web #crawl
В рубрике интересные наборы данных, Table Union Search on Open Data, научная статья [1] и база данных [2] с фокусом на автоматизацию объединения табличных данных. Исследование о том можно ли и насколько эффективно можно объединять разные табличные данные по полям которые кажутся идентичными, совпадающими.

Задача эта, во многом про автоматизацию выявления метаданных, задача, безусловно интересная и очень про качество публикации данных и дальнейшее использование. Типовой пример, нужно собрать все данные по российскому региону из всех опубликованных открытых данных. При том что могут отличаться наименования полей.

Несмотря на то что статье более 3-х лет и результаты анализа на основе таблиц из порталов открытых данных 3-х летней давности, актуальности задачи не теряет. Отчасти жаль лишь что опубликовано маловато кода, может быть авторы делают коммерческий продукт, правда 3 года прошло.

Ссылки:
[1] http://www.vldb.org/pvldb/vol11/p813-nargesian.pdf
[2] https://github.com/RJMillerLab/table-union-search-benchmark

#opendata #dataquality #data
Для тех кто любит визуализировать данные и получать за это призы, премии, уважуху и признание коллег, до 21 мая идёт приём заявок [1] на EU DataViz 2021, конференцию в рамках дней открытых данных Евросоюза которая пройдет 23-24 ноября 2021 года.
Ограничений по стране подачи нет, можно подаваться из России, тем более что в России визуализация данных и журналистика представлены очень даже неплохо (как бы нам не казалось иное иногда). Не стесняйтесь, не бойтесь показаться неумелыми, международное признание штука хорошая, не только для самолюбия, но и для портфолио.

Прошлый EU DataViz проходил в 2019 году, там немало полезных презентаций и иных материалов [2]

Ссылки:
[1] https://op.europa.eu/en/web/eudataviz
[2] https://op.europa.eu/en/web/eudataviz2019

#opendata #dataviz
Завтра семинар по реформе регуляторике в канале @smart_regulation. Для тех кто интересуется этой темой, заодно, рекомендую подписаться. Тема кажется узкой, но для всех кто сталкивается с отечественным нормотворчеством она совсем не узка.
Программа 23.04.21 final.pdf
135.5 KB
Итоговая программа семинара по регуляторной реформе 23 апреля (голосовой чат Телеграм, 10.00-12.30 МСК).

👉 Импульсные доклады:
1) Александр Литвак (Минэкономразвития России),
2) Михаил Прядильников (АЦ при Правительстве РФ),
3) Иван Бегтин (Инфокультура @begtin),
4) Даниил Цыганков (Департамент политики и управления НИУ ВШЭ).

👉 Панель дискуссантов:
1) Алексей Ефремов (РАНХиГС),
2) Филипп Кулин (@usher2),
3) Антон Гопка (itmotech),
4) Илья Чертков (Россия без ерунды).

В случае возникновения в ходе чата вопросов / технических проблем можно обращаться к одному из модераторов, Виктории Захаровой: @vctory_z
Инструкция по голосовому чату👇
Максут Шадаев в интервью Коммерсанту 20 апреля весьма разумно изложил почему не надо тратить бюджетные деньги на локализацию SAP [1]. Я также считаю что если у продукции есть крупные корпоративные потребители, то и тратить средства на локализацию должны именно они.

Есть за что Минцифры можно ругать (предустановка ПО), а есть за что можно хвалить (отсечение заведомо неразумных инициатив).

Было бы больше про открытость данных, так вообще цены бы министерству не было.

Ссылки:
[1] https://www.kommersant.ru/doc/4781615

#opendata #digital #импортозамещение
Где-то дипфэйки, а где-то новое место для рекламы (с) Британский AdTech стартап Mirriad применяет технологию [1] внедрения рекламы в видеоконтент. Эдакая "нативочка" выглядящая естественно и она уже применяется для одного из китайских стриминговых вебсайтов. Сама компания Mirriad получила более 67 миллионов долларов венчурного финансирования, с последним раундом в $23 миллиона долларов в декабре 2020 года [2], стала публичной ещё в 2017 году.

В каком-то смысле технология пугающая, потому что может позволить перерисовать огромное число исторических фильмов, а в будущем ещё и в реальном времени внедрять нативную рекламу в стриминг, трансляции и видео загружаемые на популярные сайты и многое другое.

Признаться я слышал об этой технологии, но раньше не задумывался кто и как её применяет и возможно ли, а тут похоже что всё более чем активно развивается.

Интересно появятся ли аналогичные отечественные стартапы и работает ли хоть кто-то в этом направлении?

Ссылки:
[1] https://www.bbc.com/news/business-56758376
[2] https://www.crunchbase.com/organization/mirriad/company_financials

#tech #startups #adtech
К вопросу об интересных наборах данных и их сохранности. После обновления системы ЕГИСУ НИОКТР (Единая государственная информационная система учета результатов научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) [1] из раздела открытые данные исчезла возможность выгрузки данных до 2016 года, а также изменился сам формат выгрузки данных. Если ранее это были XML дампы (без схем и документации), то сейчас это JSON дампы, также, без схем и документации.

Масштаб изменений пока измерить сложно потому что в новых выгрузках данных в ЕГИСУ много ошибок. Но старые данные, до 2016 года в них не находятся.

Архив этих данных у нас, конечно, есть, но это ещё один сигнал о необходимости архивации открытых данных.

Ссылки:
[1] https://rosrid.ru

#opendata #data #dataquality
Sony вместе с Университетом Кореи опубликовали результаты исследования по построению FlavourGraph [1] базы сочетания вкусов. Очень интересная наработка, надеюсь что авторы выложат когда-нибудь не только схемы, но и данные.

А в основе этой работы алгоритмы и базы данных вкусов и рецептов.

Ссылки:
[1] https://www.nature.com/articles/s41598-020-79422-8

#data #ai
11-13 мая пройдёт большая международная конференция Access for All. Plain Language is a Civil Right [1]. Там большая насыщенная программа [2] со спикерами из десятков стран о практике простоты языка.

Конференция платная, не очень дешёвая, но есть скидки по тому к странам с какими доходами вы относитесь. Россия страна со средними доходами и код скидки ZONE2. Вместе с ним стоимость участия: $49.00 для студентов, $109 для членов ассоциаций, $139.00 для тех кто в ассоциации не входит.

Организует конференцию Clarity International, Center for Plain Language и Plain Language Association International. Я лично вхожу в ассоциацию Clarity International уже много лет, плачу членские взносы и получаю по подписке их журнал и поэтому получу небольшую скидку. Много лет я также представляю Россию в Clarity International и ещё 4 человека из России входят в Plain Language Association [3] и вот и всё. Практически никто от России не выступает на международных конференциях, честно говоря я вот тоже этого не делаю. Рассказываю только на российских конференциях или вот последняя моя презентация с российско-германского форума [4], но вот к этой международной конференции, увы, я не успел подготовиться, но с удовольствием послушаю участников.

Напомню что у Информационной культуры есть проект по простоте и понятности русского языка [5] где можно измерить сложность языка в годах обучения. У проекта есть открытое API с помощью которого можно анализировать тексты автоматически/автоматизировано.

Ссылки:
[1] https://www.accessforallconference.com/
[2] https://www.accessforallconference.com/may-program
[3] https://plainlanguagenetwork.org/membership/member-directory/
[4] https://www.beautiful.ai/player/-MZCRhasvASjRmvzWl7c
[5] https://plainrussian.ru

#plainlanguage #plainrussian