Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.81K photos

3 videos

101 files

4.52K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Forwarded from Ksenija Orlova

Всем привет!

1-6 марта Инфокультура отметит Международный День открытых данных 2021.

Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических мастер-классов по работе с открытыми данными в онлайн. Приглашаем участвовать всех желающих 🙂

— 1 марта, 18:00, мастер-класс дата-журналиста Алекся Смагина «Вскрываем декларации. Как при помощи регулярных выражений привести Word’овскую табличку к пригодной для анализа форме».

— 2 марта, 18:00, мастер-класс дата-сайентиста Дмитрия Сергеева «О чем говорят депутаты Госдумы? Анализ текстовых данных на Python».

— 3 марта, 18:00, мастер-классы по работе с геопространственными данными и картами для новичков и профи: создание карты с помощью unfolded.ai и затем краткий обзор OS-фреймворков для сетевого анализа городской среды на примере задачи построения изохрон.

— 4 марта, 15:00, мастер-класс по поиску открытых данных от DataMasters.

— 5 марта, 16:00, мастер-класс «Российская официальная статистика: как сделать работу с данными удобнее, а данные — понятнее?».

— 5 марта, 18:00, мастер-класс «Визуализация данных в ObservableHQ». После мастер-класса состоится подведение итогов Moscow Dataviz Awards 2021 — ежегодной международной премии за достижения в области инфографики, визуализации данных и дата-арта (moscowdatavizawards.com).

Программа и регистрация: https://opendataday.ru/msk. Присоединяйтесь!

День открытых данных 2024

Присоединяйтесь к нам, чтобы отметить силу открытых данных и их потенциал для позитивных изменений в мире! #OpenDataDay #ODD2023 #BetterTogetherThanAlone

7.7K viewsIvan Begtin, 09:48

София Иванова зарегистрировавшая ИП через сервис Tinkoff получила несколько десятков, а то и сотню звонков за несколько дней [1]. Интересный вопрос "где протечка" - в сервисе банка или в ФНС ? Рассматривая Софию Иванову как собирательный образ микропредпринимателя, то почти каждый из них испытывает моменты "коммуникационной агрессии". Они возникают когда в их предприятии возникает значимое событие воспринимаемое продавцами услуг для бизнеса как триггер.

Сейчас это два таких события как:
- регистрация организации
- победа на тендере

Оба этих случая - это злоупотребление даже не открытыми, а доступными данными. Посредники получают их из ЕГРЮЛ, баз госконтрактов, сайтов торговых площадок и так далее. Они перепродают контакты тем кто использует их для холодных звонков.

Поэтому, когда Вы регистрируете ИП или ООО или иное юр. лицо, то это поток звонков от банков. Когда побеждаете на тендере то звонят бесконечное число банков и посредников выдающих банковские гарантии. И с каждым годом звонков всё больше, и с каждым годом ситуация всё хуже. Крупный и средний бизнес может указать входящий номер секретаря и ничего не делать, а ИП и микробизнес обычно не знают что такое произоёдет и указывают личные мобильные телефоны.

Но виновата в этом не открытость данных, потому что контакты берут далеко не только ЕГРЮЛ и реестра госконтрактов к примеру. Часто контакты компании выигрывающей тендер собраны заранее из десятков разных источников включая сайт и ещё десятки других источников.

Что делать? Значительно упрощать заявления о телефонном спаме и ужесточать наказание за массовый спам. И да, всё это технически вполне возможно, спам замечательно умеют отслеживать Truecaller и аналогичные продукты Яндекса и Касперского. Казалось бы что мешает ФАС России (отвечают за регулирование рекламы) и Роспотребнадзору (отвечают за регулирование рынка потребителей) и Банку России (регулируют банки) взяться за спамеров со всем пристрастием хотя в кооперации с коммерческими сервисами которые такой спам умеют ловить? Я вот не знаю что мешает, а пока самое разумное что можно сделать - это не указывать свой личный телефон если вы зарегистрировали ИП или выигрываете тендер. Лучше купите отдельную SIM карту и готовьтесь к шквалу звонков.

Ссылки:
[1] https://www.facebook.com/ivanova.sofya/posts/5455743684443717

#opendata #spam

Log in or sign up to view

See posts, photos and more on Facebook.

2.0K viewsIvan Begtin, edited 07:30

The Information опубликовали список из 50 наиболее многообещающих стартапов [1] (осторожно пэйвол) разбитых по 5 категориям, из этих стартапов, значительная часть, или связана с данными напрямую, или опосредовано. Например, номер 1 в категории AI - это Alation [2], один из наиболее дорогих корпоративных каталогов данных обещающих что они используют технологии AI для организации корпоративных данных для последующего машинного обучения.

Там много и других примеров стартапов с фокусом на микросервисы (Kong), обработку данных в облачных хранилищах (Starburst Data) и др.

P.S. Если кому-то понадобится статья целиком, пишите в чат, выложу туда её текст.

Ссылки:
[1] https://www.theinformation.com/ti50
[2] https://www.alation.com/

#tech #data #bigdata

The Information

The Information's Top 50 Promising Startups in 2023

Explore the top 50 startups in 2023 poised to dominate their sectors based on analyses of their revenue, innovative business models, and growth trajectories.

1.4K viewsIvan Begtin, 07:01

В Индии Development Data Lab выложили набор данных о 81.2 миллионе судебных дел из которых 10 миллионов дел идентифицированы как уголовные дела [1]

Данные собраны из e-Court platform [2] и использовались в исследовании предубеждения судов на гендерной и религиозной основе [3].

До этого они делали очень крутой проект SHRUG [4] сбора и визуализации гиперлокальных социоэкономических данных Индии. Это данные о 500,000 деревнях, 8000 городах, и 4000 законодательных собраниях.

А сами данные включают данные о: компаниях, населении, потреблении, выборах, политиках, образовании, энергетике, кастах, дорогах, ночном освещении, покрытии лесом и секторах. Всё это представлено в виде базы данных и наглядного атласа [5].

Если проект по судебным делам в России возможен и даже будет сопоставим, то можно долго писать почему невозможно сделать аналог SHRUG'а, и главная причина будет в полнейшем отсутствии данных переписи/переписей в гиперлокальном виде и отсутствие актуализированной карты с гиперлокальной разметкой муниципалитетов.

Да и данных о качестве жизни маловато, а если она и есть то негармонизируема на всю страну.

Ссылки:
[1] http://www.devdatalab.org/judicial-data
[2] https://districts.ecourts.gov.in
[3] https://shrug-assets-ddl.s3.amazonaws.com/static/main/assets/other/India_Courts_In_Group_Bias.pdf
[4] http://www.devdatalab.org/shrug
[5] http://www.devdatalab.org/atlas

#opendata #opengov #data #india

1.3K viewsIvan Begtin, 10:56

Напоминаю что День открытых данных в этом году пройдет онлайн [1] где кроме мероприятий 6-го марта проходит серия мастер-классов первый из которых пройдет сегодня, 1 марта в 18:00 (MSK, GMT+3), мастер-класс «Вскрываем декларации. Как при помощи регулярных выражений привести Word'овскую табличку к пригодной для анализа форме».

Мастер-классы будут проходить ежедневного до 5-го марта включительно.

А потом, 6 марта, будет серия интересных дискуссий по злободневным вопросам. В этом году мы позвали много зарубежных экспертов и будет особенно интересно узнать о том что происходит в мире.

Обязательно регистрируйтесь на сайте, приходите и распространяйте!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #infoculture

День открытых данных 2024

Присоединяйтесь к нам, чтобы отметить силу открытых данных и их потенциал для позитивных изменений в мире! #OpenDataDay #ODD2023 #BetterTogetherThanAlone

2.5K viewsIvan Begtin, 11:21

Я тут читаю свежую концепцию цифровой и функциональной трансформации социальной сферы, относящейся к сфере деятельности Министерства труда и социальной защиты Российской Федерации, на период до 2025 года [1], а завтра около 14:30-15:00 комментирую её в прямом эфире ОТР.

Я так понимаю что это именно то что сейчас называют в СМИ "социальным казначейством". Концепция по своей сути техноунитарная, в её основе объединение органов власти и иных государственных структур в единую информационную систему. В такой модели, когда информационная система становится важнее самих органов власти - это путь к централизации полномочий и неизбежной, но возможно, не такой уж скорой реформе Пенсионного Фонда, ФОМС, ФСС и Минтруда.

Могу сказать что сама концепция весьма забавно написана. Ранее термины вроде морально устаревшая не применялись в официальных документах. А англицизмы вроде реинжиниринг применялись как упрощение словосочетания комплексная оптимизация. Ну и в целом, редко применяется оно в российских НПА (почти никогда). Также как и омниканальность ранее присутствовавшая только в плане мероприятий по направлению "Информационная инфраструктура"программы "Цифровая экономика Российской Федерации.

На что можно обратить внимание:
- работу с данными планируют делать через Национальную систему управления данными, но с оговорками о временности работы с витринами данных. Нечеткие формулировки не дают точного ответа планируется ли НСУД в итоге или нет в стыковке с этой платформой;
- для реализации платформы будет использоваться единая цифровая платформа Российской Федерации "ГосТех" (читай Сбер)
- в целом подход резко усиливает Минтруд России, министерство становится головным органом власти
- в концепции ничего нет про работу с социально-уязвимыми группами граждан, не имеющих доступ в Интернет и тд. То есть нет упоминаий о защите от цифровой дискриминации.

Может ещё что-то найду, надо вчитаться. Пока ощущение что в скором будущем в России информационные системы заменят органы власти. Вопрос уже скоро будет не про цифровизацию госуправления, а можно ли рассматривать госуправление без цифры? По моему, уже нет.

Ссылки:
[1] http://static.government.ru/media/files/i2keGFnJGgf832zbAW9tQ7yDDLuEe3Ru.pdf

#government #it #regulation

2.6K viewsIvan Begtin, edited 15:16

OpenAI опубликовали описание DALL-E [1], версию GPT-3 [2] с 12 миллиардами параметров и используемую для автоматического создания изображений из текстового описания. Ко всему этому есть исходный код [3], научная статья [4], а также множество наглядных примеров.

С развитием этой технологии она может найти много областей применения, например, для автоматизации составления фотороботов, или для людей ограниченных в возможности рисовать руками, или для художников из недалёкого будущего кто будет рисовать словами, а не кистью.

Ссылки:
[1] https://openai.com/blog/dall-e/
[2] https://arxiv.org/abs/2005.14165
[3] https://github.com/openai/dall-e
[4] https://arxiv.org/abs/2102.12092

#ai #visual #research #study

DALL·E: Creating images from text

We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.

1.6K viewsIvan Begtin, 06:05

Вышло исследование Artificial Intelligence Policy and Funding in Canada [1] за авторством Ana Brandusescu [2] о том как в Канаде сформировалась экосистема компаний и их поддержки в области искусственного интеллекта. К исследованию прилагается набор данных в Excel [3] и в других форматах со списком компаний.

У исследования весьма простая и внятная методология основанная на анализе реестров юр. лиц, контрактов, грантов Правительства Канады и других открытых источников. При желании его не сложно повторить в России и масштабы, скорее всего, будут похожи.

Кстати ситуация в Канаде похожа на российскую:
- государство, в основном, инвестирует в технологии ИИ которые помогают частному сектору
- у Канады есть госполитика в области ИИ, но нет национальной стратегии
- компании пойманные правозащитниками на эксплуатации прав человека тем не менее являются предквалифицированными поставщиками для государства
- страх и опасения цифрового колониализма присутствует и там тоже

Хорошее исследование, вполне воспроизводимое в наших реалиях.

Ссылки:
[1] https://www.mcgill.ca/centre-montreal/files/centre-montreal/aipolicyandfunding_report_v8_withinfographic21955.pdf
[2] https://www.mcgill.ca/centre-montreal/people-0/professors-practice/ana-brandusescu
[3] https://www.mcgill.ca/centre-montreal/file/91477

#ai #research #studies

1.3K viewsIvan Begtin, 06:43

Виктор Агроскин сформулировал несколько важных тезисов про происходящее с цифровизацией в России. В моём понимании это несколько более глобальный тренд и не только российский, но в России он имеет особо заметную форму.

1.2K viewsIvan Begtin, 08:44

Forwarded from VVAGR

Цифровая трансформация государственного управления в РФ завершена. Несколько неожиданным образом. Как говорил классик, "хоть и окончательно, но не целиком. Вернее, целиком, но не полностью. А вернее, даже так: целиком и полностью, но не окончательно."

Для начала, у власти полностью сформировалось представление о том, что цифровизация (компьютеризация, автоматизация, внедрение ИИ, машинное обучение, блокчейн, онтологии, далее по вкусу) позволяет сделать государственное вмешательство эффективным (для достижение целей властей), необременительным (с точки зрения властей) и неизбегаемым. Но и для подвластных цифровое регулирование тоже будет очень выгодным: простым для соблюдения, в одном окне (в одном браузере) для получения, незаметным при соблюдении (а если и заметным, то см. выше про неизбегаемость) и автоматически неотвратимо караемым при несоблюдении (если с неизбегаемостью кто-то кое-где порой что-то придумает).

Регулирование всех аспектов экономический и общественной жизни никогда не было так близко и так возможно в доцифровую эпоху. Мечты прогрессивного человечества, от Киберсина до страж-птиц, скоро сбудутся. Платформизация намекнула, что идеи рынка и конкуренции устарели. Всемогущий маркетинг и рекомендательные системы окончательно развеяли эти "рыночные" заблуждения. Попала на благодатную почву херня про "надж" и начинает колоситься, ждём - как скоро платформы и рекомендательные системы начнут продвигать государственные рекомендации и рейтинги во всех сферах.

Поэтому из государственных стратегических целей практически полностью исчезли упоминания "дерегулирования", "приватизации", "поощрения частной инициативы", "развития гражданского общества". А если кто-то ещё упоминает эту ерунду по инерции, так то бумеры, и не стоит воспринимать их всерьёз. Кстати, перешли в новый арсенал из старого "открытость" и "прозрачность". Это, неожиданно, таки будет реализовано. И не только для граждан, но и для самих властей тоже. Потому что эффективность и неизбегаемость! Да и чего стесняться?

Осталось решить ещё некоторые технические задачи: покрытия страны интернетом, создания национальных датацентров, интеграции всех государственных баз данных, оцифровки архивов, прослеживаемости товаров и платежей, "окраски" денег, распознавания лиц и речи, и ещё несколько узкоспециальных, типа выдачи всем цифровой подписи и/или поголовного чипирования.

А раз регулирование любой степени жёсткости в цифровом обществе будет необременительно и неизбежно - к его созданию уже можно приступать, не дожидаясь решения некоторых перечисленных выше технических задач. Зачем ждать, если точно решат?

Так что именно цифровизацией и является то, что несведущие люди называют "безумным принтером", "коррупцией", "чеболизацией", "огосударствлением", или просто "больше ада". Только вы раньше об этом не знали.

1.2K viewsIvan Begtin, 08:44

Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms

Can Auditing Eliminate Bias from Algorithms? – The Markup

A growing industry wants to scrutinize the algorithms that govern our lives—but it needs teeth

1.9K viewsIvan Begtin, 06:00

ФНС предупредила о тщательных налоговых проверках в компаниях, которые дробят бизнес ради ИТ-манёвра. Об этом стало известно в начале марта 2021 года.

Как пишут «Ведомости» [1] со ссылкой на письмо ФНС № СД-4-2/561 «О пункте 1 статьи 54.1 Налогового кодекса Российской Федерации», «создание ИТ-компании в результате реорганизации существующих юридических лиц (разделение, выделение) должно исследоваться налоговыми органами в каждом отдельно взятом случае на предмет наличия признаков «дробления бизнеса», когда единственной целью этих действий является получение права на применение пониженных ставок налога на прибыль организаций и тарифов страховых взносов». [2]

Источник - TADviser [3]

Всё чем я могу дополнить эту новость - это то что это было неизбежно, а для некоторых может быть ещё и больно когда выяснится не только про дробление, а про "налоговую оптимизацию", фирмы однодневки и тд.

В общем хочется пожелать "жизни и процветания" ИТ бизнесу на 2021 год в России.

Ссылки:
[1] https://www.vedomosti.ru/economics/articles/2021/03/02/859934-drobit-biznes
[2] https://www.garant.ru/products/ipo/prime/doc/400126871/
[3] https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%9B%D1%8C%D0%B3%D0%BE%D1%82%D1%8B_%D0%B4%D0%BB%D1%8F_%D0%98%D0%A2-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B9_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8

#nalog #tax #it

Ведомости

Дробить бизнес для участия в IT-маневре очень рискованно

Любые такие действия станут поводом для налоговой проверки, предупредила ФНС

2.0K viewsIvan Begtin, 07:35

Пока мы в Инфокультуре (@infoculture) организуем день открытых данных в Москве [1], а на самом деле неделю которая началась 1-го марта и до 5-го марта идут вебинары каждый вечер, а 6-го марта день насыщенный дискуссиями и зарубежными спикерами.

А вот в Нью-Йорке день открытых данных - это недельная конференция которая начинается с 6-го марта и продолжается до 14-го марта включительно [2]. А организаторы этой Open Data Week - это мэрия Нью-Йорка как основной организатор и BetaNYC [3] как их партнер от гражданского общества.

Многие другие события дня открытых данных, весьма интересные, есть по всему миру на сайте OpenDataDay [4]

Ссылки:
[1] http://opendataday.ru/msk
[2] https://www.open-data.nyc/
[3] https://beta.nyc
[4] http://opendataday.org

#opendata #opengov

День открытых данных 2024

Присоединяйтесь к нам, чтобы отметить силу открытых данных и их потенциал для позитивных изменений в мире! #OpenDataDay #ODD2023 #BetterTogetherThanAlone

1.5K viewsIvan Begtin, 09:27

Наша любимая тема, госфинансы. На дне открытых данных будет отдельная секция/дискуссия только про неё. Вести будет Оля Пархимович @ahminfin. Инфокультура за эти годы сделала много проектов про госфинансы такие как Госрасходы (https://clearspending.ru) и Открытые НКО (http://openngo.ru), а значительная часть нашей команды с позапрошлого года ведёт проект Госрасходы (http://spending.gov.ru) проект Счетной палаты с большим акцентом на аналитику, нацпроекты и госпрограммы.

Про День открытых данных я ещё много буду писать до 6-го марта включительно, обязательно регистрируйтесь и слушайте и участвуйте.

#opendata #opengov #govfinances #opendataday

ГосЗатраты

ГосЗатраты - Общественный мониторинг госзакупок в Рф

Автоматизированный мониторинг и аналитика по заключенным госконтрактам – инструменты для общественного анализа, выявления злоупотреблений, борьбы с коррупцией и неэффективным расходованием государственных средств.

1.1K viewsIvan Begtin, 09:54

Forwarded from Инфокультура

Приглашаем на онлайн-дискуссию «Доступность данных о госфинансах»

🔹 Дата и время: 6 марта, 13:25 - 14:25

Доступность данных о госфинансах зависит, прежде всего, от открытости, формата представления и качества этих данных, а также от того, насколько эти данные понятны обычным гражданам, не обладающим экспертными знаниями. На дискуссии мы обсудим, какие проекты помогают сделать данные о госфинансах более доступными, с какими проблемами сталкиваются команды проектов, эксперты и пользователи открытых данных, какие шаги может предпринять сообщество, чтобы эти проблемы преодолеть.

Спикеры:
— Альберт Бертяков, аналитик проекта «Госрасходы» Счетной палаты РФ
— Александр Левашов, главный редактор TAdviser.ru
— Наталия Лукьянова, начальник отдела по обеспечению открытости бюджета Комитета финансов Санкт-Петербурга
— Ольга Панчихина, заместитель начальника Инспекции по аудиту национальных проектов, Счетная палата РФ

Модератор: Ольга Пархимович, руководитель разработки проекта «Госрасходы»

Регистрация

997 viewsIvan Begtin, 09:54

Наши друзья из Роскомсвободы (@roskomsvoboda) проводят очередной Хакатон DemHack 2 [1] на тему приватности и доступности информации.

Я предложил на хакатон задачку "Мониторинг использования технологий слежки наблюдения за гражданами за гражданам" которая звучит так:
Извлечение из Реестра деклараций о соответствии данных о технических средствах слежки за гражданами, поиск и визуализация сведений о госконтрактах с этими техническими средствами
(данные здесь и здесь, а также есть недокументированное API для поиска по сертификатам и декларациям соответствия.
По закупкам данные на порталах spending.gov.ru и clearspending.ru).

Честно говоря я давно про эту задачу (и проблему) думаю и даже думал не сделать ли такой общественный проект, но, всё же, Инфокультуре он не профилен напрямую, Инфокультура создавалась про хорошее - развитие открытости, а тут задача для крепкого вотчдога (организации/команды ориентированной на мониторинг злоупотреблений гос-ва).

Поэтому она идеально подходит для DemHack и я надеюсь на то что найдутся команды которые возьмутся за неё.

Тем временем могу сказать что у меня довольно часто за последние годы разговоров с людьми внутри государства, довольно грамотно аргументирующих почему что-то не может быть открыто или почему какие-то госданные должны быть закрыты. И имеющие хорошие доводы почему госслежка необходима (для борьбы с мошенниками, преступникам и там ещё много чего).

Я вот хорошо их понимаю и их аргументы, но, я считаю крайне важным отсутствие безнадзорной государственной слежки. Иначе говоря, даже если внедряются какие-либо системы слежки за гражданами они должны быть прозрачны, аудируемы, подотчётны законодательной и судебной власти, без излишней концентрации в одних руках (одном органе власти), жёстко регламентированы и так далее. Я считаю что если придерживаться того что называется государственной позицией, то возможно только такое. Контроль и надзор не государства за гражданами, а контроль и надзор государства за отдельными его частями.

Впрочем, конечно, лучше жить в мире где этой слежки совсем нет или её минимум. Если такое вообще возможно.

А пока, присоединяйтесь к хакатону и создавайте проекты которые помогали бы гражданам и тем органам власти которые осуществляют контроль и надзор за другими органами власти чтобы те не нарушали права человека.

Ссылки:
[1] https://demhack.ru

#it #surveillance

Онлайн-хакатон

1.6K viewsIvan Begtin, edited 11:57

Sky News пишут о том что Open Government Partnership утверждает что Великобритания провалила обещания по открытости которые давала в своём плане открытости [1]

Даже не знаю как прокомментировать. UK была основателем Open Government Partnership и это довольно серьёзно если даже они не держат своих добровольных обещаний. Впрочем в статье немало о том что Brexit плохо повлиял на политику в Великобритании и эта ситуация одно из его последствий.

Ссылки:
[1] https://news.sky.com/story/uk-government-censured-for-a-lack-of-transparency-and-accountability-12234248

#opengov #uk

UK government censured for a lack of transparency and accountability

The Open Government Partnership says the government failed to live up to its pledges to improve transparency and accountability.

1.2K viewsIvan Begtin, 14:46

О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] http://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] http://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia

soilsrevealed.org

Soils Revealed platform lets you see past soil organic carbon losses and opportunities for future gains, to manage soil health that helps mitigate climate change, promote clean water and biodiversity.

1.2K viewsIvan Begtin, 07:05

CNews пишут о том что МВД проектирует новый мегаЦОД за 7 миллиардов рублей [1] который будет создан в Москве, на ул. Поморская, 50. Там много вопросов про стоимость работы, обоснование почему так устроено ценообразование на ПИРы, не сомневаюсь что журналисты за этим контрактом пристально будут следить. Я хочу на примере этого контракта поднять 3, на мой взгляд, самые ключевые проблемы / характеристики госИТ в России в последние годы.

1. Делать всё самим.
Фактически, вместо того чтобы вводить стандарты и требования к аттестации коммерческих ЦОДов для нужд госорганов все они "ломанулись" делать собственные ЦОДы. Причины этого понятны: ~~нажористость~~ маржинальность строительных контрактов выше чем ИТ, возможностей освоения бюджетных средств больше и многие интеграторы, или получили строительные лицензии, или отпочковали дочерние компании уже давно.

2. Централизация инфраструктуры в Москве.
Кроме того что органы власти делают всё больше собственной инфраструктуры она ещё и концентрируется в Москве и подмосковье. И то что МВД свой ЦОД строит в Москве тоже показательно. Почему так происходит? Отчасти из-за сверхконцентрации бизнеса в Москве, отчасти из-за простоты найма квалифицированных специалистов, а отчасти от того что местным лоббистам проще и быстрее договариваться о проектах именно здесь.

3. Централизация полномочий в федеральных ГИС
Такой активный рост в создании всеобъемлющих информационных систем - это также история про централизацию, но централизацию власти. Если внимательно вчитаться в концепции и НПА по этим ФГИС то быстро выяснится что каждая из систем делает региональные и муниципальные власти более зависимыми от федеральной или лишает их полномочий или делает их более управляемыми. Это то явление которое я называю техноунитаризацией, когда формально есть разграничение полномочий, но через внедрение информационных систем, фактически, одни ветви и уровни власти начинют зависеть от других.

У всех трёх явлений есть несколько важных последствий:
1. Снижение качества госинформатизации поскольку по-факту конкуренции и сравнения качества не происходит. Федеральная власть практически никогда не берёт лучшие региональные практики, а субъектам федерации не дают бесплатных решений, а только некоторые навязанные общие ФГИС.

2. Значительное повышение критичности любой техногенной катастрофы в Москве. Можно без шуток говорить о том что отключение электричества в Москве на месяц развалит страну. Помимо сверхконцентрации денег, в Москве теперь ещё и сверхконцентрация данных и критической невосстановимой ИТ инфраструктуры. Я вот ничего не слышал про то чтобы хоть кто-то из создателей ЦОДов в Москве и подмосковье всерьёз задумался о полноценном георезервировании и проводил бы соответствующие учения.

3. Сверхконцентрация данных в одном месте - это ещё и вопрос власти другого рода. Если все данные на каждого жителя региона хранятся только в Москве, то это ещё и контроль центробежности. В случае любых сепаратистских настроений получить данные уже не получится. Есть ли такая логика у тех кто целенаправленно создаёт ЦОДы именно в Москве? Я не знаю, но допускаю.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-04-29_mvd_proektiruet_megatsod

#government #it #data

МВД проектирует мегаЦОД. Возможно на российских процессорах

МВД запустило проект по строительству своего нового масштабного ЦОДа, организовав поиски подрядчика на проектирование...

1.1K viewsIvan Begtin, 07:59

Я редко пишу про этот проект Инфокультуры, потому что он не про данные, он про понятность. Много лет назад моим увлечением была оценка сложности текстов, и как-то я потратил несколько месяцев жизни на то, чтобы адаптировать 5 формул оценки читабельности английского языка для русского языка. Во всех формулах использовались те или иные метрики и коэффициенты: среднее число слов в предложении, среднее число слогов в слове и тд. Вот их-то я и адаптировал для русского языка.

И вот уже много лет существует проект "Простой русский язык" http://plainrussian.ru, где можно проверить любой текст (например, новости на сайте Казначейства или Правительства РФ), а также использовать API для проверки.

Это, действительно, очень простой, бесплатный, открытый сервис, доступный каждому.

Если есть идеи и предложения, что хотелось бы в нём увидеть дополнительно, не стесняйтесь, пишите мне.

#API #plainlanguage

1.7K viewsIvan Begtin, 08:28