Ivan Begtin

Forwarded from TAdviser

Сегодня в 11.30 на TAdviser Summit главный редактор TAdviser Александр Левашов беседует с главой Минцифры РФ Максутом Шадаевым от лица ИТ-отрасли. Смотреть трансляцию можно после регистрации по ссылке https://summit.tadviser.ru/ Спасибо всем, кто задавал вопросы. Основные темы: гостех, open source, импортозамещение, данные, кадры, образование, льготы, а также специфические вопросы фоивов и регионов.

1.2K viewsIvan Begtin, 06:13

Ivan Begtin

В качестве напоминания новым подписчикам о том кто я и чем занимаюсь.

Я возглавляю Ассоциацию участников рынка данных АУРД (если Ваша компаниях занимается данными, то, кстати, вступайте) и АНО Инфокультура. Развиваю стартап APICrafter по доступу к API для проверки контргагентов и сейчас в рамках него создаю наибольший каталог данных в России DataCrafter.

Я много пишу онлайн про технологии в госсекторе, :
- в канале в телеграм https://t.me/begtin
- на странице в Facebook https://facebook.com/ivanbegtin
- во Вконтакте https://vk.com/begtin
- и даже в Viber (в качестве эксперимента)

Лонгриды я пишу у себя в блоге https://begtin.tech (редко) и в рассылке https://begtin.substack.com (чаще).

Темы о которых я пишу включают технологии в госсекторе, открытые данные, большие данные, этика работы с данными и ИИ, открытость государства, цифровая архивация, простой язык, понятность государства, алгоритмы и инструменты работы с данными и анализ данных.

Кроме того наша команда ведёт многие общественные проекты связанные с открытость и понятностью данных, государства, общества.

Это такие проекты как:
- Госзатраты (clearspending.ru) - открытая база госконтрактов
- Открытые НКО (openngo.ru) - база прозрачности некоммерческих организаций
- Понятный язык (plainrussian.ru) - открытый сервис оценки понятности текстов на русском языке
- Национальный цифровой архив (ruarxive.org) - проект по цифровой архивации сайтов и иных цифровых ресурсов.

До этого я состоял в нескольких общественных советах, возглавял экспертный совет при Генпрокуратуре и так далее. Вышел из них всех когда чуть более чем 2 года назад пошёл работать в подвед Счетной палаты создавая проект Госрасходы (spending.gov.ru) так что я 2 года был почти госслужащим, пока не вернулся к общественной и коммерческой деятельности с мая 2021 г.

А также веду для души в телеграм небольшой канал стихов ministryofpoems (иногда резких) специально для тех кто регулярно сталкивается с нашим государством и не знает как это описать.

#blog

1.3K viewsIvan Begtin, edited 09:07

Ivan Begtin

По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.

Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.

Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.

Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance

#registries #ashmanov

Хабр

Ашманов предложил создать реестр токсичного контента

По информации издания «Ведомости», член Совета при президенте России по развитию гражданского общества и правам человека Игорь Ашманов, а также представители общественных организаций, связанных с...

1.7K viewsIvan Begtin, 09:31

Ivan Begtin

Трансперенси Рус (признано НКО-«иностранным агентом») одни из немногих оставшихся российских НКО занимающихся прозрачностью государства и госзакупок на практике пишут про европейскую модель Integrity Pacts, когда у госконтракта появляется третья сторона, некоммерческого арбитра, отслеживающая соблюдение общественных интересов. Я знаю про эту практику, она не только в европе существует, она есть в Мексике по моделе "гражданского свидетеля", представителя общества участвующего в мониторинге исполнения госконтракта.

Она есть во многих других странах в других формах, но тут надо оговорится и что ключевое в таких моделях взаимодействия - это наличие независимых НКО и СМИ. В Евросоюзе снизили коррупцию не просто через Integrity Acts, а через то что там много НКО имеющих финансирование из независимых от правительств источников или же имеющих независимость даже при госфинансировании. В России сейчас прессинг на НКО и СМИ очень велик, настолько что общественный контроль очень сильно ограничен, в первую очередь, самоцензурой. Без снятия этого давления Integrity Pacts не заработают. Что не отменяет того что это, в целом, вполне здравая идея.

И начинаться она должна и может через включение общественников в приёмку результатов работ. Чем безжалостно сопротивляются почти все госзаказчики и исполнители по госконтрактам.

#procurement #government

1.3K viewsIvan Begtin, 11:10

Ivan Begtin

Forwarded from Трансперенси

Можно ли в России сделать госзакупки такими же прозрачными, как в Европе? (Да)

В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International).

С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах.

По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.

Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий.

Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге.

Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.

➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/

transparency.org.ru

Соглашение о гражданском участии

Инструмент для снижения коррупции в инфраструктурных проектах.

1.2K viewsIvan Begtin, 11:10

Ivan Begtin

В рубрике интересное чтение в свободное время, Commonplace [1] проект от НКО Knowledge Futures посвящённый устойчивости воспроизведения знания в современном мире. Онлайн издание о таких темах как открытый доступ (open access), устойчивости открытых библиотек, реорганизации научных публикаций. Тексты все про размышления, очень оторванные от российской действительности, но хорошо задающие направления размышления именно про знания в нашем мире. Те же авторы являются создателями платформы PubPub [2] для осовременивания публикации научных работ.

В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.

Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.

Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0

#thoughts #reading

PubPub

PubPub · Community Publishing

Collaborative Community Publishing

1.4K viewsIvan Begtin, 13:16

Ivan Begtin via @vote

Есть ли у Игоря Ашманова конфликт интересов при лоббирования "реестра токсичного контента" ?
anonymous poll

Есть, конечно, он же бизнесмен – 99
👍👍👍👍👍👍👍 79%

Я просто посмотреть ответы! – 24
👍👍 19%

Нет, конечно, он же член СПЧ – 2
▫️ 2%

👥 125 people voted so far.

1.3K viewsIvan Begtin, 13:26

Есть, конечно, он же бизнесмен – 79%

Нет, конечно, он же член СПЧ – 2%

Я просто посмотреть ответы! – 19%

Ivan Begtin

Специально для тех кто обладает цифровыми навыками и немного свободным временем, есть задачи для программистов которые можно сделать как волонтеры, можно за деньги, как захочется. Я описал их на бирже фриланса [1] и в списке задач на Github [2].

Если кратко, у нас есть общественный проект Национальный цифровой архив (ruarxive.org) [3], не очень наглядный по виду, но по смыслу - это регулярная архивация веб сайтов и иного современного цифрового контента. Обычно кампаниями по сохранению чего-то в период риска.

В последние годы есть много контента который надо, или сохранять иначе, или специальными инструментами потому что веб-краулеры это не поддерживают. Например, это социальные сети и сайты с Ajax/API. Для некоторых появляются инструменты такие как instaloader для Instagram, twarc для Twitter, apibackuper для REST API и ещё много чего.

Но есть то для чего таких инструментов нет, например:
- сообщества и чаты в телеграм (можно сохранять с десктопного клиента только)
- сообщества в VK
- файлы с Яндекс.Диска, Облака Mail.ru и других онлайн дисков
- сайты Wordpress (у них есть такая опция с API)
- сайты Sharepoint (у них тоже есть такая опция с API)

Есть желание повысить качество архивации, в первую очередь по Telegram, VK и Яндекс.Диску, как самому критичному.

Для этого нужны утилиты командной строки которые можно регулярно запускать на сервере. Если у Вас есть опыт написания таких инструментов, Вам близка открытая разработка и есть немного времени, то помощь будет неоценима. А если хочется помочь, но нет возможности сделать это бесплатно - оцените сколько такая задача (любая из перечисленных) может стоить и возможно я смогу найти на это деньги.

Хочу попробовать найти разработчиков под такие инструменты таким анонсом, ну а если не получится, то устроим хакатон по цифровой архивации и наберем на него таких задачек;)

Ссылки:
[1] https://freelance.habr.com/tasks/402049
[2] https://github.com/ruarxive/ruarxive-research/issues
[3] https://ruarxive.org

#opendata #digitalpreservation #tools

2.3K viewsIvan Begtin, edited 15:02

Ivan Begtin

За начало границы муниципального района Волжский Самарской области принята точка, расположенная в юго-западном углу лесного квартала 21 Советского лесничества Кинельского лесхоза на развилке лесных дорог (точка 1 – пересечение границ муниципальных районов Волжский, Красноярский и Кинельский Самарской области), далее граница проходит смежно границе муниципального района Кинельский Самарской области в восточном направлении по южным границам лесных кварталов 21, 22 Советского лесничества Кинельского лесхоза до юго-восточного угла квартала 22 Советского лесничества Кинельского лесхоза (точка 12), в южном направлении на расстоянии 360 м, пересекая автодорогу, идущую от поселка городского типа Новосемейкино муниципального района Красноярский Самарской области до кольца автодороги, идущей от города Самары до города Отрадного, далее в западном направлении по северной границе лесного квартала 99 Советского лесничества Кинельского лесхоза...
—
Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].

Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.

Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/

#plainrussian #language #russian

3.6K viewsIvan Begtin, edited 07:40

Ivan Begtin

В России, почему-то, непринято хвалить проекты соседей по СНГ/постсоветскому пространству, а зря, не только им, но и нам есть чему поучиться.

Приведу в пример три проекта.

1. Карта преступности Казахстана
Ссылка: http://infopublic.pravstat.kz/crime/

Когда в Казахстане власти передали полномочия по регистрации преступлений прокуратуре республики то в скором времени в стране появился портал с криминальной статистикой и публикация сведения о преступлениях на карте. Сведения до конкретной точки, со всеми подробностями, по дате преступления, тяжести, улице, регистрационном номере и тд.

2. Портал PEP (Politically Exposed Persons) - политических персон Украины
Ссылка: https://pep.org.ua/en/

На Украине есть очень даже неплохо сделанный портал pep.org.ua с базой "PEP" лиц влияющих на политику, чиновников и лоббистов. Публичных персон одним словом. Не мне судить снижает ли это коррупцию в стране, это виднее самим её жителям, но то что открытость повышает это точно. В России только проект Декларатор Трансперенси Рус близок к такому проекту, но сейчас создать базу PEPов в России скорее будет сложно потому что для этого надо сводить очень много разных и больших источников данных.

3. Реестр конечных собственников в Армении
Ссылка: https://www.e-register.am/en/companies/1340197/declaration/c51e08a7-6fdb-4ab7-a55c-c74a68a8f54c

В Армении правительство начало публиковать сведений о конечных собственниках (Real Owners Declaration). Это расширение сведений в реестре юридических лиц сведениями о конечных бенефициарах компаний по стандарту Open Ownership.

#opendata #opengov

1.7K viewsIvan Begtin, 13:59

Ivan Begtin

Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.

Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).

Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.

Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.

А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.

А спектр задач работы с данными велик, каждый может найти роль под себя.

Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/

#data #datalibrians #datamanagement

iridl.ldeo.columbia.edu

IRI/LDEO Climate Data Library

The IRI Data Library is a powerful and freely accessible online data repository and analysis tool that allows a user to view, analyze, and download hundreds of terabytes of climate-related data through a standard web browser.

1.6K viewsIvan Begtin, 18:42

Ivan Begtin

Я напоминаю про проект Каталога каталогов данных datacatalogs.ru [1] недавно запущенный Инфокультурой.

Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.

Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.

Ссылки:
[1] https://datacatalogs.ru

#opendata #datacatalogs #catalogs #data #datasets

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.5K viewsIvan Begtin, 12:33

Ivan Begtin

image_2021-11-26_15-33-41.png

81.5 KB

image_2021-11-26_15-33-41.png

45.3 KB

image_2021-11-26_15-33-42.png

232 KB

1.4K viewsIvan Begtin, 12:33

Ivan Begtin

Для тех кто ищет особо крупные наборы данных для работы так чтобы побольше и посложнее напомню крупные источники общедоступных данных большого объёма.

- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников

О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets

Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/

#datasets #opendata

1.5K viewsIvan Begtin, 13:39

Ivan Begtin

Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.

Приведу примеры того в какой форме такое API бывает.

Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.

Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.

У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.

DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/

Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.

Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.me/begtin/3283, до сих пор удивляюсь этой истории.

Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.

Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.

#openapi #api #data #govwebsites

Портал Финансового университета

Финансовый университет при Правительстве Российской Федерации

Один из старейших российских вузов, готовящих экономистов, финансистов, юристов по финансовому праву, математиков, ИТ-специал...

1.4K viewsIvan Begtin, 08:54

Ivan Begtin

Forwarded from Инфокультура

В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана

Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.

Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—

Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datasets #datacatalogs

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.3K viewsIvan Begtin, 07:56

Ivan Begtin

По поводу Роснано я не могу не вспомнить о том как Минэкономразвития формировало Реестр некоммерческих организаций, в наибольшей степени пострадавших в условиях ухудшения ситуации в результате распространения новой коронавирусной инфекции [1] где сейчас перечисленно 15852 организации.

В том числе этот реестр обновляли в апреле 2021 года [2].

Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.

Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]

Так вот вопрос - кто войдет в этот реестр?

Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".

Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.

Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.

Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] http://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] http://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

#ngo #sonko #covid19

1.4K viewsIvan Begtin, 10:33

Ivan Begtin

На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.

Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.

Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.

В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.

Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.

Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] http://schnaader.info/precomp.php
[4] https://www.gdcc.tech/

#compression #algorithms

Хабр

Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)

Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата...

1.3K viewsIvan Begtin, 15:06

Ivan Begtin

В The Guardian колонка [1] Jeffrey Barrett о том что южноафриканские ученые опубликовавшие расшифровку штамма COVID-19 - Omicron являются героями.

Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.

Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.

И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.

Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it

#opendata #covid19

1.5K viewsIvan Begtin, edited 16:15

About

Blog

Apps

Platform