Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.82K photos

3 videos

101 files

4.53K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Минцифры подвело итоги аукциона на 873 млн. руб. по использованию Гостеха для ФФОМС. Электронный аукцион N 0173100007521000107 завершился победой [1] ООО "Облачные технологии" (входит в группу компаний Сбер). Собственно только их заявка и подавалась на этот аукцион [2].

На что стоит обратить внимание:
1. За чуть более 1 месяц 2021 года поставщик получит 86 млн. рублей. Это чуть менее 10% всей суммы и не вполне понятно за что потому что структура контракта поэтапно описана неподробно.
2. На портале госзакупок размещены неполные сведения о предмете закупок на 370 тысяч, а не на 873 млн. руб. Это как-то совсем вызывающе странно и позиции закупки не описаны.

А самый главный вопрос который я до сих пор не могу понять, так это если Сбер уже выбран оператором Гостех'а, то зачем конкурсы и аукционы? Почему не ед. исполнитель или почему вообще не создали АО по модели ГЧП и не дали ему прямую субсидию?

Ссылки:
[1] https://tinyurl.com/ye8hesex
[2] https://tinyurl.com/f6pjsku4

#spending #government #govtech

1.5K viewsIvan Begtin, 07:35

unesco_ai_etic_16-11-2021.pdf

В ЮНЕСКО приняли Проект Рекомендации об этических аспектах искусственного интеллекта [1]. Документ рамочный, с одной стороны, а с другой довольно четко дающий установки для мониторинга этического внедрения ИИ в странах. О его содержании я хочу написать отдельно и подробно большой лонгрид, а пока обращу внимание на пункт: Прозрачность и объяснимость.

На 13 странице рекомендаций очень недвусмысленно написано о праве на оспаривание решений ИИ, о необходимости аудита и мониторинга, о необходимости контроля соответствия. Эти вопросы можно задавать уже сейчас всем тем кто активно декларирует применение ИИ в чувствительных областях. Соответствуют ли их системы рекомендациям ЮНЕСКО? Что делается обеспечения права гражданина на оспаривание решений ИИ? Какие механизмы правовой защиты предусмотрены? И многое другое.

Спасибо коллегам из @DigitalRightsCenter [2] за наводку

Ссылки:
[1] https://www.unesco.org/en/general-conference/41/commissions/shs
[2] https://t.me/DigitalRightsCenter

#ai #ethics #regulation #un

1.5K viewsIvan Begtin, 08:47

Forwarded from ministryofpoems

Правительство XXX рассматривает вопрос предоставления IQ-кодов людям с высоким уровнем IQ – успешно сдавшим тест на коэффициент интеллекта. Сдавшие тест получат право свободного передвижения на общественном транспорте, поездах и самолетами.
...
Правительство XXX приняло постановление о снижении обязательной сдачи крови с 3х до 2.5 литров ежемесячно для физических лиц и с 30 до 27 литров для юридических лиц. Эти правила распространяются только для тех кто воспользовался новой программой мониторинга качества крови и установил ее на свой телефон. Эти и другие меры были закреплены в программе инициатив снижения повышения эффективности налогового администрирования.
...
Правительство XXX приняло постановление о 50% компенсации владельцам ИИ призванных на военную службу. Эти выплаты будут осуществляться из резервного фонда компенсации потери кормильцев. Напомним, что в весеннюю призывную кампанию было призвано 5641 роботов пылесосов, 10673 умных колонок и 297 умных домашних помощников. Совокупная расчетная мощность в 2 петафлопса была направлена на военные и гражданские проекты нашей страны.
...
Правительство XXX озвучило планы строительства 4х метавселенных комбинированного типа. Эксперименты будут проводится на базе Госкорпорации Исполнения наказания, Министерства принудительного образования, Федеральной службы поддержания жизни и Министерства координации противодействия пандемиям.
...
Правительство XXX поддержало позицию экспертов рекомендовавших введение обязательного лицензирования виртуального строительства и производства в метавселенных Minecraft. В то же время вопрос саморегулирования все еще обсуждается в профильной комиссии.

1.4K viewsIvan Begtin, 10:29

Я регулярно рассказываю о том что веду реестр государственных доменов для архивации госсайтов. Доменов там сейчас более 7700 привязанных к 215 "корневым" доменам. Например, многие учреждения имеют поддомены в доменных зонах mvd.ru, sudrf.ru, msudrf.ru и других, а в "корневом" домене .gov.ru всего 977 доменов и их поддоменов с веб-сайтами. На самом деле этот список куда больше, потому что есть более 50 тысяч госучреждений и их сайты рассеяны по всем доменным зонам, но, с другой стороны, для архивационных целей они мне не очень то и нужны.

Много лет мне кажется что про госсайты я знал/знаю не то чтобы всё, но многое. Слишком уж часто приходится читать регуляторные материалы, изучать информационные системы и так далее. Но вот недавно обнаружил что совсем не всё. Оказывается в 2018-2019 годах ФСО России наплодило множество порталов с доменными именами pravo01.gov.ru, pravo02.gov.ru, ... и так далее. Как вы уже догадались - это сайты с кодом региона и по региональной тематике. Вдруг там что-то интересное? Хотелось бы, но нет. Эти сайты - это сайты визитки к порталу правовой информации pravo.gov.ru. Технологически они сделаны каким-то совершенно древним образом на старой версии CMS Joomla с отличиями только в виде новостной ленты, всё остальное практически идентично и контента там практически ноль. Ссылок на эти порталы на других ресурсах также практически нет, лично я нашёл их случайно.

Вердикт - архивировать там нечего по содержанию. Остаётся только один вопрос как и в рамках какого госпроекта такое вообще могли сделать ? Они ведь обновляются, в том смысле что новости там публикуются, значит кто-то тратит время, хотя и очень небольшое, на то чтобы новости там писать. Но об этих сайтах никто не знает, на них нет ссылок даже на pravo.gov.ru, за исключением портала созданного для Приморского края [1].

Другая, уже не курьёзная, а интересная-интересность - это, оказывается, ДИТ Москвы когда-то создали каталог API apistore.mos.ru [2] где есть прототипы 15 API, но как-то они уже 2019 года не обновлялись и непонятно работает ли. Любопытно что вместо инвентаризации систем с API они пошли по пути создания новых (или прокси для имеющихся), но, всё равно без инвентаризации существующих API которых у информационных систем города Москвы довольно много.

Например, API инсталляции ArcGIS [3] на сайте apieatlas.mos.ru или, также, API к ArcGIS [4] на портале КИС Санкт-Петербурга и таких инсталляций у региональных и муниципальных властей в России от десятков до сотен, сколько всего никто не знает. Откуда это API? Оно является неотъемлимой частью каждой установки ArcGIS и есть много других продуктов где также есть открытые API по умолчанию.

В США похожая история, нет единого госкаталога геоAPI и один активист собирает гигантский PDF файл с каталогом [5] из 3500+ API к ArcGIS.

От себя могу добавить и повториться что API ко многим госсистемам - это важный источник наполнения нашего каталога данных Datacrafter [6]. А о том как автоматически собирать данные из API я регулярно рассказываю на конференциях.

Ссылки:
[1] http://pravo.gov.ru/news/o_prezentatsii_internet_sayta_pravovoy_informatsii_primorskogo_kraya_090618/
[2] https://apistore.mos.ru
[3] http://apieatlas.mos.ru/arcgis/rest/services
[4] http://gis.toris.kis.gov.spb.ru/arccod1031/rest/services/
[5] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[6] https://data.apicrafter.ru

#opendata #api #archives #govdomains

GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…

Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains

1.6K viewsIvan Begtin, 06:18

Тем временем на сайте Росреестра новость [1] о том что Правительство Российской Федерации разработало проект закона «О публично-правовой компании «Роскадастр». Текст законопроекта пока что не видать, но что можно узнать из текста на сайте Росреестра так это то что это будет первая ППК связанная с государственными данными. И, внебюджетом, поскольку в одну ППК объединяются фактически подведы Росреестры оказывавшие услуги и работы для Росреестра, бизнеса и граждан.

Звучит это в новости Росреестра вот так Объединение четырёх организаций в публично-правовую компанию будет способствовать реализации ключевых проектов отрасли, в том числе созданию «Национальной системы пространственных данных» (НСПД), которая распоряжением Правительства РФ включена в перечень инициатив социально-экономического развития РФ до 2030 года.

Хорошо это или плохо? Надо читать законопроект когда он появится. Что я могу сказать точно так то что уровень открытости Госкорпораций и ППК заведомо ниже чем у госорганов или бюджетных учреждений.

Как это ППК будет регулироваться? Какие услуги будет оказывать ? Вопросов довольно много, на самом деле. Но, ещё раз подчеркну, важно то что это госкомпания про данные. Заметны отличия госполитики в области госинформатизации. Например, Гостех создаётся как ГКУ, а инфраструктура НСПД на базе ППК. В чём принципиальные отличия разного регулирования в схожих областях? Вот в чём вопрос.

Ссылки:
[1] https://rosreestr.gov.ru/press/archive/pravitelstvo-rf-odobrilo-zakonoproekt-o-sozdanii-publichno-pravovoy-kompanii-roskadastr/

#government #regulation #data #geodata

1.5K viewsIvan Begtin, edited 16:16

OpenAI, разработчики языковой модели GPT-3 о которой так много писали и пишут и которую активно используют в многочисленных демо проектах и экспериментах основанных на понимании языка, убрали лист ожидания к своему API [1] для списка поддерживаемых или стран. Это хорошая новость. Плохая новость в том что России в этом списке стран нет [2]. Вернее даже что из всего постсоветского пространства там нет России, Украины, Киргизстана, Таджикистана, Туркменистана и Беларуси, но есть Казахстан и Армения, к примеру. Китая, кстати, тоже нет в списке.

Чем вызван такой выбор стран непонятно.

Ссылки:
[1] https://openai.com/blog/api-no-waitlist/
[2] https://beta.openai.com/docs/supported-countries

#ai #openapi #openai

OpenAI’s API now available with no waitlist

Wider availability made possible by safety progress.

1.5K viewsIvan Begtin, 06:57

Интересные стартапы декларирующие использование ИИ и основанные на данных.

Grammarly [1] стартап по улучшению ткстов на английском языке привлёк финансирование в $200 миллионов долларов на развитие своих продуктов. Я ранее писал о их конкуренте Writer [2], так вот Grammarly идут тем же путём, автоматизируя создание маркетинговых текстов, текстов для рекламы и корпоративных текстов в определённом стиле.
У Grammarly и Writer много конкурентов, таких как Ginger, ProWritingAid, and Slick Writ и ещё многих других. Это большой и, как видно, развивающийся рынок. При этом видно что для других языков стартапы и сервисы в этой области всё ещё довольно маргинальны и, возможно, за пределы англосферы они маштабироваться будут нескоро.

BlackShark [3] стартап по созданию цифрового двойника... Земли. Пишут что они реконструируют поверхность земли на основе спутниковых снимков и умеют определять дома, самолеты и многое другое создавая фотореалистичные 3D модели. В ноябре они привлекли $20 миллионов долларов финансирования, а ранее получили мега-грант от компании Epic (разработчиков игрового движка Unreal Engine).

Ссылки:
[1] https://venturebeat.com/2021/11/17/grammarly-ai-writing-suggestions-startup-raises-200m-at-13b-valuation/
[2] https://t.me/begtin/3259
[3] https://blackshark.ai/news/#:~:text=Blackshark.ai%20Announces%20%2420M%20Round%20of%20Funding

#ai #ventures

Grammarly raises $200M to expand its AI-powered writing suggestions platform

Grammarly, a startup developing an AI-powered writing aid, has raised $200 million in venture capital, valuing it at $13 billion.

1.4K viewsIvan Begtin, 07:19

Городской совет города Нью Йорка обязал проводить обязательный "аудит на предубеждённость" (bias audit) для всех систем ИИ используемых в рекрутинге. Законопроект был внесён в 27 февраля 2020 года и принят городским советом 10 ноября 2021 года [1]. The Protocol пишет [2] что после того как он будет подписан, то с 1 января 2023 года он вступит в силу и за его нарушение предполагается гражданская ответственность.

Ссылки:
[1] https://legistar.council.nyc.gov/LegislationDetail.aspx?ID=4344524&GUID=B051915D-A9AC-451E-81F8-6596032FA3F9&Options=&Search=
[2] https://www.protocol.com/bulletins/nyc-ai-hiring-tools

#ai #ethics #audit #usa

legistar.council.nyc.gov

The New York City Council - File #: Int 1894-2020

Title: A Local Law to amend the administrative code of the city of New York, in relation to automated employment decision tools

1.7K viewsIvan Begtin, 14:28

Census Mapper - проект по визуализации переписи США 2020 года [1], позволяет узнать подробные данные и изменения в расовом составе по каждому отдельному графству (аналог российского муниципалитета). Проект создавался Big Local News и Pitch Interactive за счёт гранта Google News Initiative.

Проект наглядный, не первый такой в мире, мне в вспоминается что в прошлом разного рода похожие проекты были в Канаде и Австралии, но это не отменяет самого факта возможности наглядной визуализации переписи.

Ссылки:
[1] https://censusmapper.biglocalnews.org

#opendata #infographics #datajournalism

censusmapper.biglocalnews.org

Census Mapper 2020

Pitch Interactive and Big Local News as part of the 2020 Census Co-op (supported by the Google News Initiative) have partnered to share an embeddable map that displays Census data at the national level, states, counties, places and census tracts. The Census…

1.5K viewsIvan Begtin, 15:24

Полезное чтение для тех кто изучает политические эффекты использования искусственного интеллекта. В статье AI-tocracy [1], авторы Martin Beraja, Andrew Kao, David Y. Yang & Noam Yuchtman изучают зависимость между политической нестабильностью и закупками решений на базе ИИ автократическими правительствами. В фокусе, ожидаемо, Китай и с некоторыми упоминаниями России. Основной тезис который подтверждают авторы в том что государства начинают закупать ИИ в периоды социальной нестабильности и что проблемы нестабильности эти закупки не решают, хотя и расширяют и усиливают уже имеющиеся инструменты политического и социального подавления.

Статья на английском, полезная собственным анализом, большим числом примеров в приложениях и ссылками на работы в этой и близких областях.

Если перевести смысл статьи на разговорный язык, то чем чаще говорят о ИИ, тем больше государство использует ИИ для подавления политической нестабильности.

Ссылки:
[1] https://www.nber.org/papers/w29466

#ai #government #papers

1.5K viewsIvan Begtin, 16:10

Новости цифровой архивации

1. Архивы Мемориала
Я закончил архивацию общедоступных материалов мемориала в веб-архив. Это, в общей сложности, 67 сайтов объёмом в 67 гигабайт. Полный перечень можно посмотреть по ссылке [1] осталось сохранить их на сервер. После чего материалы будут доступны вначале по запросу, а далее в открытом доступе для всех желающих, в форматах WARC.

Не архивировались соцсети, сайты где используется Ajax/API потому что веб-краулеры их не понимают, а соцсети надо ещё собрать.

Готов передать их самим Мемориаловцам, если им нужны веб-архивы их сайтов и готов буду сохранить в нашем цифровом архиве любые данные которые они готовы будут отдать. Сам я давно с ними не общался, с кем там говорить не знаю.

При том что у Мемориала, понятно, что есть большое сообщество и высокая вероятность что их архивы не исчезнут, но в таких ситуациях в зоне риска всегда что-то есть, особенно старые сайты на старых не обновлявшихся технологиях.

2. Архив Роснано

Судя по новостям [2] Роснано в предбанкротном состоянии. С точки зрения полит-экономики об этом кто-то ещё напишет, я напишу о том что Роснано много чего контентного финансировало и много какие ресурсы могут исчезнуть. Поэтому надо начинать кампанию по поиску контента Роснано для архивации и запуску архивации их онлайн ресурсов.

Если есть идеи с чего начать или может быть кто-то собирал информацию по их онлайн ресурсам, напишите мне, всё будет подвергнуто архивации.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1p6WZ975dW2CesFApFduRvjFJnOdb8hdXSI-VG41VsQg/edit?usp=sharing
[2] https://www.rusnano.com/news/20211119-rosnano-obyavlyaet-o-provedenii-vstrechi-s-kreditorami-i-krupnymi-derzhatelyami-obligatsiy/

#webarchives #archives #digitalpreservation

Мемориал 2021

перечень

name,url,resource_type,reason,reason_url,priority,strategy,tools,format,status
<a href="http://1937.memo.ru">1937.memo.ru</a>,сайт проекта,Требование Генпрокуратуры РФ ликвидировать Международный Мемориал,высокий,стандартная веб архивация,wpull…

1.4K viewsIvan Begtin, 16:26

Почему открытые данные это прежде всего культура и институциональные требования и во уже вторую очередь - это технологии? Я ранее рассказывал как открытые данные в науке существуют в биоинформатике [1] и что они появляются в этой части науки в России потому что она является частью мировой науки где принципы открытости укоренились ранее.

В качестве примера, проект Роснано "Цифровое моделирование новых материалов" [2]. Там много всего разного в ней упомянуто, но лично меня интересует не мероприятия, новости и весь остальной контент, а раздел "Базы данных" [3]. Там много ссылок на отечественные базы данных (26 штук) и зарубежные (82 штуки). Так вот как думаете в чём главное отличие российских баз данных от зарубежных?

Все российские базы данных не дают возможности экспорта базы данных целиком, ни одна не опубликована под свободной лицензией или её аналогом допускающим свободное использование и большая их часть закрыты логином-паролем. При том что почти все они, как и большая часть зарубежных баз данных, созданы за бюджетное финансирование. Но разница в том что там где органы финансирующие науку понимают необходимость финансирования открытых баз данных, вводят такие требования и требуют от учёных полной доступности того что создано за счёт государственных грантов - там данные всегда доступны.

Поэтому, безусловно, открытость данных это вопрос культуры работы с данными у тех кто их создаёт, востребованности результатов основанных на этих данных и, самое главное, вопрос институциональных требований от тех кто даёт средства на подобные проекты. Пока грантодающие организации, а в России это все организации финансирующие НИРы, не примут открытость как данность, то и обмен данными между исследовательскими коллективами будет в том состоянии что он находится сейчас.

Ссылки:
[1] https://t.me/begtin/3252
[2] https://rusnano-dmm.ru
[3] https://rusnano-dmm.ru/databases

#opendata #data #openaccess

В рубрике данные о России, не в России и в России, каталог открытых наборов данных о биоразнообразии GBIF Global Biodiversity Information Facility [1]. В каталоге более 63 тысяч наборов данных посвящённых таксономии живых существ и из них 548 наборов данных…

1.5K viewsIvan Begtin, 18:29

К вопросу о Роснано, я поздно спохватился и не считал сигнал ухода Чубайса к тому что материалы корпорации начнут исчезать из открытого доступа. Вот два скриншота.

Один с действующего сайта rosnano.com [1], а второй версии сайта от 27 ноября 2019 года из веб архива[2]. Обратите внимание что в новой версии исчезла почти вся информация о деятельности госкорпорации. Там остались только новости, закупки и раскрытие сведения как ПАО. Иначе говоря только _обязательные_ сведения и ничего более. А всё что касается спецпроектов, проектов, дочерних компаний и так далее благополучно исчезло с нового сайта.

Опять же вопросы экономические, политические и тд. найдется кому отразить, меня волнует вопрос цифровой архивации их контента, а получается что на сайте госкомпании теперь даже нет сведений о созданных ими компаниях, сайтах, проектах и искать их надо иным образом.

Ссылки:
[1] https://www.rosnano.com
[2] https://web.archive.org/web/20191127165310/https://www.rusnano.com/

#webarchives #digitalpreservation

1.5K viewsIvan Begtin, 09:08

Вдогонку к предыдущей новости про архивацию цифровых ресурсов Роснано [1]

Похоже что совершенно неслучайно сайт Роснано руководство организации "выпилило" из поисковых систем. Поиск в Google [2] выдает лишь одну страницу потому что в robots.txt сайта [3] указан явный запрет на индексирование.

Даже не знаю что сказать кроме как процитировать дракона из пьесы Шварца "Дракон" (фильм - "Убить Дракона").
Папа всегда говорил:"Уничтожай архивы!" [4]

Ссылки:
[1] https://t.me/begtin/3280
[2] https://www.google.com/search?q=site:rosnano.com
[3] https://www.rusnano.com/robots.txt
[4] https://www.youtube.com/watch?v=Mp5LIAoKLx8

#archives #webarchives #digitalpreservation

К вопросу о Роснано, я поздно спохватился и не считал сигнал ухода Чубайса к тому что материалы корпорации начнут исчезать из открытого доступа. Вот два скриншота.

Один с действующего сайта rosnano.com [1], а второй версии сайта от 27 ноября 2019 года…

1.5K viewsIvan Begtin, 09:28

Если предыдущая история про "выпиливание" сайта из поисковых систем была про целенаправленные действия в Роснано [1], то вот ещё один пример - Федеральная пробирная палата. Учреждена указом Президента РФ в октябре 2019 года [2], в марте 2020 года [3] было принято постановление Правительства РФ с утвержденным положением.

По статусу организация соответствует ФОИВу в подчинении Минфину России. Правда, это очень странный ФОИВ, созданный на базе казённого учреждения и с закупками больше похожими на закупки казённого учреждения. Например, лазерные комплексы для нанесения оттисков государственных пробирных клейм [4] и многое другое. Общепринято что ФОИВы отвечают за госполитику в какой-то области, а не ведут собственную хозяйственную деятельность, а тут получается что создали отдельную службу, можно было с таким же успехом создать публично-правовую компанию и тд. Впрочем это лирическое отступление, вернемся к информации о них.

У Федеральной пробирной палаты есть сайт probpalata.ru [4] который очень похож на сайт органа власти, по всем признакам, но... барабанная дробь, на самом деле это часть системы документооборота. За всё время существования пробирной палаты руководство заключило лишь один ИТ договор с ООО Диасофт на 37 миллионов рублей [6] именно на создание системы электронного документоборота. Видно что сайт - это лишь "хвост" системы Directum. Видно и по меткам в коде страниц, и по оставшемуся домену directum.probpalata.ru [7]. А самое главное, видно по тому что сайт не соответствует 8-ФЗ, прям хоть в надзорный орган (прокуратуру) пиши обращение и не индексируется поисковыми системами, а если индексируется то с нюансами. Почему так?

Потому что страницы отдаются через API в зашифрованном виде и их рендеринг происходит в браузере пользователя. Типовая страница загружается через API запрос подобный этому [8], а в HTML отдаётся только меню и структура сайта.
В итоге в Google всего 19 страниц [9] проиндексировано, а в Яндекс около 650 [10], но это с учётом всех "технических" поддоменов директума и можно обратить внимание что на страницах проиндексирован не контент, а заголовок и футер.

Это всё к вопросу о том что делать органам власти которые очень хотят скрывать данные о себе, но не знают как. Вот тут +1 трюк и не обязательно вводить каптчу и иные органичения, можно просто шифровать каждую страницу.

Причём, причины, почему в Директуме так устроено я даже могу предположить - это внутрикорпоративная непубличная система не предназначенная для того чтобы быть общедоступной и индексируемой. А вот почему Федеральная пробирная палата так делает - скорее всего от технической и технологической неграмотности ответственных там лиц.

А это ещё и заодно один из многочисленных примеров того о чём я говоря как о недокументированных API предоставляемых госорганами на своих сайтах и в государственных информационных системах. Таких случаев много, такие случаи не редкость.

Ссылки:
[1] https://t.me/begtin/3282
[2] https://rg.ru/2019/10/28/putin-sozdal-federalnuiu-probirnuiu-palatu.html
[3] http://government.ru/docs/all/126873/
[4] https://spending.gov.ru/goscontracts/customers/01954000006/
[5] https://www.probpalata.ru
[6] https://spending.gov.ru/goscontracts/contracts/1970301161220000021/
[7] https://directum.probpalata.ru/
[8] https://probpalata.ru/webmvc/getarticle?PortalID=2001&SysName=main&Locale=RU
[9] https://www.google.com/search?hl=ru&q=site%3Awww.probpalata.ru
[10] https://yandex.ru/search/?text=site%3Awww.probpalata.ru&lr=11481

#opendata #opengov #websites

site:www.probpalata.ru

Найдётся всё

2.0K viewsIvan Begtin, 10:22

CNews сегодня написали про сайт Роснано и исчезновение материалов с их сайта, они на меня ссылку не дают, так что я на них тоже ссылку не дам. Важнее то что им прокомментировали представители компании о том что плановая замена сайта Роснано была в августе-сентябре 2021 года и что "информация об активах «Роснано» присутствует непосредственно на сайтах портфельных компаний".

Я всё думаю как это прокомментировать, ну начну с того что перечень портфельных компаний Роснано тоже исчез с их сайта;) А то есть найти информацию об их активах стало ещё сложнее. Это, как бы раз.

С нового сайта Роснано начисто исчезли сведения об органах управления и управляющей компании ООО "УК Роснано", при том что эти сведения были ещё в июне на их предыдущем сайте [1], да и проекты ещё были доступны в июне [2]. А Это два.

Я всё это к тому что у Роснано всегда было достаточно ресурсов чтобы сохранить старый сайт под доменом типа old.rusnano.com, но вместо этого его просто снесли так что даже информации о руководстве нет. Странно что инвесторы на Мосбирже всполошились только вот-вот.

Ссылки:
[1] https://web.archive.org/web/20210613155819/https://www.rusnano.com/about/structure
[2] https://web.archive.org/web/20210506045809/https://www.rusnano.com/projects/portfolio

#webarchives #archives #digitalpreservation

web.archive.org

Структура РОСНАНО и органы управления

Деятельность компании Группы РОСНАНО - инвестирование в нанотехнологии и нанопроизводство, развитие наноиндустрии в России, инфраструктурная поддержка.

1.6K viewsIvan Begtin, 15:11

В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech

Release OpenRefine v3.5.0 · OpenRefine/OpenRefine

This is the first stable release of the 3.5 series. Please backup your workspace directory before installing and report any problems that you encounter.
New features

Wikidata support has been gene...

1.5K viewsIvan Begtin, 18:51

Я, к сожалению, в это время буду читать лекцию про управление основанное на данных и большие данные в госуправлении, но свои вопросы Максуту Шадаеву передал. И хотя я и склонен кидаться в адрес Минцифры окаменелостями, но, если смотреть объективно, есть как хорошее в деятельности Министерства так и не очень.

Из хорошего:
+ поддержка open source (давно пора)
+ худо/бедно работающие госуслуги
+ Гостех как идеология (идёт криво и косо и странно иногда, но сама идея имеет долгосрочное разумное зерно)
+ начало инвентаризации государственного ИТ бардака

Из плохого
- слабая регуляторная позиция (много ляпов в законопроектах)
- усиление регулирования в части госслежки (как минимум непрепятствование усиления)
- отсутствие вопросов открытости данных и приватности в рабочей повестке не только Минцифры, но и Пр-ва в целом.

Поэтому будет интересно потом послушать ответы, ну и Тадвайзер молодцы, конечно.

#events #comments #questions

1.3K viewsIvan Begtin, 06:13