Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Дмитрий Скугаревский из Европейского университета опубликовал в Рюмочной ИПП [1] результаты анализа полноты данных в ЕГРЮЛ, надеюсь он и его коллеги выложат в будущем результаты в виде статьи или иной завершённой работы с кодом и данными. От себя прокомментирую что коллеги охватили период до 1 января и анализировали полноту заполнения сведений.

Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.

Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.

#opendata #data #registries #ngos
Хорошая новость в том что Минцифры наконец-то начали чистить/приводить в порядок реестр отечественного ПО и опубликовали перечень правообладателей с нерелевантными сведениями [1] с призывом им зайти и обновить о себе информацию. Как сторонник повышения качества госданных лично я очень поддерживаю эту идею, все бы реестры можно было так почистить.

Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.

А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.

Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.

А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat

Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/

#registries #it #digital
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.

А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.

С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.

Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].

И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.

Потеснят ли они Google? Будет интересно на это посмотреть

Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com

#privacy #search
Недавно я писал про различные онлайн сервисы которые в мире создаются G2G, органами власти для органов власти. Один из них - мониторинга безопасности и качества создания веб-сайтов Pulse когда-то был создан в США командой 18f и был доступен по адресу pulse.cio.gov (сейчас переадресует), а с приходом в Белый дом команды Трампа он был переименован в DigitalDashboard.gov и теперь доступен только после авторизации.

Исходный код Pulse был открыт с 2015 года, он открыт и сейчас, но уже заархивирован и не обновляется с 2019 г. За это время многие органы власти и активисты форкали репозиторий pulse и создавали его клоны для доменов госорганов своих стран. К примеру, https-norge по норвежским госсайтам, pulse.openstate.eu по сайтам органов власти Нидерландов, https.jetzt по сайтам правительства и земель Германии. На этих сайтах можно посмотреть как этот сервис выглядит.

Похожие продукты создавались и создаются в других странах. В Канаде под аналогичным названием Pulse работает закрытая система мониторинга HTTPS для госинфраструктуры.

#privacy #security #govdomains #tls #dnssec
Наши друзья и партнёры Инфокультуры - Центр цифровых прав проводят регулярные курсы по обучению юристов цифровому праву.
Forwarded from DRC LAW: IT-юристы
​​Интенсив для юристов по цифровому праву с 29 ноября по 3 декабря

Сегодня закон пытается догнать стремительно уходящие вперед технологии. Вопросы регулирования криптовалют, доменные споры, авторское право и реклама в интернете. Для современного юриста разобраться в этих вопросах значит обеспечить себе базу знаний, которые помогут быть востребованным специалистом как в современных реалиях и в будущем.

🎓 С 29 ноября по 3 декабря 2021 года пройдет пятидневный интенсив по современному российскому и международному законодательству CyberLaw School, разработанный специально для in-house и частнопрактикующих юристов, адвокатов и специалистов консалтинговых компаний.

Программа обучения будет состоять из 7 модулей:

1. Intermediaries & ISP
2. Tax & Ad
3. IP & Copyright & Domains
4. Big Data & AI
5. Privacy & Security
6. Forensic
7. Digital assets & crypto/blockchain

5 дней, 11 экспертов, 7 модулей, 45 академических часов актуального материала от лучших практикующих экспертов. Не только теория, но и разбор кейсов из реальной практики. По итогам обучения выдается удостоверение о повышении квалификации. Ознакомиться с программой и подробнее узнать о наших тренерах можно на сайте https://cyberlaw.center/.

Наш курс прошли юристы из таких организаций, как: Universal Music Group, АО «Мерседес-Бенц РУС», ПАО Сбербанк, Финансовая группа БКС, АО «Тинькофф Банк» и многие другие.

Для вашего удобства мы предлагаем опционально и дистанционное участие в обучении. Таким образом вы можете выстроить свой персональный график очного/заочного посещения занятий.

📆 Старт программы уже 29 ноября. Количество мест ограничено. Успейте записаться на обучение у экспертов в области цифрового права. Будет непросто и интересно.

👉 Регистрируйтесь по ссылке: https://clck.ru/YjuaL
В Север.Реалии статья о реалиях прохождения переписи населения, "Цена таким данным нулевая". Фальсификации при переписи населения [1], на ту же темы в Deutsche Welle Всероссийская перепись населения: чем опасна фальсификация данных [2] и выступление Натальи Зубаревич на Эхо Москвы [3].

Перепись у нас в стране очень политизирована, в ней выражается многое, и замороженные национальные конфликты [4] и общей уровень недоверия государству граждан и ещё много чего.

Но в чем права Наталья Зубаревич и экономисты и демографы так в том что данные переписи необходимы, насколько возможно качественные, насколько возможно подробные, насколько возможно локализованные, но анонимизированные. Да, государство и так владеет базами данных о граждан в виде данных в ФНС, в Пенсионном фонде, в ФСС, в ФОМС, а также базы данных SIM карт и передвижения есть у сотовых операторов и ещё у ряда коммерческиз и государственных структур есть разной степени актуальности, полноты и достоверности базы данных.

Перепись - это один из немногих дата-продуктов государства который хотя бы частично предоставляется исследователям, бизнесу и самим гражданам в виде аналитики, официальной статистики и иных срезов данных.

Поэтому то что граждане не доверяют переписчикам, то перепись охватывает не всё, это, конечно, скорее трагедия для всех кто потом эти данные будет использовать при принятии решений и мне не хочется злорадствовать в стиле "опять ничего не получается". Да лучше бы получалось и лучше бы в российские данные были доступны с раскрытием до муниципалитета и переписного участка, например, как в Австралии [5] или США и в других странах доступны данных до уровне блока (block level).

Ссылки:
[1] https://www.severreal.org/a/tsena-takim-dannym-nulevaya-falsifikatsii-pri-perepisi-naseleniya/31557044.html
[2] https://www.dw.com/ru/perepis-naselenija-rossii-chem-opasna-falsifikacija-dannyh/a-59801766?maca=rus-yandex_new_politics_mm-9641-xml
[3] https://echo.msk.ru/programs/personalno/2926988-echo/
[4] https://kazan.mk.ru/social/2021/11/11/ilnar-garifullin-po-tatarskim-rayonam-bashkortostana-ezdyat-bashkirskie-agitbrigady.html
[5] https://www.abs.gov.au/census/find-census-data

#opendata #data #census
В рубрике международные каталоги данных Pacific Data Hub [1] каталог данных Тихоокеанского содружества (Pacific Community) [2] объединяющего тихоокеанские островные государства при ассоциированном партнерстве с Новой Зеландией и Австралией.

В каталоге 1126 наборов данных, большая часть данных в простых CSV форматах, почти все данные статистические, кроме того в рамках каталога существует ещё один каталог микроданных [3].

Многие межгосударственные организации сейчас создают свои порталы открытых данных и программы обмена данными. Например, ESA Data Hub [4] портал открытых данных Европейского космического агентства, UNFCCC Climate Finance Data Portal портал данных ООН по финансированию программ изменения климата [5], портал данных по миграции [6], хаб открытых статданных COMESA [7] и ещё десятки порталов структур ООН, Мирового банка, объединений стран и так далее.

Международных инициатив по открытости данных всё больше, большая их часть начинается именно с порталов открытых данных.

Ссылки:
[1] https://pacificdata.org
[2] https://www.spc.int
[3] https://microdata.pacificdata.org/index.php/home
[4] https://climate.esa.int/en/odp/#/dashboard
[5] https://unfccc.int/climatefinance?home
[6] https://www.migrationdataportal.org/
[7] https://comstat.comesa.int/

#opendata #data #datacatalogs
В рубрике данные о России, не в России и в России, каталог открытых наборов данных о биоразнообразии GBIF Global Biodiversity Information Facility [1]. В каталоге более 63 тысяч наборов данных посвящённых таксономии живых существ и из них 548 наборов данных опубликовано из Российской Федерации [2], например, Национальный банк-депозитарий живых систем при МГУ [3] и многие другие.

Если быть точным, то у GBIF есть сообщество и в России [4] посвящённое оцифровке коллекций, правильному ведению метаданных, принципам FAIR и многое, а также о том как пишутся статьи на данных [5].

Здесь надо сказать что в России, возможно как и во многих других странах, внедрение практики открытости науки и открытости данных в науке продолжается там где есть живая наука интегрированная в мировую. Там где она есть там есть и принципы FAIR, и интеграция с большими международными каталогами данных и многое другое что является просто естественным развитием исследовательской деятельности.

При этом в России постепенно появляются руководства по управлению исследовательскими данными. Они есть, как минимум в виде рекомендаций [6] в ГПНТБ СО РАН и в Офисе управления исследовательскими данными СибГМУ [7], но нет ничего на уровне инициатив Минобрнауки или РНФ или иных финансирующих отечественную науку организаций.

Ссылки:
[1] https://www.gbif.org/
[2] https://www.gbif.org/dataset/search?publishing_country=RU
[3] https://plant.depo.msu.ru/
[4] http://gbif.ru/
[5] http://gbif.ru/datapaper
[6] http://www.spsl.nsc.ru/naukresursy-i-uslugi-gpntb-so-ran-dlya-nauki-i-biznesae-i-biznesu/rdm/
[7] https://ssmu.ru/ru/nauka/databank/

#opendata #openscience #openaccess #FAIR
Чуть меньше чем год назад я писал о реформе институтов развития в нашей стране о том что главное при любоей реформе - это сохранять архивы [1] Потому что помните как в пьесе Шварца "Дракон" и фильме по мотивам пьесы "Убить дракона" главный антагонист говорил "Папа всегда говорил: Уничтожай архивы!" [2]

Тогда было заархивировано 54 веб-сайта организаций институтов развития и сайты их проектов.
Что произошло за это время.
Более недоступны следующие сайты:
- www.investvostok.ru (Агентство дальнего востока по привлечению инвестиций) - организация ликвидируется
- www.madeinrussia.com (Проект Сделано в России) - выдаёт ошибку 500, возможно временно
- grant.rfbr.ru (Система Грант-экспоесс РФФИ) - сайт более не открывается
- monitoring.russez.ru (Камеры РосОЭЗ) - сайт более не открывается
- sprgm.ru (Гранты РНФ на реализацию комплексных научных программ организаций) - домен потерян, теперь продается

Скорее всего скоро исчезнут:
- hcfe.ru (Агентство по развитию человеческого капитала на Дальнем Востоке) - организация ликвидируется

Итого 5 сайтов исчезло и ещё один скорее всего исчезнет. Полный список можно посмотреть тут [3] Сохранило ли ликвидированные сайты Пр-во при реформе или головная организация ВЭБ.РФ ? Нет, конечно. Единственный государственный институт России сохраняющий сайты поглощённых им структур с 2003 года - это ЦБ РФ [4].

Нами все сайты институтов развития сохранены на конец декабря 2020 года в Национальный цифровой архив [5] и доступны всем желающим работать с ними в исследовательских целях.

Ссылки:
[1] https://t.me/begtin/2464
[2] https://www.youtube.com/watch?v=Mp5LIAoKLx8
[3] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing
[4] http://cbr.ru/archive/archive_fkcb/
[5] https://ruarxive.org

#webarchival #digitalpreservation #archives
К вопросу о приватности приложений по отслеживанию заболевших COVID-19, в сентябре U.S. Government Accountability Office (GAO), орган высшего парламентского аудита США, в каких-то функциях аналог российской Счетной палаты. Они выпустили доклад Exposure Notification: Benefits and Challenges of Smartphone Applications to Augment Contact Tracing [1] с анализом того какие приложения создавались властями штатов США и какие основные проблемы с ними возникали.

Весь ключевой акцент на приватности, безопасности и технических ограничениях этих приложений. И, в принципе, это хорошо составленный доклад с объяснением того как может осуществляться парламентский контроль и надзор за технологическими инструментами в подобных ситуациях.

Здесь надо оговориться что GAO в США часто выступает в роли мозгового центра. Увы, в России его аналога нет и неизвестно кто такой анализ может проделать.

Ссылки:
[1] https://www.gao.gov/products/gao-21-104622
[2] https://www.gao.gov/assets/gao-21-104622.pdf

#privacy #covid19 #gao #usa
У коалиции по цифровым архивам (Digital Preservation Coalition, DPC) с 2017 года публикуется перечень "видов информации под угрозой вымирания", так называемый The Bit List [1] of Digitally Endangered Species. Его совсем недавно, 4 ноября, во Всемирный день цифровой архивации этот список обновили и на него стоит взглянуть чтобы знать какие человеческие знания и информационные артефакты сейчас наиболее уязвимы и могут исчезнуть:

Наиболее критичная ситуация с [2]:
- веб приложения и апплеты на технологии Adobe Flash
- унаследованные интерфейсы и сервисы предоставляемые онлайн крупными компаниями
- нестандартные способы публикации официальной информации (public records)
- архивные источники данных для open source intelligence
- сервисы данных, бордов и тд. эпохи до WWW (Fidonet, BBS, Videotex) и другие
- неопубликованные данные исследователей (остаются только на их компьютерах или в лабораторных бумажных журналах)

И это только список того что находится в наибольшем риске, а есть и много других рисков и просто отсутствие требований по публикации или архивации данных.

Например, данные организаций которые я упоминаю как "ГосНКО", в мире чаще называют ALEO (Arms Length Executive Organizations) - организации на расстоянии руки от исполнительной власти или QuaNGO (Quasi non-governmental organization) - "квази-НКО". У таких организаций нет требований по раскрытию и архивации данных, при их ликвидации все материалы чаще всего уничтожаются [3] и их материалы DPC упоминают как находящиеся под высоким риском (critically endangered).

Отчасти и я потому придаю 'госНКО' такое внимание. Не только вопрос финансирования, но и целостности того что находится в их ведении.

Ссылки:
[1] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list
[2] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list/practically-extinct
[3] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list/critically-endangered/bitlist2021-records-of-quangos

#digitalpreservation #archives
Среди приложений по улучшению написанных текстов много лет выделялся Grammarly [1], стартап основанный в кремниевой долине в 2009 году несколькими выходцами из Украины и поднявший 200М инвестиций за эти 12 лет. Его особенность была в понимании контекста и эффективных подсказках по замене слов, конструкций, замене пунктуации под разные стили написания текстов и даже виды английского языка.

Те кто сталкивался с образованием в зарубежных университетах знают что многие из них заключают большой корпоративный договор с Grammarly и предоставляют его своим студентам бесплатно.

И вот 2020 году появился стартап Writer.com [2], со многими похожими на Grammarly свойствами, опять же заточенный под английский язык и в буквально совсем недавно они получили второй раунд финансирования в 20 миллионов долларов [3] под автоматизацию проверки текстов по корпоративным руководствам стилей адаптированным под их бренды. Идея, с одной стороны оригинальная, а с другой как раз под ожидания клиентов и адаптацию практики аутсорсинга подготовки пресс-релизов, контента для сайтов и много чего ещё связанного с текстами. Крупные компании отдают пресс-релизы на аутсорс, но хотят контролировать их качество, гендерную нейтральность и ещё много чего, актуального как минимум в США.

Впрочем Writer.com появился не на пустом месте, до него основатели делали стартап Qordoba в котором совмещали сервисы управления контентом, перевода и упрощения языка. Далее, по видимому, упрощение языка оказалось наиболее перспективной темой для развития и инвестиций.

Это довольно сильный уход от модели существования большинства сервисов по проверки грамматики. Большая их часть развивались как продукты для тех для кого язык не родной и проверка грамматики позволяет избежать основных ошибок. Поэтому так много клиентов у Grammarly среди университетов, для студентов кому английский язык не родной. А у Writer.com модель основанная на улучшении контроле текстов которые могут быть написаны и носителями языка, но под решение корпоративных задач.

Ссылки:
[1] https://www.crunchbase.com/organization/grammarly
[2] https://www.crunchbase.com/organization/writer
[3] https://techcrunch.com/2021/11/15/writers-automated-style-guide-for-web-based-publishing-brings-in-21m-a-round/

#plainlanguage #startups #language
В рубрике "интересные наборы данных" база в 7 гигабайт о 7 миллионах транзакций с токенами NFT [1] на базе Ethereum. Данные собраны за период с апреля по сентябрь 2021 года. Команда опубликовавшая этот набор данных занимается разработкой инструментов с открытым кодом для работы с NFT и они разместили свой анализ этих транзакций [2]. Согласно этому анализу рынок NFT похож на классические рынки с тем же уровнем финансового неравенства.

Ссылки:
[1] https://www.kaggle.com/simiotic/ethereum-nfts
[2] https://github.com/bugout-dev/moonstream/blob/main/datasets/nfts/papers/ethereum-nfts.pdf

#opendata #opensource #cryptocurrencies #nft
Написал в рассылку большой текст со скучным названием "18. Как правильно архивировать цифровые ресурсы при архивационных кампаниях" [1] о том как устроена веб архивация и цифровая архивация на практике архивации сайтов институтов развития и Мемориала. Первые исчезают из-за реформы, вторые могут исчезнуть из-за ликвидации юр. лица / юр. лиц Мемориала. Позиция любого архивиста в такой ситуации в том что сохранение знания стоит на первом месте.

Таких архивационных кампаний я проводил довольно много и могу сказать что важнейшее вовлечение широкой публики в них - это стадия поиска и обнаружения того что надо хранить. Как отделить значимое от незначимого, вот в чём вопрос, а сам сбор, обработка и хранение данных - это задача куда более техническая и решаемая наличием ресурсов финансовых и технических.

Ссылки:
[1] https://begtin.substack.com/p/18

#digitalpreservsation #archives
Hекоторые факты из публичных следов госинформатизации которые вы можете ещё не знать:
- 100+ недокументированных общедоступных API доступны из государственных информационных систем. От очень простых вроде поиска по сайту госоргана, до весьма сложных с системой доступа к объектам внутри информационной системы, интеграционный контур информационной системы. По ним чаще всего нет документации или её совсем мало, эти API бывают самого разного вида, на базе REST API, GraphQL, SOAP, API на базе XML и так далее. О некоторых из этих API я писал ранее и ещё напишу в будущем.

- Битрикс использует зарубежную ИТ инфраструктуру. Де-факто Битрикс: самая популярная автономная CMS у госорганизаций. Не возьмусь утверждать что это показатель качества именно этой CMS, но она точно наиболее популярна для автономных сайтов госучреждений и госорганов. В то же время в битрикс встроеа система сбора статистики привязанная к домену bitrix.info (ссылка http://bitrix.info/ba.js) хостящемуся в датацентре Amazon в Ирландии. Роскомнадзору стоит об этом не забывать когда в следующий раз начнут массово блокировать подсети у облачных провайдеров.

- ГАС Правосудие крупнейший конструктор сайтов. Де факто на сегодняшний день больше всего сайтов создано на системе ГАС Правосудие. Это несколько тысяч сайто судов всех уровней юрисдикции. Стилистически сейчас они выглядят жутковато, не работают на мобильных устройствах удобным образом и тд., но по факту это пока крупнейший конструктор для специализированных госсайтов.

- Госвеб для школ. Оказывается история с Госвебом никуда не исчезла и на платформе gosweb.gosuslugi.ru где-то с сентября 2020 года появляются сайты школ. Например, МБОУ СОШ с. Ивановка или МОУ СОШ №3 г. Звенигород. У сайтов школ пока что чрезмерно длинные доменные имена вроде "school-3-zven-mos.gosweb.gosuslugi.ru" и непонятно сколько их реально переведено, как это происходит и тд. Внутри технически CMS Netcat, а в поиске гугла находится всего около 100 страниц с сайтов на этой платформе.

- Система доставки контента Cloudflare одна из наиболее популярных у разработчиков госсайтов. Даже если она не используется напрямую, на госпорталах как и на коммерческих используются сервисы вроде fontawesome.com или fonts.net для подгрузки шрифтов. А также как CDN хостинг для популярных библиотек Javascript и типовых CSS файлов.

#government #it #govtech
В блоге AppCensus, стартапа занимающегося анализом приватности приложений для Android, появился весьма подробный и полезный разбор [1] сервиса Huq в котором собирается до нескольких миллиардов событий ежесуточно [2].

Стартап Huq предоставляется разработчикам в виде SDK и после установки приложения с этим SDK оно собирает все сведения о геопозиции, BSID у сетей WiFi, факты подключения пользователя к сети Wifi и ещё много чего. Всё это каждый 9 минут загружается на сервер Huq'а.

Причём инсталляций с ним много, в особенности в самых что ни на есть массовых бесплатных мобильных приложениях [3]

Об этом Huq и сборе данных без согласия бользователей BBC написали в конце октября [4], по мотивам статьи в Vice [5] где также обратили внимание на это расследование AppCensus и на то что Huq собирает данные не уведомляя об этом пользователей.

Google обещают что проводят расследование по этому поводу, поскольку это нарушает их собственные правила в экосистеме Android'а.

История показательная, разумеется, Huq далеко не единственные кто собирает столь много данных и использует подобную бизнес модель и такие истории будут повторятся. Нам же стоит помнить что любое бесплатное приложение - не бесплатное, мы расплачиваемся сбором информации о себе, всегда.

Ссылки:
[1] https://blog.appcensus.io/2021/10/25/what-the-huq/
[2] https://web.archive.org/web/20211001150723/https://huq.io/data/
[3] https://reports.exodus-privacy.eu.org/en/trackers/408/
[4] https://www.bbc.com/news/technology-59063766
[5] https://www.vice.com/en/article/5dgmqz/huq-location-data-opt-out-no-consent

#privacy #huq #android