Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В Коммерсанте заметка о том что Минэкономики России собирается создать реестр технологических стартапов [1] и о том что на его основе в том числе будут приниматься решения о господдержке и отслеживаться ее эффективность.

Для этого подготовлен проект поправок к закону «О науке и государственной научно-технической политике» в котором эти полномочия Минэкономразвития будут прописаны. Правда, буквально чуть менее чем 2 месяца назад уже был принят федеральный закон от 31.07.2020 № 309-ФЗ "О внесении изменений в Федеральный закон "О науке и государственной научно-технической политике" где вводили понятие венчурного капитала и др. определения.

Поможет ли как-либо стартапом наличие государственного реестра и государственного мониторинга их эффективности? Честно говоря у меня лично есть сомнения на этот счет и, нельзя не упомянуть проблему того что Минэкономразвития не очень ответственно подходит к ведению их реестров. Реестры СО НКО, пострадавших НКО и системообразующих предприятий опубликованные на data.economy.gov.ru имели большие проблемы с точки зрения полноты и качества данных, не говоря уже о методологии.

Ссылки:
[1] https://www.kommersant.ru/doc/4500503

#registries #opendata
На днях глава Минцифры Максут Шадаев прокомментировал [1] законопроект по запрету протоколов шифрования [2] и тут важно помнить чуть подробнее о контексте его принятия (решении Совбеза) [3]

Переводя его слова с русского на русский звучат они следующим образом:
1. Мы понимаем ваши опасения, но есть ещё экстремисты и др. трафик которых надо перехватывать.
2. Британцы в 2019 году сделали то же самое (договорились с Mozilla)
3. Будем искать компромиссы по итогам общественного обсуждения.

Последний пункт можно трактовать как "мы специально строго написали чтобы потом не всё запретить", приём вполне понятный, применяется много где.

Так вот комментарии на комментарии будет странным жанром, ругать министров нынче может каждый (дело то нехитрое), а хвалить любого действующего чиновника я считаю неприличным, так что я постараюсь изложить текущую ситуацию с учётом слов министра в контексте.

Вначале про британский опыт и Mozilla. Осенью 2019 года, компания Mozilla закончила с локальными
экспериментами с протоколом DoH, позволяющем скрывать DNS запросы от инструментов перехвата сетевого трафика, и решили включить его в браузере как опцию по умолчанию для пользователей в США. На эту ситуацию очень обеспокоились в Великобритании и Алан Девидсон,вице-президенту Mozilla по глобальной политике, безопасности и приватности, написал письмо Никки Морган [4], секретарю по делам культуры UK, о том что у Mozilla нет планов включать эту опцию по умолчанию для граждан Великобритании, до завершения обсуждения со всеми частными и государственными сторонами.
Чтобы было понятно почему они на это пошли, ранее другие НКО осуществляющие мониторинг и борьбу с педофилией и эксплуатацией детей в сети написали письма, например, письмо от Internet Watch Foundation (IWF) [5] той же Никки Морган о том что включение DoH в браузеры поломает систему фильтрации ссылок. IWF занимается этой деятельностью более 24 лет и от неё выступают многие лорды и баронессы в Великобритании, поэтому проигнорировать их письмо никак не могут. Это всё, конечно, не исключает ситуации когда и само правительство Великобритании заинтересовано в возможности перехвата DNS запросов, но публично декларируемой целью это не является.

Иначе говоря, история с DoH и Mozilla в Великобритании, на самом деле, такова:
- Mozilla не ввели эту опцию по умолчанию, но она осталась в браузере и любой может включить
- нет запрета на использование DoH частными лицами и компаниями

Ситуация в России принципиально иная:
1. Обратите внимание что в России нет контекста по диалогу с Mozilla как это происходит в Великобритании, есть прямой запрет. Это делает отсылку к британскому опыту нерелевантной, предлагаемая модель куда ближе к моделям блокировки в некоторых арабских странах где на использование VPN необходимо получать дополнительное разрешение.
2. В документе законопроекта нет конкретики по блокируемым протоколам, а в пояснительной записке указан протокол TLS 1.3. Это последняя версия протокола через который работает, например, практически вся защищённая коммуникация с сайтами HTTPS. При этом важно помнить что, вообще-то, современные браузеры уже почти не поддерживают старые редакции протокола SSL 3.0, TLS 1.0, TLS 1.1. Запрет или ограничения на TLS 1.3 - это запрет любой безопасной передачи данных.
3. Ещё один важный аспект, в том что государственные службы это далеко не единственные структуры которые могут хотеть знать о том какие сайты Вы посещаете, какие страницы и что Вы им передаёте.
И не стоит полагать что у государства есть какие-то уникальные технологии перехвата трафика которых нет у хакеров и корпораций.
Перехват Вашего трафика, как минимум, это то что интересует Ваших: провайдеров (сотового, Wi-Fi, проводного), работодателя (особенно крупные компании с дорогой интеллектуальной собственностью), зарубежные разведки, хакеров со
специализацией на корпоративном шпионаже, компании конкуренты, подростка младохакера из соседнего подъезда и ещё многих и многих.
Возможно что, например, запрет на TLS 1.3 в пояснительной записке к законопроекту был прописан специально чтобы потом от него отказаться при поиске компромисса. Возможно, размытые рамки законопроекта специально размыты чтобы бизнес сам предложил, например, ограничит закон только разработчиками ПО и сервисов, например, что он распространялся только на провайдеров VPN, разработчиков браузеров включающих DoH по умолчанию и так далее.

Не зная что творится в головах сотрудников Мицифры которые готовили эти документы, можно только догадываться чем они руководствовались. Была ли это стратегия "я солдат, что мне [Совет Безопасности] скажут, то и сделаем" или там есть и те кто движется по логие "если мудрость не может творить добро, она удлиняет путь зла" (Фазиль Искандер "Кролики и удавы"), запуская общественное обсуждение.

Лично моя позиция неизменна - политика запрета инструментов обеспечения приватности неэффективна.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/22/09/2020/5f69cf379a7947465f427ada
[2] https://t.me/begtin/2133
[3] https://d-russia.ru/maksut-shadaev-prokommentiroval-zakonoproekt-o-zaprete-ispolzovat-shifrovanie-skryvajushhee-imja-sajta.html
[4] https://en.wikipedia.org/wiki/Nicky_Morgan
[5] https://iwf.org.uk/sites/default/files/inline-files/Rt.%20Hon.%20Nicky%20Morgan%20MP%20DNS%20over%20HTTPs.pdf

#privacy #law #digital
О том как ведётся учет информационных систем я продемонстрирую на российском ведомстве о котором практически никогда не писал (хотя и много лет читаю почти все их госконтракты) - это Россвязь. У Россвязи на сайте есть раздел под названием "Реестры, информационные системы, базы данных" [1] в котором перечислены такие информационные ресурсы и реестры как:
- Реестр сертификатов соответствия системы сертификации в области связи
- Реестр зарегистрированных деклараций о соответствии средств связи
- Реестр нумерации Российской системы и плана нумерации
- Реестр адресов установки таксофонов и ПКД
- База данных отделений почтовой связи

Сразу скажу что ссылки на 2 из них: реестр сертификатов и база отделений почтовой связи выдают ошибку 404. Но ни один из этих реестров не является государственной информационной системой. Государственная информационная система - это ИС Россвязи, состоящая из нескольких подсистем таких как:
- АПУУ: Подсистема «Администрирование платежей по универсальной услуге» ИС Россвязи
- ПТПП: Подсистема обеспечения информационного взаимодействия ИС Россвязи
- РДС: Подсистема «Регистрация деклараций о соответствии средств связи и реестра сертификатов соответствия системы сертификации в области связи» ИС Россвязи
- УМИ: Подсистема «Учет маршрутных индексов» ИС Россвязи
- УНОС: Подсистема «Учет номеров оперативных служб» ИС Россвязи
- УРН: Подсистема «Учет ресурса нумерации» ИС Россвязи
- УСЭ: Подсистема «Учет сетей электросвязи» ИС Россвязи

Есть ли информация об этой системе и её подсистемах на сайте Россвязи? Или нет совсем, или она рассеяна по нормативным документам, а чуть ли не единственными достоверными источниками сведений оказываются госконтракты с РЭД Софт'ом [2] и Легион Про [3] на сопровождение и разработку модулей ИС Россвязи.

Из этих же документов мы можем узнать что там же существуют такой реестр как: Единый реестр операторов связи (ЕРОС) который вообще никогда и ни в какой форме, Россвязью не публиковался.

Если мы обратим взгляд на ФГИС Координация информатизации то в открытых данных ФГИС КИ со списком ИС Специальной деятельности [4] обнаружим у Россвязи всего 2 ГИС.
- 10.0001276 Информационная система Федерального агентства связи
- 10.0060806 Официальный сайт Федерального агентства связи

Возможно во ФГИС КИ есть больше информации, а возможно не сильно больше. Есть ли там систематизированные сведения о подсистемах ? Честно говоря у меня есть некоторые обоснованные сомнения.

Как делать правильно? Лучший из известных мне примеров - это реестр информационных систем Санкт-Петербурга [5]. У него только один недостаток, они не публикуют открытые данные, в остальном я не видел более дотошного описания каждой ГИС, ИС, подсистемы и базы данных включая все платежи по всем контрактам на ИС, всё используемое ПО и тд. Казалось бы, федеральной власти использовать этот подход хотя бы методически, но как-нибудь в другой раз я напишу почему это вызывает такие сложности.

Пока и здесь я хочу подчеркнуть важную разницу того как устроена информатизация на федеральном и региональном уровне. На федеральном уровне, по сути, министерства строят свои замкнутые экосистемы. На уровне субъектов федерации, как правило, вернее, хорошее правило, когда департаменты информатизации контролируют разработку ИС, а другие региональные органы власти выступают как функциональные заказчики.

А в качестве послесловия напомню про аналитический доклад Счетной палаты "Оценка открытости ГИС 2020" [6] где как раз открытость государственных информационных систем подробно рассматривалась. Подробно, но не исчерпывающе и ещё много о чём есть что написать.
Для тех кто интересуется тем как развиваются и внедряются технологии слежки за гражданами, простой и понятный проект Atlas of Surveillance [1] от Electronic Frontier Foundation [2].

Это база 5577 случаев применения технологий слежки, список которых включает:
- автоматическое распознавание номеров машин
- камеры на одежде
- реестры камер (те которые добровольно создают жители-волонтеры)
- симуляторы базовых станций (подмена стандартный базовых станций специальными устройствами для слежки)
- дроны
- распознавание лиц
- центры слежения и обмена данными о людях между разными уровнями власти и частными и иными организациями
- автоматическая идентификация стрельбы
- прогнозирование/предсказание преступлений
- центры мониторинга преступности в реальном времени
- партнёрства полиции и местных сообществ по установке устройств слежки в рамках сообщества
- видео аналитика и технологии компьютерного зрения
Подробнее о них рассказывается в глоссарии [3]

Как мы видим, в другом контексте, этот список выглядит как список стендов на какой-нибудь конференции по технологиям безопасности. Здесь же взгляд на них через потенциальный вред гражданам через слежку за ними.

Почти весь реестр построен на основе сообщений в новостях, отчетов НКО, публикаций и расследований EFF, данных на сайтах вендоров и многое другое. Особенности слежки в США в её высокой технологичности, в том что многие локальные решения принимаются властями муниципалитета (country) или штата (state) и в том что некоторые способы слежения, вроде слежения через дверные звонки и стартап ring.com, специфичны только для США.

Ссылки:
[1] https://atlasofsurveillance.org/search
[2] https://eff.org
[3] https://atlasofsurveillance.org/glossary

#privacy #surveillance #eff
Сделаю редкое отступление от жанра новостей и комментариев к ним и напишу краткий очень субъективный текст.

Все написали про покупку Яндекса Тиньковым Тинькова Яндексом и сейчас активно пишут про презентацию нового бренда СберБанка который, по сути, выстраивают вертикальный монобренд и с тем же Яндексом ещё более активно конкурирует после развода.

С одной стороны мне хочется искренне порадоваться что за Яндекс, что за Тинькова что за Сбер, что несмотря на происходящее в стране есть крупные цифровые холдинги. А с другой, конечно, очень важно чтобы цифровая среда в России не превратилась бы в "выжженую моно/олигопольную поляну" где ты либо принадлежишь к одному из дзайбацу / кейрецу / мега-холдингу, либо оказываешься в ситуации крайне неравного противостояния поскольку чем больше корпорация тем больше у неё ресурсов если не купить твой продукт, то сделать его клон.

Одна из проблем современных цифровых корпораций в том что давний лозунг Google - Don't be evil, ныне не работает. Одних лишь качественных продуктов, хорошей технической поддержки и даже хорошо профинансированного пиара теперь недостаточно для поддержания и сохранения репутации.

И от себя добавлю что если бы была новость о том что Яндекс купил Почту России, а Сбербанк купил Аэрофлот - то многие обрадовались бы куда больше. У Почты России появился бы шанс на трансформацию, а у Аэрофлота появилась бы хоть и "зелёная", но клиентская служба, взамен полного её отсутствия сейчас.

#sber #yandex #tinkoff #thoughts
Вышли два свежих европейских документов про работу с данными. Оба опубликованы Joint Research Centre (JRC) при Еврокомиссии.
Первый документ Application Programming Interfaces in Governments: Why, what and how [1] о том как важно чтобы в рамках цифровых правительств развивались сервисы API. С большим числом примером в странах ЕС, включая, например, Французский национальный реестр API [2]. В документе много разных сторон работы API рассмотрено и, что важно, использование программных интерфейсов рассматривается как часть государственной политики.

Второй документ The economics of Business to Government data sharing [3] посвящён тому как работает экономика предоставления данных государству коммерческими компаниями. Это технический отчет с указанием на возможности и ограничения того как бизнес может передавать данные государственным органам и как это может развиваться. Там есть несколько чисто европейских допущений что государства не конкурируют с бизнесом, с ними можно поспорить. В остальном полезное чтение, хотя и короткое.

Ссылки:
[1] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/application-programming-interfaces-governments-why-what-and-how
[2] https://api.gouv.fr/
[3] https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/economics-business-government-data-sharing

#opendata #api #government #digital
Слухи давно ходили и вот теперь официальное подтверждение, закрывается Sunlight Foundation [1], некогда чуть ли не первое НКО задававшее стандарты работы с данными государства, запустившие десятки разных проектов. Но 4 года назад они закрыли свою лабораторию Sunlight Labs [2] и раздали свои проекты другим НКО, некоторым госорганам и исследовательским центрам [3]

Истинные причины закрытия Sunlight Foundation мне неизвестны, но всё хорошее, действительно, не вечно.

Ссылки:
[1] https://sunlightfoundation.com/2020/09/24/a-note-from-the-sunlight-foundations-board-chair/
[2] https://sunlightfoundation.com/2016/09/21/whats-next-for-sunlight-labs/
[3] https://sunlightfoundation.com/2016/11/01/sunlight-labs-update-nonprofits-step-up-to-preserve-tools-for-transparency/

#opendata #opensource #sunlight
После довольно долгих размышлений, я, всё таки, решил активировать аккаунт Substack и использовать этот формат для регулярных больших заметок и рассуждение на темы о которых думаю давно. Substack - это формат для больших текстов, с некоторой рефлексией и не обязательно завершёнными размышлениями, но с некоторой их зрелостью.

Это будет сильно отличаться от моего канала в телеграм и от личного блога. Как и во всех текстах основанных на профессиональной и иногда личной рефлексии, здесь я не буду претендовать на точность мысли, но буду вкладывать в написанной столько последовательности сколько смогу.

Первая email рассылка ушла с темой "Размышления конца сентября 2020. Будущее государственного и общественного аудита и контроля, обнаружение данных и многое другое".

Следующая рассылка будет не раньше конца октября.

#substack #texts
Ещё в 2015 году ЮНЕСКО объявили 28 сентября Международным днём универсального доступа к информации [1], в этом году на русском об этом в послании Генерального директора ЮНЕСКО Одрэ Азуле. [2]. Конференция IDUAI и мероприятия в этом году отложены из-за COVID-19, но 28-30 сентября идут онлайн вебинары посвященные открытости информации и идущие под эгидой ЮНЕСКО.

Ссылки;
[1] https://en.unesco.org/commemorations/accesstoinformationday/
[2] https://unesdoc.unesco.org/ark:/48223/pf0000374375_rus.locale=en

#opendata #openness #transparency #unesco
Правительство РФ, в лице Минстроя инициировало создание Единого государственного заказчика в строительстве, по оценке СМИ его бюджет может составить до 5 триллионов рублей [1]. В законопроекте указано что он создаётся в форме публично-правовой компании (код ОКОПФ - 71600), а то есть некоммерческой организации в прямом подчинении Правительства, через Минстрой РФ.

До окончания независимой антикоррупционной экспертизы законопроекта остался один день и до окончания общественного обсуждения 9 дней [2].

Судя по полномочиям единого государственного заказчика, сумма там, всё же, менее 5 триллионов поскольку в его ведении будут только объекты культурного наследия, поэтому точные масштабы его деятельности и охвата пока измерить сложно.

Какие вопросы в этой ситуации необходимо задать самим себе?
1. По какому ФЗ будут проводится закупки единым заказчиком? 44-ФЗ? 223-ФЗ? Или по 615-ПП. Например Фонд реновации (Москвы) размещает закупки по 223-ФЗ [3]. Другие АНОшки созданные Правительством Москвы по благоустройству города и тд, вообще не подпадают ни под один из ФЗ
2. Ограничится ли только культурным наследием как это прописаны в законопроекте или полномочия публично-правовой компании будут расширять?

Можно сразу утверждать что это будет не по 44-ФЗ, иначе не было бы смысла создавать публично-правовую компанию и выводить из под системы бюджетных учреждений. Проблема в том что 44-ФЗ объединяет, и совершенно жуткие и неприятные процедуры закупок, в которых наиболее комфортно себя чувствуют как раз наиболее коррумпированные заказчики и поставщики-рейдеры и одновременно все вопросы открытости госконтрактации заложены в том же 44-ФЗ.


Ссылки:
[1] http://ancb.ru/publication/read/10185
[2] https://regulation.gov.ru/projects#npa=108688
[3] https://spending.gov.ru/goscontracts/contracts/?productsearch=&regnum=&daterange=&price_from=&price_to=&customerregion=&address=&budgetlevel=&okdp_okpd=&fz=&customerinn=7703434808&customerkpp=&supplierinn=&supplierkpp=

#procurement #spending #contracts
В Nature статья о переосмыслении научных статей, и перевод их в формат "исполняемых статей" (executable papers) [1] идея в том что электронная научная публикация должна иметь формат аналогичный цифровым записным книжкам таким как Jupyter Notebook или Wolfram Notebook и должна включать всё необходимое, исходный код и данные для её перепроверки. Эта концепция не нова, и давно присутствует, например, в Codalab [2], но пока ещё она не стала всеобъемлющей.

Автор приводит пример с его статьей с анализом данных температуры земли, опубликованными данными и кодом [3]. А также множество примеров проектов готовых шаблонов воспроизводимых проектов [4].

Основной и важнейший, можно сказать инновационный, подход в том что научная статья/публикация - это не документ, а некий интерактивный открытый цифровой продукт, включающий как описания и выводы, так и исходный код, данные и формулы организованные таким образом чтобы можно было максимально упросить работу по воспроизведению результатов.

Определение из CodaLab звучит как
A CodaLab executable paper is a worksheet that contains the code, data, main experiments, tables, and graphs used in a published paper (think of it as an appendix or supplementary material).

Ещё в 2013 году об этом писали в Elsevier Labs [6], а ещё в 2011 году запускали конкурс "исполняемых статей" [7] [8], но мир изменился с тех пор и сейчас главным приоритетом является именно открытость таких публикаций и использование свободных и открытых инструментов и сервисов хранения данных.

Практика публикации исполняемых статей есть, например, в журнале eLife [9], а обзор открытых инструментов для их подготовки есть в статье Publishing computational research - a review of infrastructures for reproducible and transparent scholarly communication [8]. Если вкратце, существует как минимум 11 сервисов, большая часть, но не все из которых основаны на Jupiter Notebook.

Больше публикаций об этом можно найти, например, в результатах проекта Open Reproducible Research II [11] в Universität Münster

По всем впечатлениям скоро исполняемые статьи станут мейнстримом во всех работах где есть работа с данными и создание кода, а в течение нескольких лет, а может и быстрее, появятся формальные стандарты на основе существующих стандартов де-факто.


Ссылки:
[1] https://www.nature.com/articles/s42005-020-00403-4
[2] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[3] https://zenodo.org/record/3831237#.X3QQDO1n1hE
[4] https://gitlab.com/makhlaghi/reproducible-paper
[5] https://codalab-worksheets.readthedocs.io/en/latest/Executable-Papers/
[6] https://www.elsevier.com/connect/executable-papers-in-computer-science-go-live-on-sciencedirect
[7] https://www.journals.elsevier.com/pattern-recognition-letters/news/introducing-executable-papers
[8] https://www.slideshare.net/anitawaard/executable-papers
[9] https://elifesciences.org/for-the-press/eb096af1/elife-launches-executable-research-articles-for-publishing-computationally-reproducible-results
[10] https://arxiv.org/ftp/arxiv/papers/2001/2001.00484.pdf
[11] https://www.uni-muenster.de/forschungaz/project/12343?lang=en

#data #opendata #openscience #openaccess
Краткий дайджест статей и публикаций про данные:
- обзор материалов прошедшей конференции RecSys 20202 о рекомендательных системах https://eugeneyan.com/writing/recsys2020/
- о том как устроен хайп вокруг данных с точки зрения инвестфонда https://medium.com/northzone/unpacking-the-data-hype-8c3a0ae63564
- HarbrData, сервис для тех кто хочет строить свои маркетплейсы на данных https://www.harbrdata.com/
- много интересного про данные на Open Source Strategy Forum https://events.linuxfoundation.org/open-source-strategy-forum/program/schedule/

#data #datatools #dbs
AI Localism - это когда регулирование алгоритмических систем осуществляется на уровне города, муниципального образования, с охватом жизни людей на четко очерченной территории. Об этом Stefaan Verhulst писал ещё в феврале 2020 [1], а вот и подоспели живые примеры такого регулирования.

Городские власти Амстердама и Хельсинки ввели реестры алгоритмических систем / ИИ [3] [4]. Пока систем там немного и информации о них также немного, сами реестры работают на платформе Saidot [5], создателей которой вместе с представителями городов Амстердама и Хельсинки описывает то почему и зачем это делается в документе Public AI Registers [6]


Ссылки:
[1] https://medium.com/data-stewards-network/realizing-the-potential-of-ai-localism-c3d8b4c751ca
[2] https://news.cision.com/fi/city-of-helsinki/r/helsinki-and-amsterdam-first-cities-in-the-world-to-launch-open-ai-register,c3204076
[3] http://ai.hel.fi/
[4] https://algoritmeregister.amsterdam.nl/
[5] https://www.saidot.ai/
[6] https://uploads-ssl.webflow.com/5c8abedb10ed656ecfb65fd9/5f6f334b49d5444079726a79_AI%20Registers%20-%20White%20paper%201.0.pdf

#ai #transparency
Я реже чем надо пишу о том чем, в том числе, занимается Инфокультура. Например, помощью НКО
На ютуб-канале Инфокультуры опубликована серия видеоуроков для сотрудников некоммерческих организаций. В роликах социологи и эксперты по работе с данными рассказывают, с чего начать изучение социальной проблемы, как правильно сформулировать методологическую часть исследования, выбрать методы, построить выборочную совокупность, а также какие нюансы важно знать при сборе и обработке персональных данных.

Смотрите ролики на нашем канале:
🔹 Проблема, объект и предмет, цель, задачи и гипотезы исследования. Владимир Звоновский https://youtu.be/e3Lq7jW7kBU
🔹 Методы исследования. Часть 1. Анна Ипатова https://youtu.be/faeTxscIMHI
🔹 Методы исследования. Часть 2. Анна Ипатова https://youtu.be/LPNsiOWDstU
🔹 Как грамотно построить выборочную совокупность? Владимир Звоновский https://youtu.be/Dk-9LucK7pQ
🔹 Особенности работы с персональными данными. Иван Бегтин https://youtu.be/qd4aZmBzCM8
Kostas Stathoulopoulos, стажёр в Фонде Mozilla создал [1] инструмент с открытым кодом Orion [2] в котором с помощью машинного обучения производится поиск перспективных научных направлений и областей научных знаний с большими пробелами.

Подробнее о разработке в блоге автора [3].

Основным источником материалов был BioArxiv, поэтому большой акцент на биологии, но авторы обещают что проиндексировать могут любые статьи, так что, видимо, проект ещё будет развиваться.

Ссылки:
[1] https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/
[2] https://www.orion-search.org/
[3] https://medium.com/@kstathou/a-walkthrough-of-orions-backend-data-and-design-decisions-f60c01b507aa
[4] https://www.biorxiv.org/

#openscience #opendata
Для тех кто хочет поработать с большими данными или, например, ищет учебные задачи для студентов ИТ специальностей, обратите внимание на DBLP [1]. Это огромная библиографическая база из более чем 5 миллионов 284 тысяч публикаций, включая публикации в журналах, по итогам конференций, книг и тезисов. Для всех кто пишет научные статьи - это огромная база метаданных необходимая для работы.

Но, конечно, такой объём данных интересен не только для выбора тем для научных статей и исследований, он практически идеально подходит для создания инструментов вроде Orion [2], в котором сейчас статьи по биологии и биоинформатики (источник - bioarxiv.org).

Дампы DBLP обновляются ежемесячно, их можно скачать в XML формате [3]. Это 560 мегабайт в сжатом виде и 3 гигабайта в распакованном виде. Впрочем, опять же, главное не только объём в байтах, а сами данные и возможность строить множество различных сервисов на их основе.

Ссылки:
[1] https://dblp.org
[2] https://t.me/begtin/2152
[3] https://dblp.org/xml/

#opendata #data #openaccess
IBM добавили открытые данные в их облачный сервис IBM SQL Query [1]. Это включает геоданные и данные о демографии из таких источников как: US Census, Eurostat Census, UNdata, OpenStreetMap и Natural Earth.

Фактически, это справочные данные которые можно совместить с собственными данными для создания новых наборов данных. Подход вполне логичный, постепенно все облачные сервисы с инструментами работы с большими данными подключают многие наборы данных "из коробки' для снижения расходов клиентов.

Ссылки:
[1] https://cloud.ibm.com/docs/sql-query?topic=sql-query-what-s-new#october-2020

#opendata #data #ibm