Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.82K photos

3 videos

101 files

4.53K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Трансперенси Рус (признано НКО-«иностранным агентом») одни из немногих оставшихся российских НКО занимающихся прозрачностью государства и госзакупок на практике пишут про европейскую модель Integrity Pacts, когда у госконтракта появляется третья сторона, некоммерческого арбитра, отслеживающая соблюдение общественных интересов. Я знаю про эту практику, она не только в европе существует, она есть в Мексике по моделе "гражданского свидетеля", представителя общества участвующего в мониторинге исполнения госконтракта.

Она есть во многих других странах в других формах, но тут надо оговорится и что ключевое в таких моделях взаимодействия - это наличие независимых НКО и СМИ. В Евросоюзе снизили коррупцию не просто через Integrity Acts, а через то что там много НКО имеющих финансирование из независимых от правительств источников или же имеющих независимость даже при госфинансировании. В России сейчас прессинг на НКО и СМИ очень велик, настолько что общественный контроль очень сильно ограничен, в первую очередь, самоцензурой. Без снятия этого давления Integrity Pacts не заработают. Что не отменяет того что это, в целом, вполне здравая идея.

И начинаться она должна и может через включение общественников в приёмку результатов работ. Чем безжалостно сопротивляются почти все госзаказчики и исполнители по госконтрактам.

#procurement #government

1.3K viewsIvan Begtin, 11:10

Forwarded from Трансперенси

Можно ли в России сделать госзакупки такими же прозрачными, как в Европе? (Да)

В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International).

С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах.

По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.

Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий.

Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге.

Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.

➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/

transparency.org.ru

Соглашение о гражданском участии

Инструмент для снижения коррупции в инфраструктурных проектах.

1.2K viewsIvan Begtin, 11:10

В рубрике интересное чтение в свободное время, Commonplace [1] проект от НКО Knowledge Futures посвящённый устойчивости воспроизведения знания в современном мире. Онлайн издание о таких темах как открытый доступ (open access), устойчивости открытых библиотек, реорганизации научных публикаций. Тексты все про размышления, очень оторванные от российской действительности, но хорошо задающие направления размышления именно про знания в нашем мире. Те же авторы являются создателями платформы PubPub [2] для осовременивания публикации научных работ.

В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.

Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.

Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0

#thoughts #reading

PubPub · Community Publishing

Collaborative Community Publishing

1.4K viewsIvan Begtin, 13:16

Ivan Begtin via @vote

Есть ли у Игоря Ашманова конфликт интересов при лоббирования "реестра токсичного контента" ?
anonymous poll

Есть, конечно, он же бизнесмен – 99
👍👍👍👍👍👍👍 79%

Я просто посмотреть ответы! – 24
👍👍 19%

Нет, конечно, он же член СПЧ – 2
▫️ 2%

👥 125 people voted so far.

1.3K viewsIvan Begtin, 13:26

Есть, конечно, он же бизнесмен – 79%

Нет, конечно, он же член СПЧ – 2%

Я просто посмотреть ответы! – 19%

Специально для тех кто обладает цифровыми навыками и немного свободным временем, есть задачи для программистов которые можно сделать как волонтеры, можно за деньги, как захочется. Я описал их на бирже фриланса [1] и в списке задач на Github [2].

Если кратко, у нас есть общественный проект Национальный цифровой архив (ruarxive.org) [3], не очень наглядный по виду, но по смыслу - это регулярная архивация веб сайтов и иного современного цифрового контента. Обычно кампаниями по сохранению чего-то в период риска.

В последние годы есть много контента который надо, или сохранять иначе, или специальными инструментами потому что веб-краулеры это не поддерживают. Например, это социальные сети и сайты с Ajax/API. Для некоторых появляются инструменты такие как instaloader для Instagram, twarc для Twitter, apibackuper для REST API и ещё много чего.

Но есть то для чего таких инструментов нет, например:
- сообщества и чаты в телеграм (можно сохранять с десктопного клиента только)
- сообщества в VK
- файлы с Яндекс.Диска, Облака Mail.ru и других онлайн дисков
- сайты Wordpress (у них есть такая опция с API)
- сайты Sharepoint (у них тоже есть такая опция с API)

Есть желание повысить качество архивации, в первую очередь по Telegram, VK и Яндекс.Диску, как самому критичному.

Для этого нужны утилиты командной строки которые можно регулярно запускать на сервере. Если у Вас есть опыт написания таких инструментов, Вам близка открытая разработка и есть немного времени, то помощь будет неоценима. А если хочется помочь, но нет возможности сделать это бесплатно - оцените сколько такая задача (любая из перечисленных) может стоить и возможно я смогу найти на это деньги.

Хочу попробовать найти разработчиков под такие инструменты таким анонсом, ну а если не получится, то устроим хакатон по цифровой архивации и наберем на него таких задачек;)

Ссылки:
[1] https://freelance.habr.com/tasks/402049
[2] https://github.com/ruarxive/ruarxive-research/issues
[3] https://ruarxive.org

#opendata #digitalpreservation #tools

2.3K viewsIvan Begtin, edited 15:02

За начало границы муниципального района Волжский Самарской области принята точка, расположенная в юго-западном углу лесного квартала 21 Советского лесничества Кинельского лесхоза на развилке лесных дорог (точка 1 – пересечение границ муниципальных районов Волжский, Красноярский и Кинельский Самарской области), далее граница проходит смежно границе муниципального района Кинельский Самарской области в восточном направлении по южным границам лесных кварталов 21, 22 Советского лесничества Кинельского лесхоза до юго-восточного угла квартала 22 Советского лесничества Кинельского лесхоза (точка 12), в южном направлении на расстоянии 360 м, пересекая автодорогу, идущую от поселка городского типа Новосемейкино муниципального района Красноярский Самарской области до кольца автодороги, идущей от города Самары до города Отрадного, далее в западном направлении по северной границе лесного квартала 99 Советского лесничества Кинельского лесхоза...
—
Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].

Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.

Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/

#plainrussian #language #russian

3.6K viewsIvan Begtin, edited 07:40

В России, почему-то, непринято хвалить проекты соседей по СНГ/постсоветскому пространству, а зря, не только им, но и нам есть чему поучиться.

Приведу в пример три проекта.

1. Карта преступности Казахстана
Ссылка: http://infopublic.pravstat.kz/crime/

Когда в Казахстане власти передали полномочия по регистрации преступлений прокуратуре республики то в скором времени в стране появился портал с криминальной статистикой и публикация сведения о преступлениях на карте. Сведения до конкретной точки, со всеми подробностями, по дате преступления, тяжести, улице, регистрационном номере и тд.

2. Портал PEP (Politically Exposed Persons) - политических персон Украины
Ссылка: https://pep.org.ua/en/

На Украине есть очень даже неплохо сделанный портал pep.org.ua с базой "PEP" лиц влияющих на политику, чиновников и лоббистов. Публичных персон одним словом. Не мне судить снижает ли это коррупцию в стране, это виднее самим её жителям, но то что открытость повышает это точно. В России только проект Декларатор Трансперенси Рус близок к такому проекту, но сейчас создать базу PEPов в России скорее будет сложно потому что для этого надо сводить очень много разных и больших источников данных.

3. Реестр конечных собственников в Армении
Ссылка: https://www.e-register.am/en/companies/1340197/declaration/c51e08a7-6fdb-4ab7-a55c-c74a68a8f54c

В Армении правительство начало публиковать сведений о конечных собственниках (Real Owners Declaration). Это расширение сведений в реестре юридических лиц сведениями о конечных бенефициарах компаний по стандарту Open Ownership.

#opendata #opengov

1.7K viewsIvan Begtin, 13:59

Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.

Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).

Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.

Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.

А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.

А спектр задач работы с данными велик, каждый может найти роль под себя.

Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/

#data #datalibrians #datamanagement

iridl.ldeo.columbia.edu

IRI/LDEO Climate Data Library

The IRI Data Library is a powerful and freely accessible online data repository and analysis tool that allows a user to view, analyze, and download hundreds of terabytes of climate-related data through a standard web browser.

1.6K viewsIvan Begtin, 18:42

Я напоминаю про проект Каталога каталогов данных datacatalogs.ru [1] недавно запущенный Инфокультурой.

Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.

Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.

Ссылки:
[1] https://datacatalogs.ru

#opendata #datacatalogs #catalogs #data #datasets

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.5K viewsIvan Begtin, 12:33

image_2021-11-26_15-33-41.png

image_2021-11-26_15-33-41.png

image_2021-11-26_15-33-42.png

1.4K viewsIvan Begtin, 12:33

Для тех кто ищет особо крупные наборы данных для работы так чтобы побольше и посложнее напомню крупные источники общедоступных данных большого объёма.

- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников

О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets

Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/

#datasets #opendata

1.5K viewsIvan Begtin, 13:39

Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.

Приведу примеры того в какой форме такое API бывает.

Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.

Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.

У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.

DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/

Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.

Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.me/begtin/3283, до сих пор удивляюсь этой истории.

Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.

Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.

#openapi #api #data #govwebsites

Портал Финансового университета

Финансовый университет при Правительстве Российской Федерации

Один из старейших российских вузов, готовящих экономистов, финансистов, юристов по финансовому праву, математиков, ИТ-специал...

1.4K viewsIvan Begtin, 08:54

Forwarded from Инфокультура

В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана

Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.

Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—

Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datasets #datacatalogs

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.3K viewsIvan Begtin, 07:56

По поводу Роснано я не могу не вспомнить о том как Минэкономразвития формировало Реестр некоммерческих организаций, в наибольшей степени пострадавших в условиях ухудшения ситуации в результате распространения новой коронавирусной инфекции [1] где сейчас перечисленно 15852 организации.

В том числе этот реестр обновляли в апреле 2021 года [2].

Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.

Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]

Так вот вопрос - кто войдет в этот реестр?

Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".

Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.

Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.

Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] http://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] http://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

#ngo #sonko #covid19

1.4K viewsIvan Begtin, 10:33

На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.

Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.

Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.

В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.

Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.

Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] http://schnaader.info/precomp.php
[4] https://www.gdcc.tech/

#compression #algorithms

Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)

Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата...

1.3K viewsIvan Begtin, 15:06

В The Guardian колонка [1] Jeffrey Barrett о том что южноафриканские ученые опубликовавшие расшифровку штамма COVID-19 - Omicron являются героями.

Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.

Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.

И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.

Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it

#opendata #covid19

1.5K viewsIvan Begtin, edited 16:15

В рубрике полезных инструментов работы с данными, подборка инструментов для сбора и анализа данных с моими комментариями.

- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.

Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.

Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/

#data #tools #opensource #datatools

GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark

1.4K viewsIvan Begtin, edited 06:16

Для тех кто интересуется где взять интересных данных для отраслевых проектов напомню о проекте "Карты данных" [1] со схемами данных:
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».

С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.

Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #datasets

1.4K viewsIvan Begtin, 07:50

Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.

- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA

А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.

#datasets #opendata #un

data.unhabitat.org

Urban Indicators Database

Explore, visualize, compare and download urban indicators data

2.3K viewsIvan Begtin, 17:40