Ivan Begtin

В рубрике полезных инструментов работы с данными, подборка инструментов для сбора и анализа данных с моими комментариями.

- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.

Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.

Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/

#data #tools #opensource #datatools

GitHub

GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark

1.4K viewsIvan Begtin, edited 06:16