Для тех кто ищет наборы данных побольше, команда Clickhouse обработала данных из Github'а собранные в проекте GHArchive и превратила в большую базу для Clickhouse [1].
Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]
Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.
Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.
Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset
#opendata #bigdata #github #clickhouse
Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]
Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.
Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.
Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset
#opendata #bigdata #github #clickhouse
Команда Clickhouse выложила ClickBench [1] методологию, инструмент и результаты сравнения аналитических баз данных. Сравнивают много что: Aurora, Athena, Clickhouse, MySQL, Druid, Greenplum и тд. Около 30 разных продуктов в разных конфигурациях.
Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.
Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.
Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].
Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test
#datatools #dbms #data #benchmarks #clickhouse
Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.
Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.
Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].
Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test
#datatools #dbms #data #benchmarks #clickhouse
GitHub
GitHub - ClickHouse/ClickBench: ClickBench: a Benchmark For Analytical Databases
ClickBench: a Benchmark For Analytical Databases. Contribute to ClickHouse/ClickBench development by creating an account on GitHub.
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.
При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].
Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.
А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.
Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com
#opensource #startups #dbms #clickhouse
При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].
Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.
А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.
Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com
#opensource #startups #dbms #clickhouse
ClickHouse
ClickHouse Cloud is now in Public Beta
ClickHouse Cloud has entered public beta. Get your free trial now!
Такое чувство что производители облачных СУБД "почувствовали фишку" / осознали возможность демонстрации своих продуктов через наглядное представление больших датасетов. Я ранее писал про OSS Insight [1] от TiDB Cloud с данными извлечёнными из Github, а теперь и команда ClickHouse анонсировала [2] CryptoHouse [3] как бесплатный открытый сервис для блокчейн аналитики. Просто открываешь веб интерфейс и делаешь SQL запросы. А то что интерфейс не требует даже авторизации - это лишнее подтверждение способности выдерживать большие нагрузки.
Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.
Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.
Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui
#opendata #clickhouse #sql #blockchain
Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.
Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.
Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui
#opendata #clickhouse #sql #blockchain