Forwarded from BotShare
@ChatGptWB_bot - все нейросети в одном GPT-Telegram боте
Попробовать бесплатно:
👉 https://t.me/chatgptWB_bot
❓ По всем вопросам писать – @chatgptWB_support
#рефссылка
Теперь у Вас нейросети всегда под рукой и без VPN!
- Бот сделает за вас любую работу
- Безлимитные запросы в день!
- Бот отвечает на голосовые сообщения и генерирует любые картинки.
Скажите "Пока" работе и учебе.
Попробовать бесплатно:
👉 https://t.me/chatgptWB_bot
❓ По всем вопросам писать – @chatgptWB_support
#рефссылка
Инструменты CDN: шесть способов остановить накрутку трафика на сайт
Когда компании используют CDN (Content Delivery Network) для ускорения сайтов и приложений, они нередко сталкиваются с резким ростом трафика, который не связан с реальными пользователями.
Такая проблема увеличивает загрузку контента и задержку в сети, в худшем случае — приводит к огромному счёту за услугу CDN.
Для компаний это может стать серьёзной финансовой нагрузкой.
Часто причиной увеличения трафика становятся конкуренты, которые используют ботов и скрипты для отправки тысяч запросов на ресурс.
В результате вместо стандартного 1 ТБ в месяц клиент может потребить 500 ТБ за три дня, а его чек вырастет в 1000 раз.
Разберём, как определить накрутку трафика и какие меры предпринять для защиты.
↘️ https://habr.com/ru/companies/selectel/articles/898318/
..
Когда компании используют CDN (Content Delivery Network) для ускорения сайтов и приложений, они нередко сталкиваются с резким ростом трафика, который не связан с реальными пользователями.
Такая проблема увеличивает загрузку контента и задержку в сети, в худшем случае — приводит к огромному счёту за услугу CDN.
Для компаний это может стать серьёзной финансовой нагрузкой.
Часто причиной увеличения трафика становятся конкуренты, которые используют ботов и скрипты для отправки тысяч запросов на ресурс.
В результате вместо стандартного 1 ТБ в месяц клиент может потребить 500 ТБ за три дня, а его чек вырастет в 1000 раз.
Разберём, как определить накрутку трафика и какие меры предпринять для защиты.
↘️ https://habr.com/ru/companies/selectel/articles/898318/
..
Хабр
Инструменты CDN: шесть способов остановить накрутку трафика на сайт
Привет, Хабр! Когда компании используют CDN (Content Delivery Network) для ускорения сайтов и приложений, они нередко сталкиваются с резким ростом трафика, который не связан с реальными...
[Перевод] Python для OSINT в Telegram: автоматизация Threat intelligence
https://habr.com/ru/articles/900462/
Tags: OSINT, telegram, python3
Author: ap_security
https://habr.com/ru/articles/900462/
Tags: OSINT, telegram, python3
Author: ap_security
Хабр
Python для OSINT в Telegram: автоматизация Threat intelligence
Привет Хабр! На связи лаборатория кибербезопасности компании AP Security . В этой статье узнаем, как создать парсер Telegram на Python с использованием Telethon для осинта и сбора данных об угрозах....
Forwarded from BotShare
ChatGPT с доступом в интернет 🌐 и без цензуры в новом боте — @gptchatabot.
Поддерживает:
💬 • 🖼 • 🔊 • 📹 • 📎 • 🌐
Техподдержка: @gptlina
Задайте любой вопрос и получите мгновенный ответ от ChatGPT, Claude или DeepSeek.
Перейти к боту:
👉 https://t.me/GPTchataBot
#рефссылка
Тут нейронка реально ходит в интернет и выдает самую актуальную инфу — новости, советы, спорт, котики, коды на скидку, всё что хочешь.
Поддерживает:
💬 • 🖼 • 🔊 • 📹 • 📎 • 🌐
Бот может работать в группах:
/ask [вопрос] или /ask (ответом ⤶ на сообщение) — для групп
Техподдержка: @gptlina
Задайте любой вопрос и получите мгновенный ответ от ChatGPT, Claude или DeepSeek.
Перейти к боту:
👉 https://t.me/GPTchataBot
#рефссылка
Forwarded from Координация профанации
Рубрика "Циничная закрытость"
В Минэке сообщили, что Портал открытых данных РФ успешно прошел аттестацию на соответствие требованиям защиты информации, но не будет открыт для публичного доступа в связи с его перепрофилированием.
сообщили в ответственном ведомстве
В Минэке сообщили, что Портал открытых данных РФ успешно прошел аттестацию на соответствие требованиям защиты информации, но не будет открыт для публичного доступа в связи с его перепрофилированием.
"Нами принято решение о перепрофилировании назначения и переименовании Портала открытых данных РФ - с сегодняшнего дня он называется Порталом закрытых данных РФ (Портал ЗД РФ). Теперь на нем собираются данные, которые раньше по разным причинам (чаще всего - по недосмотру или халатности ответственных лиц) были открытыми, но теперь переведены в наиболее целесообразное для государственных данных состояние - закрытое .
Мы проводим сейчас интенсивную работу по переводу в закрытое состояние всех датасетов, размещенных на прежнем Портале открытых данных. С этой целью мы направили во все ведомства-владельцы датасетов запросы на предоставление официальных объяснений с их стороны - на каких основаниях те или иные данные были объявлены ими открытыми и кто несет персональную ответственность за подобные решения.
Мы будем регулярно информировать о текущем статусе этой важной и ответственной работы - соответствующие доклады с соответствующими ограничительными пометками будут направляться нами в уполномоченные органы.
Доменное имя бывшего Портала открытых данных РФ - data.gov.ru - будет оставлено в доступном состоянии в интернете, но теперь каждый заход по этому адресу будет фиксироваться Роскомнадзором с последующим расследованием, кто именно и с какими намерениями заходил на Портал закрытых данных РФ. Совместно с Росокомнадзором мы рассматриваем возможность введения административной ответственности за неоднократные попытки захода на Портал ЗД РФ. Соответствующие поправки в Федеральный закон 149-ФЗ нами уже готовятся и скоро будут внесены в Госдуму" -
сообщили в ответственном ведомстве
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.
Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.
Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].
А также доступен код проекта [3] и пример визуализации в QGIS.
Доступно под лицензией CC-BY 4.0
Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548
#opendata #geodata #datasets
Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.
Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].
А также доступен код проекта [3] и пример визуализации в QGIS.
Доступно под лицензией CC-BY 4.0
Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548
#opendata #geodata #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.
Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.
Условия использования не указаны, исходим из того что это Public Domain.
Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.
Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center
#opendata #russia #cryptocurrencies #crypto #datasets
Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.
Условия использования не указаны, исходим из того что это Public Domain.
Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.
Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center
#opendata #russia #cryptocurrencies #crypto #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Обнаружил ещё один инструмент по проверке данных validator [1], умеет делать кросс табличные проверки данных и использует схему из спецификации Frictionless Data [2]. Пока малоизвестный, но кто знает. Он выглядит неплохо по способу реализации, но есть проблема с самой спецификацией и о ней отдельно.
Я неоднократно писал про Frictionless Data, это спецификация и набор инструментов созданных в Open Knowledge Foundation для описания и публикации наборов данных. Спецификация много лет развивалась, вокруг неё появился пул инструментов, например, свежий Open Data Editor [3] помогающий готовить датасеты для публикации на дата платформах на базе ПО CKAN.
С этой спецификацией есть лишь одна, но серьёзная проблема. Она полноценно охватывает только плоские табличные файлы. Так чтобы работать со схемой данных, использовать их SDK, тот же Open Data Editor и тд. Это даёт ей применение для некоторых видов данных с которыми работают аналитики и куда хуже с задачами дата инженерными.
Существенная часть рабочих данных с которыми я сталкивался - это не табличные данные. К примеру, в плоские таблицы плохо ложатся данные о госконтрактах или юридических лицах или объектах музейных коллекций. Там естественнее применения JSON и, соответственно, построчного NDJSON.
Для таких данных куда лучше подходят пакеты валидации данных вроде Cerberus [4]. Я использовал её в случае с реестром дата каталогов [5] в Dateno и пока не видел решений лучше.
Ссылки:
[1] https://github.com/ezwelty/validator/
[2] https://specs.frictionlessdata.io
[3] https://opendataeditor.okfn.org
[4] https://docs.python-cerberus.org/
[5] https://github.com/commondataio/dataportals-registry/
#opensource #data #datatools #dataquality
Я неоднократно писал про Frictionless Data, это спецификация и набор инструментов созданных в Open Knowledge Foundation для описания и публикации наборов данных. Спецификация много лет развивалась, вокруг неё появился пул инструментов, например, свежий Open Data Editor [3] помогающий готовить датасеты для публикации на дата платформах на базе ПО CKAN.
С этой спецификацией есть лишь одна, но серьёзная проблема. Она полноценно охватывает только плоские табличные файлы. Так чтобы работать со схемой данных, использовать их SDK, тот же Open Data Editor и тд. Это даёт ей применение для некоторых видов данных с которыми работают аналитики и куда хуже с задачами дата инженерными.
Существенная часть рабочих данных с которыми я сталкивался - это не табличные данные. К примеру, в плоские таблицы плохо ложатся данные о госконтрактах или юридических лицах или объектах музейных коллекций. Там естественнее применения JSON и, соответственно, построчного NDJSON.
Для таких данных куда лучше подходят пакеты валидации данных вроде Cerberus [4]. Я использовал её в случае с реестром дата каталогов [5] в Dateno и пока не видел решений лучше.
Ссылки:
[1] https://github.com/ezwelty/validator/
[2] https://specs.frictionlessdata.io
[3] https://opendataeditor.okfn.org
[4] https://docs.python-cerberus.org/
[5] https://github.com/commondataio/dataportals-registry/
#opensource #data #datatools #dataquality
Forwarded from Ivan Begtin (Ivan Begtin)
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.
Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.
Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports
#opendata #datasets #dataquality
Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.
Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports
#opendata #datasets #dataquality
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
Forwarded from Ivan Begtin (Ivan Begtin)
Я лично не пишу научных статей, потому что или работа с данными, или писать тексты. Но немало статей я читаю, почти всегда по очень узким темам и пользуюсь для этого, в основном, Semantic Scholar и подобными инструментами. Смотрю сейчас Ai2 Paper Finder [1] от института Аллена и они в недавнем его анонсе [2] пообещали что он умеет находить очень релевантные ответы по по очень узким темам. Собственно вот пример запроса по узкой интересной мне теме и он нашёл по ней 49 работ.
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science
Forwarded from Ivan Begtin (Ivan Begtin)
Очень любопытный подход к созданию каталогов данных для распространения тяжёлых датасетов бесплатно 0$ Data Distribution [1]. Если вкратце то автор воспользовался сервисом Clouflare R2 в опции Egress и используя DuckDB и таблицы Iceberg, распространяя файлы в формате Parquet.
DuckDB там можно заменить на PyIceberg или Snowflake, главное возможность бесплатно подключить и захостить данные. У автора хорошее демо [2] с тем как это работает, ограничения только в том что надо вначале, достаточно быстро и автоматически получить ключ доступа к каталогу, но это как раз не проблема.
Это, с одной стороны, выглядит как чистый лайфхак ибо Cloudflare может изменить ценовую политику, а с другой очень даже полезная модель применения.
И сама работа с таблицами используя Apache Iceberg [3]. Если вы ещё не читали об этом подходе и инструменте, то стоит уделить время. Это тот случай когда каталог данных существует в дата инженерном контексте, а то есть по автоматизации работы с данными, но без СУБД. Однако поверх Iceberg можно построить свои системы управления данными, как открытые так и не очень. Это одна из фундаментальных технологий в том смысле что из неё и других как конструктор можно собрать свой дата продукт.
Ссылки:
[1] https://juhache.substack.com/p/0-data-distribution
[2] https://catalog.boringdata.io/dashboard/
[3] https://iceberg.apache.org/
#opensource #datacatalogs #dataengineering #analytics
DuckDB там можно заменить на PyIceberg или Snowflake, главное возможность бесплатно подключить и захостить данные. У автора хорошее демо [2] с тем как это работает, ограничения только в том что надо вначале, достаточно быстро и автоматически получить ключ доступа к каталогу, но это как раз не проблема.
Это, с одной стороны, выглядит как чистый лайфхак ибо Cloudflare может изменить ценовую политику, а с другой очень даже полезная модель применения.
И сама работа с таблицами используя Apache Iceberg [3]. Если вы ещё не читали об этом подходе и инструменте, то стоит уделить время. Это тот случай когда каталог данных существует в дата инженерном контексте, а то есть по автоматизации работы с данными, но без СУБД. Однако поверх Iceberg можно построить свои системы управления данными, как открытые так и не очень. Это одна из фундаментальных технологий в том смысле что из неё и других как конструктор можно собрать свой дата продукт.
Ссылки:
[1] https://juhache.substack.com/p/0-data-distribution
[2] https://catalog.boringdata.io/dashboard/
[3] https://iceberg.apache.org/
#opensource #datacatalogs #dataengineering #analytics
Substack
0$ Data Distribution
Ju Data Engineering Weekly - Ep 78
Forwarded from Ivan Begtin (Ivan Begtin)
Docker теперь умеет запускать ИИ модели [1], похоже что пока только на Mac с Apple Silicon, но обещают скоро и на Windows с GPU ускорением.
Пора обновлять ноутбуки и десктопы.😜
Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/
#ai #docker #llm
Пора обновлять ноутбуки и десктопы.😜
Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/
#ai #docker #llm
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Cloudflare R2 data catalog [1] свежий каталог данных на базе Apache Iceberg от Cloudflare поверх их сервиса хранения файлов R2. Хорошая новость, потому что R2 дешевле Amazon S3 при сравнимом качестве сервиса. Жду когда Backblaze запустит аналогичный сервис для их Backblaze B2
- xorq [2] читается как zork, фреймворк для обработки данных с помощью разных движков. Там и DuckDB, и Pandas, и DataFusion и др. Удобство в универсальности, но продукт пока малоизвестный, надо смотреть
- Iceberg?? Give it a REST! [3] автор рассуждает о том что без REST каталога Iceberg малополезен и, в принципе, про развитие этой экосистемы. Многие уже рассматривают стремительный взлёт Iceberg как хайп, что не отменяет того что технология весьма любопытная.
- BI is dead. Change my mind. [4] текст от Engeneering director в Clickhouse о том как меняется (может поменяться) BI в ближайшее время. TLDR: LLM + MCP + LibreChat. Чтение полезное для всех кто занимается внутренней аналитикой и использует Clickhouse
- Roadmap: Data 3.0 in the Lakehouse Era [5] изменения в экосистеме управления данными с точки зрения венчурного капитала. Простым языком для тех кто инвестирует средства в то какие новые технологии в дата инженерии появились и развиваются.
Ссылки:
[1] https://blog.cloudflare.com/r2-data-catalog-public-beta/
[2] https://github.com/xorq-labs/xorq
[3] https://roundup.getdbt.com/p/iceberg-give-it-a-rest
[4] https://www.linkedin.com/pulse/bi-dead-change-my-mind-dmitry-pavlov-2otae/
[5] https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era
#opensource #dataanalytics #datatools #dataengineering
- Cloudflare R2 data catalog [1] свежий каталог данных на базе Apache Iceberg от Cloudflare поверх их сервиса хранения файлов R2. Хорошая новость, потому что R2 дешевле Amazon S3 при сравнимом качестве сервиса. Жду когда Backblaze запустит аналогичный сервис для их Backblaze B2
- xorq [2] читается как zork, фреймворк для обработки данных с помощью разных движков. Там и DuckDB, и Pandas, и DataFusion и др. Удобство в универсальности, но продукт пока малоизвестный, надо смотреть
- Iceberg?? Give it a REST! [3] автор рассуждает о том что без REST каталога Iceberg малополезен и, в принципе, про развитие этой экосистемы. Многие уже рассматривают стремительный взлёт Iceberg как хайп, что не отменяет того что технология весьма любопытная.
- BI is dead. Change my mind. [4] текст от Engeneering director в Clickhouse о том как меняется (может поменяться) BI в ближайшее время. TLDR: LLM + MCP + LibreChat. Чтение полезное для всех кто занимается внутренней аналитикой и использует Clickhouse
- Roadmap: Data 3.0 in the Lakehouse Era [5] изменения в экосистеме управления данными с точки зрения венчурного капитала. Простым языком для тех кто инвестирует средства в то какие новые технологии в дата инженерии появились и развиваются.
Ссылки:
[1] https://blog.cloudflare.com/r2-data-catalog-public-beta/
[2] https://github.com/xorq-labs/xorq
[3] https://roundup.getdbt.com/p/iceberg-give-it-a-rest
[4] https://www.linkedin.com/pulse/bi-dead-change-my-mind-dmitry-pavlov-2otae/
[5] https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era
#opensource #dataanalytics #datatools #dataengineering
The Cloudflare Blog
R2 Data Catalog: Managed Apache Iceberg tables with zero egress fees
R2 Data Catalog is now in public beta: a managed Apache Iceberg data catalog built directly into your R2 bucket.
Forwarded from Ivan Begtin (Ivan Begtin)
По поводу каталогов данных на базы Apache Iceberg, я не поленился и развернул один на базе Cloudflare R2 о котором писал ранее и могу сказать что всё прекрасно работает, с некоторыми оговорками конечно:
- каталог в Cloudflare R2 настраивается очень просто, без танцев с бубном, но требует ввода карты даже если не надо платить (на бесплатном тарифе в R2 можно хранить до 10GB и бесплатный исходящий трафик). Фактически там просто одна галочка которую надо включить
- подключение к pyIceberg также крайне простое, и в части загрузки данных, и в части запросов к ним. Для всего есть примеры
- а вот для прямого подключения DuckDB к этому каталогу танцы с бубном явно понадобятся, потому что в документации нет ничего про R2, примеры только с Amazon S3 Tables и Amazon Glue, скорее всего всё вскоре появится, но пока ничего нет.
- не заработало передача параметров фильтрации в функции table.scan, что решается последующим запросом к не фильтрованным записям, но при фильтрации требует очень много памяти;
- какие-либо UI для каталогов Apache Iceberg пока отсутствуют. Вернее есть встроенные инструменты в облачных сервисах и возможность посмотреть на загруженное в open source каталогах типа Nessie и Lakehouse, но всё это встроенные интерфейсы. Явно напрашивается UI для Iceberg browser и доступ к таблицам из веб интерфейса через DuckDB WASM к примеру.
- спецификация предусматривает возможность задания метаданных таблицам и пространствам имён, но у меня это не сработало. Впрочем я бы метаданные по пространствам имён хранил бы отдельно. Как то это логичнее
- хотя UI для каталога нет, но UI для доступа к данным в нём можно обеспечить через UI к DuckDB. Хотя для DuckDB нет пока инструкций для подключения к R2, но есть примеры прямого чтения метаданных по файлу манифеста в JSON
- есть ощущение что для работы с Iceberg и подобными таблицами напрашивается кеширующий клиент. Собственно я не первый и не один кто об этом думает.
В целом выглядит перспективно как долгосрочная технология, но ещё много что требует оптимизации и инструментарий только на стадии становления.
#datatools #data #dataengineering #dataanalytics
- каталог в Cloudflare R2 настраивается очень просто, без танцев с бубном, но требует ввода карты даже если не надо платить (на бесплатном тарифе в R2 можно хранить до 10GB и бесплатный исходящий трафик). Фактически там просто одна галочка которую надо включить
- подключение к pyIceberg также крайне простое, и в части загрузки данных, и в части запросов к ним. Для всего есть примеры
- а вот для прямого подключения DuckDB к этому каталогу танцы с бубном явно понадобятся, потому что в документации нет ничего про R2, примеры только с Amazon S3 Tables и Amazon Glue, скорее всего всё вскоре появится, но пока ничего нет.
- не заработало передача параметров фильтрации в функции table.scan, что решается последующим запросом к не фильтрованным записям, но при фильтрации требует очень много памяти;
- какие-либо UI для каталогов Apache Iceberg пока отсутствуют. Вернее есть встроенные инструменты в облачных сервисах и возможность посмотреть на загруженное в open source каталогах типа Nessie и Lakehouse, но всё это встроенные интерфейсы. Явно напрашивается UI для Iceberg browser и доступ к таблицам из веб интерфейса через DuckDB WASM к примеру.
- спецификация предусматривает возможность задания метаданных таблицам и пространствам имён, но у меня это не сработало. Впрочем я бы метаданные по пространствам имён хранил бы отдельно. Как то это логичнее
- хотя UI для каталога нет, но UI для доступа к данным в нём можно обеспечить через UI к DuckDB. Хотя для DuckDB нет пока инструкций для подключения к R2, но есть примеры прямого чтения метаданных по файлу манифеста в JSON
- есть ощущение что для работы с Iceberg и подобными таблицами напрашивается кеширующий клиент. Собственно я не первый и не один кто об этом думает.
В целом выглядит перспективно как долгосрочная технология, но ещё много что требует оптимизации и инструментарий только на стадии становления.
#datatools #data #dataengineering #dataanalytics
Forwarded from Ivan Begtin (Ivan Begtin)
Знаете ли вы, что данные, прежде чем стать действительно полезными, проходят долгий путь? Он называется «конвейер данных» и в его работе принимают участие разные специалисты: дата-инженеры, дата-аналитики, BI-аналитики.
Об этапах этого процесса расскажет на вебинаре Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama и автор телеграм-канала.
Что разберем:
Тема богатая, тянет на целый курс, но за вебинар можно получить общее понимание процесса.
🕗 Встречаемся 15 апреля в 18:30 по МСК
#реклама #реклама_в_уютном_телеграм_канале
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Заметки Хакер
🖥 Репозиторий: Netdata — мониторинг в реальном времени
Netdata — это инструмент для мониторинга производительности и состояния систем и приложений в реальном времени с открытым исходным кодом.
— Этот инструмент способен визуализировать и выявлять проблемы в работе системы в режиме реального времени.
⏺ Ссылка на GitHub (https://github.com/netdata/netdata)
#Monitoring #DevOps
@hackernews_lib
Netdata — это инструмент для мониторинга производительности и состояния систем и приложений в реальном времени с открытым исходным кодом.
— Этот инструмент способен визуализировать и выявлять проблемы в работе системы в режиме реального времени.
⏺ Ссылка на GitHub (https://github.com/netdata/netdata)
#Monitoring #DevOps
@hackernews_lib
Forwarded from Заметки Хакер
🖥 Репозиторий: Twint — инструмент для сбора данных в Twitter
Twitter Intelligence Tool — это программа для сбора информации из Twitter, написанная на Python. Она позволяет получать твиты из аккаунтов без необходимости использовать API Twitter.
— Данный инструмент предоставляет возможность собирать твиты от определённых пользователей, а также твиты, которые касаются конкретных тем, хэштегов и трендов. Кроме того, он может извлекать из твитов конфиденциальные данные, такие как адреса электронной почты и номера телефонов.
⏺ Ссылка на GitHub (https://github.com/twintproject/twint)
#OSINT #Twitter #Scrape
@hackernews_lib
Twitter Intelligence Tool — это программа для сбора информации из Twitter, написанная на Python. Она позволяет получать твиты из аккаунтов без необходимости использовать API Twitter.
— Данный инструмент предоставляет возможность собирать твиты от определённых пользователей, а также твиты, которые касаются конкретных тем, хэштегов и трендов. Кроме того, он может извлекать из твитов конфиденциальные данные, такие как адреса электронной почты и номера телефонов.
⏺ Ссылка на GitHub (https://github.com/twintproject/twint)
#OSINT #Twitter #Scrape
@hackernews_lib