Big Data Science [RU]
1.9K subscribers
51 photos
3 videos
405 links
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏https://t.me/bdscience — Big Data Science channel (english version)
💼https://t.me/bds_job — channel about Data Science jobs and career
Download Telegram
💡😎ТОП мартовских ивентов в Data Science
5 марта - AI 360: Вебинар по машинному обучению - Новосибирск, Россия - https://my.mts-link.ru/rdtex/ml1
6 марта - VK JT - Москва, Россия - https://vkjt.ru/
6-7 марта - OpenTalks.AI 2024 - Тбилиси, Грузия - https://opentalks.ai/
12 марта - Flow 2024 Spring - Онлайн - https://flowconf.ru/#media
14 марта - CX Tech Day 2024 - Москва, Россия - https://www.naumen.ru/products/phone/cx-day-2024/
12-14 марта - Epic AI Conference - Онлайн - https://epicgrowth.io/ai-conference
18-22 марта - Podlodka Product Crew - Онлайн - https://podlodka.io/productcrew
28 марта - DATA&AI 2024 - Москва, Россия - https://www.osp.ru/lp/data-ai2024
📊💡DeltaLake: преимущества и недостатки
Delta Lake - это уровень абстракции для работы с данными в хранилищах данных. Delta Lake предоставляет дополнительные возможности и гарантии целостности данных для хранения и обработки больших объемов данных.
Преимущества Delta Lake:
1. Транзакционная согласованность: Delta Lake предоставляет ACID-транзакции, обеспечивая транзакционную согласованность данных. Это гарантирует надежность операций и управление целостностью данных.
2. Партиционирование: Delta Lake поддерживает партиционирование данных, что улучшает производительность запросов и управление данными. Партицирование позволяет эффективно фильтровать данные на основе определенных критериев.
3. Улучшенная производительность: Delta Lake оптимизирует выполнение запросов и операций на данных, что ведет к улучшенной производительности в сравнении с обычными хранилищами данных.
4. Обработка потоковых данных: Delta Lake поддерживает потоковую обработку данных, что позволяет мгновенно обновлять и анализировать данные в реальном времени.
Недостатки Delta Lake:
1. Сложность настройки: Некоторые пользователи могут столкнуться с трудностями при настройке и использовании Delta Lake из-за его расширенных функциональных возможностей.
2. Совместимость: Вопросы совместимости могут возникнуть при интеграции Delta Lake с другими инструментами и системами хранения данных.
В целом, Delta Lake предоставляет мощные инструменты для управления и обработки данных, но использование его следует рассматривать с учетом конкретных требований проекта и опыта команды.
📊💡OAC: преимущества и недостатки
Oracle Analytics Cloud (OAC) представляет собой мощный инструмент для анализа данных, предоставляющий возможности бизнес-аналитики в облаке.
Преимущества Oracle Analytics Cloud:
1. Обширные возможности анализа данных: OAC предоставляет широкий спектр инструментов для визуализации данных, создания отчетов и анализа трендов. Он объединяет данные из различных источников, обеспечивая всесторонний взгляд на бизнес-процессы.
2. Использование облачных технологий: Oracle Analytics Cloud строится на облачных технологиях, что обеспечивает масштабируемость и гибкость в обработке больших объемов данных. Это также уменьшает нагрузку на внутренние ИТ-ресурсы компании.
3. Интеграция с другими продуктами Oracle: OAC хорошо интегрируется с другими продуктами Oracle, такими как Oracle Database, Oracle Cloud Infrastructure и другие. Это обеспечивает единое рабочее пространство для данных и обеспечивает совместимость с существующими системами.
4. Безопасность данных: Oracle Analytics Cloud обеспечивает высокий уровень безопасности данных, включая механизмы шифрования и управление доступом.
5. Автоматизированный анализ и машинное обучение: OAC предоставляет возможности автоматизированного анализа данных и интеграции машинного обучения, что позволяет компаниям выявлять скрытые тренды и прогнозировать будущие события.
Недостатки Oracle Analytics Cloud:
1. Сложность внедрения: Развертывание Oracle Analytics Cloud может быть сложным процессом, требующим определенных технических навыков. Это может вызвать трудности для небольших компаний или организаций с ограниченными ресурсами.
2. Стоимость использования: Платные лицензии и обслуживание OAC могут оказаться дорогими для малых предприятий. Необходимо тщательно оценить бюджетные возможности перед принятием решения об использовании данной платформы.
3. Ограниченная гибкость пользовательского интерфейса: Несмотря на обширные возможности, пользовательский интерфейс OAC может быть менее гибким по сравнению с некоторыми конкурентами, что может усложнить адаптацию для определенных бизнес-потребностей.
В целом, Oracle Analytics Cloud представляет собой мощное аналитическое решение, но компании должны внимательно взвесить его преимущества и недостатки, учитывая свои бизнес-цели и технические возможности.
🌲💡Новый датасет о лесах
FinnWoodlands - это датасет, который включает в себя 4226 объектов, аннотированных вручную, из которых 2562 объекта (60,6%) соответствуют стволам деревьев, классифицированным в три различные категории экземпляров, а именно "Ель", "Береза" и "Сосна".
Помимо стволов деревьев, существуют аннотации объектов "Препятствия", а также семантические классы "Озеро", "Земля" и "Дорожка".
Этот датасет может быть использован в различных приложениях, где важно целостное представление окружающей среды. В нем предоставлен начальный бенчмарк, используя три модели для сегментации экземпляров, паноптической сегментации и заполнения глубины.
В целом, FinnWoodlands состоит из стереоизображений RGB, облаков точек и карт разреженной глубины, а также справочных аннотаций для семантической сегментации.
😎📊Готовый набор аннотированных изображений
Набор данных ImageNet включает в себя 14 197 122 аннотированных изображений, структурированных в соответствии с иерархией WordNet.
С начала 2010 года этот набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) и служит стандартом для задач классификации изображений и обнаружения объектов.
Этот обширный публичный набор данных содержит изображения, которые были вручную аннотированы для целей обучения.
💡⚔️Sensei подскажет
Sensei - это сравнительно новый Python-инструмент генерации синтетических данных с использованием таких систем, как OpenAI, MistralAI or AnthropicAII.
Для запуска необходимо произвести следующую предустановку:
pip install openai mistralai numpy
Разработчики также написали подробную инструкцию по настройке.
📊😎💡Подборка сервисов для работы с Big Data и интеграции с различными СУБД
DBeaver - сервис, который подходит для интеграции с различными БД, такими как MySQL или Oracle. Данное приложение предназначено ля управления базами данных. Взаимодействовать с реляционными базами данных ему помогает интерфейс JDBC. Редактор DBeaver позволяет применять большое количество дополнительных плагинов и дает подсказки по заполнению кода, подсвечивая синтаксис. Менеджер приложения поддерживает свыше 80 баз данных.
Mixpanel — это система для аналитики и анализа поведения пользователей. Она включает в себя такие функции, как:
1. Сегментирование пользователей
2. Отправка своим пользователям уведомлений внутри приложений
3. A/B тестирование для различных уведомлений
4. Интеграция пользовательских опросов в приложения через Mixpanel Surveys
App Annie — это сервис для аналитики и получения достоверных данных, чтобы принимать важные решения на всех этапах бизнеса мобильных приложений. App Annie поможет изучить конкурентов, состояние рынка, отследить загрузки приложений, доходы, использование, вовлеченность и рекламу. Сервис также позволяет оптимизировать продукты для магазинов приложений и повысить эффективность методов продвижения, показатель удержания и эффективно поддерживать целевую аудиторию. App Annie включает в себя рыночную аналитику, аналитику приложений по нескольким магазинам и аналитику конкурентов.
Adjust — оптимизатор всех процессов продвижения продукта. Собирает сведения о том, откуда пользователи перешли на страницу вашего приложения. Он представляет собой набор инструментов для измерений и аналитики, с помощью которых маркетологи могут наблюдать за развитием своих приложений и направлять его в течение всего жизненного цикла продукта
⚔️😎💡ClickHouse vs Greenplum
Clickhouse и GreenPlum - это известные СУБД для анализа больших данных , которые пользуются большой популярностью. Однако существуют критерии, по которым необходимо однозначно выбрать, какую из данных СУБД использовать в той или ино ситуации. Для этого рассмотрим их основные преимущества и недостатки.
Преимущества ClickHouse:
1. Высокая производительность: ClickHouse спроектирован для аналитических задач и обладает высокой скоростью выполнения запросов на чтение больших объемов данных. Это делает его идеальным выбором для аналитики данных и OLAP (аналитической обработки онлайн)
2. Эффективное сжатие данных: ClickHouse использует различные методы сжатия данных, что позволяет значительно сократить объем хранимой информации без потери производительности.
3. Горизонтальное масштабирование: ClickHouse легко масштабируется горизонтально, что позволяет увеличивать производительность системы путем добавления новых узлов.
Недостатки ClickHouse:
1. Ограниченная поддержка транзакций: ClickHouse в основном ориентирован на аналитические задачи и не обладает полноценной поддержкой транзакций, что может быть проблемой для некоторых приложений.
2. Ограниченный набор функций: несмотря на свою производительность, ClickHouse может оказаться недостаточным для некоторых сложных аналитических задач из-за ограниченного набора встроенных функций.
Преимущества Greenplum:
1. Поддержка транзакций: Greenplum предоставляет полноценную поддержку транзакций и ACID (атомарность, согласованность, изолированность, долговечность), что делает его идеальным выбором для OLTP (онлайн-транзакционной обработки) и OLAP приложений.
2. Широкий набор функций: Greenplum предлагает богатый набор встроенных функций и возможностей аналитической обработки, что делает его подходящим для различных типов аналитических задач.
3. Поддержка распределенных транзакций: Greenplum обеспечивает поддержку распределенных транзакций и масштабируется горизонтально, что позволяет обрабатывать большие объемы данных.
Недостатки Greenplum:
1. Сложность управления: Greenplum может потребовать больше усилий и опыта для управления и настройки, особенно при работе с крупными кластерами.
2. Менее эффективное сжатие данных: По сравнению с ClickHouse, Greenplum может не обеспечивать такое же высокое уровень сжатия данных, что может привести к более высокому использованию дискового пространства и меньшей производительности
В конечном итоге, выбор между ClickHouse и Greenplum зависит от конкретных потребностей задачи. ClickHouse лучше подходит для аналитических задач с высокими требованиями к производительности, в то время как Greenplum может быть предпочтительным выбором для приложений, где важна поддержка транзакций и широкий набор функций.
📚💡Подборка книг по различным технологиям обработки Big Data
Spark: The Definitive Guide - книга рассказывает о том, как использовать, развертывать и поддерживать Apache Spark с помощью этого всеобъемлющего руководства, написанного создателями фреймворка кластерных вычислений с открытым исходным кодом.
Hadoop. Подробное руководство - книга, в которой досконально и доступно описаны все возможности Apache Hadoop.
Apache Kafka. Потоковая обработка и анализ данных - в книге описаны принципы проектирования Big Data брокера Kafka, гарантии надежности, ключевые API и детали архитектуры
Kubernetes в действии - книга детально рассказывает о Kubernetes – открытом программном обеспечении Google для автоматизации развёртывания, масштабирования и управления приложениями масштабирования и управления Big Data приложениями
Cassandra: The Definitive Guide: Distributed Data at Web Scale - это руководство рассказывает, система управления базами данных Cassandra обрабатывает сотни терабайт данных, сохраняя высокую доступность в нескольких центрах обработки данных
MongoDB: полное руководство - в этой книге детально рассматривается MongoDB – мощная система управления базами данных. Здесь также можно узнать о том, как эта безопасная, высокопроизводительная система обеспечивает гибкие модели данных, высокую их доступность и горизонтальную масштабируемость.
💡😎Датасеты для задачи преобразования текста в звук
FAIR выложили в открытый доступ проект системы для преобразования текста в звук.
Помимо основного проекта также имеются датасеты в JSON-формате.
Подробную инструкцию по использованию датасетов можно найти здесь
💡📊Данные для обучения, которые использовались в ComCLIP
CLIP (Contrastive Language-Image Pre-Training) — это нейросеть, разработанная OpenAI для выполнения задач визуального, а также языкового понимания. Алгоритмы нацелены на понимание связи между текстом и изображениями.
ComCLIP - улучшенная версия CLIP для сопоставления текстового и графического представления. ComCLIP может смягчать ложные корреляции, вносимые предварительно обученными моделями CLIP, и динамически оценивать важность каждого компонента. Эксперименты проводились на четырех наборах данных для композиционного сопоставления изображений и текстов.
В сети в открытом доступе лежат эти датасеты и найти их можно по этой ссылке
💡😎💊Google опубликовали новый датасет изображений состояния кожи
SCIN - датасет с открытым доступом, который содержит данные о состоянии кожи. Этот датасет был собран у пользователей-добровольцев Google Search в Соединенных Штатах с помощью специального приложения.
SCIN содержит 10 000+ изображений по распространенным дерматологическим заболеваниям. Материалы включают изображения, историю болезни и информацию о симптомах, а также самостоятельно предоставленный тип кожи по шкале Фитцпатрика.

📄Документация

☁️Ссылка для загрузки
🌎ТОП апрельских ивентов в Data Science
2 апреля - CUP IT 2024. Финал - Онлайн - https://changellenge.com/championships/changellenge-cup-it-2024/
5 апреля - Youth RIGF 2024 - Москва, Россия - https://youth.rigf.ru/
17-18 апреля - Data Fusion 2024 - Москва, Россия - https://data-fusion.ru/conference
20-21 апреля - Merge 2024. Иннополис - Казань, Россия - https://innopolis2024.mergeconf.ru/
23 апреля - CLOUD DAY 2024 - Москва, Россия
26 апреля - Dump - Екатеринбург, Россия - https://dump-ekb.ru/
27 апреля - BIG DATA & ARTIFICIAL INTELLIGENCE DAY - Москва, Россия - https://www.tadviser.ru/a/775734
⚔️Реляционные СУБД vs NOSQL СУБД: преимущества и недостатки
Реализация баз данных – это фундаментальный элемент современных информационных технологии.В мире баз данных существует две основные парадигмы: реляционные СУБД и NoSQL СУБД. Каждая из них имеет свои преимущества и недостатки, которые стоит учитывать при выборе подходящей для конкретной задачи.
Реляционные базы данных основаны на модели данных, известной как реляционная модель. В таких базах данных данные хранятся в виде таблиц, которые состоят из строк (записей) и столбцов (полей). Структура данных определяется заранее заданной схемой, которая описывает типы данных каждого столбца.
Преимущества реляционных СУБД:
1. Структурированность данных: Реляционные СУБД хранят данные в виде таблиц, что делает их легко понятными и организованными.
2. ACID-свойства: Гарантирует атомарность, согласованность, изолированность и долговечность транзакций, что делает их надежными для приложений, требующих высокой степени целостности данных.
3. SQL-язык: Мощный и широко используемый язык запросов, обеспечивающий стандартизацию и удобство в работе с данными.
Недостатки:
1. Вертикальное масштабирование: Реляционные СУБД могут столкнуться с ограничениями вертикального масштабирования, что означает, что при достижении предела производительности их придется переносить на более мощные, и, часто, более дорогие серверы.
2. Сложность схемы: Изменение схемы данных может быть затруднительным и требовать дополнительных усилий и времени.
3. Сложность горизонтального масштабирования: Даже при использовании техник разделения данных, горизонтальное масштабирование реляционных СУБД может быть сложным и требовать дополнительной работы по конфигурации и оптимизации.
NoSQL базы данных разработаны для работы с неструктурированными и полуструктурированными данными. Они предлагают гибкую схему данных, что позволяет хранить данные без явного определения схемы заранее.
Преимущества NOSQL:
1. Гибкость структуры данных: NoSQL СУБД позволяют хранить неструктурированные данные, что делает их идеальным выбором для приложений с изменяющимися требованиями к данным.
2. Горизонтальная масштабируемость: Многие NoSQL базы данных спроектированы с учетом горизонтального масштабирования, что делает их подходящими для работы с большими объемами данных и высокими нагрузками.
Недостатки:
1. Отсутствие ACID-свойств: В отличие от реляционных СУБД, NoSQL базы данных могут жертвовать некоторыми ACID-свойствами в пользу производительности и масштабируемости.
2. Ограниченная поддержка SQL-языка запросов: В некоторых NoSQL СУБД функциональность языка запросов может быть ограничена, что может привести к затруднениям в выполнении сложных запросов или аналитических операций.
Выбор между реляционными и NoSQL СУБД зависит от конкретных требований и характеристик проекта. Реляционные СУБД обеспечивают высокую целостность данных, в то время как NoSQL СУБД позволяют работать с большими объемами неструктурированных данных и обеспечивают гибкость и масштабируемость.
📊😎💡Выпущены два самых огромных открытых датасета для распознавания текста
Наборы данных содержат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов
VQA - датасет, который используется для разработки и оценки моделей машинного обучения, способных отвечать на вопросы, связанные с изображениями. В датасете каждому изображению приписаны вопросы, а также правильные ответы на эти вопросы. Этот датасет дополнен аннотациями из проекта idl_data Бриттена. Дополненный датасет можно загрузить с помощью Python-скрипта:
from datasets import load_dataset
dataset = load_dataset("pixparse/idl-wds")

PDFA - это набор документов, отфильтрованный из корпуса SafeDocs, он же CC-MAIN-2021-31-PDF-UNTRUNCATED. Этот корпус предназнается для всестороннего анализа pdf-документов. Дополненный датасет можно загрузить с помощью Python-скрипта:
from datasets import load_dataset
dataset = load_dataset("pixparse/pdfa-eng-wds")
📊📉Подборка Python-библиотек для работы с пространственными данными
Earth Engine API - позволяет получить доступ к обширной коллекции геопространственных данных Google Earth Engine и выполнять задачи анализа с помощью Python.
TorchGeo (PyTorch) - предоставляет инструменты и утилиты для работы с геопространственными данными в PyTorch.
Arcpy (Esri) - это библиотека Python, предоставляемая Esri для работы с геопространственными данными на платформе ArcGIS. Она позволяет автоматизировать задачи геообработки и выполнять пространственный анализ.
Rasterio - это библиотека для чтения и записи геопространственных растровых наборов данных. Она обеспечивает эффективный доступ к растровым данным и позволяет выполнять различные операции с геоданными.
GDAL (Open-Source Geospatial Foundation) - это мощная библиотека для чтения, записи и манипулирования геопространственными растровыми и векторными форматами данных.
Shapely - это библиотека для геометрических операций в Python. Она позволяет создавать, манипулировать и анализировать геометрические объекты.
RSGISLib - имеет функции для обработки тепловых изображений, включая радиометрическую коррекцию, оценку температуры поверхности земли.
WhiteboxTools - это библиотека для геопространственного анализа и обработки данных. Она предлагает полный набор инструментов для таких задач, как анализ рельефа, гидрологическое моделирование и обработка данных LiDAR.
💡😎📊Синтетический набор данных Text-to-SQL с открытым исходным кодом
Gretel выпустила крупнейший набор данных Text-to-SQL с открытым исходным кодом для ускорения обучения моделей ИИ
Как утверждают разработчики, по состоянию на апрель 2024 года набор данных считается самым большим и разнообразным синтетическим набором данных преобразования текста в SQL, доступным на сегодняшний день.
Датасет содержит около 23 млн. токенов, включая около 12 млн токенов SQL, а также широкий диапазон уровней сложности SQL, включая подзапросы, одиночные соединения, множественные соединения, агрегации, оконные функции и операции над множествами.
Для загрузки датасета через Python API, необходимо прописать следующи скрипт:
from datasets import load_dataset
dataset = load_dataset("gretelai/synthetic_text_to_sql")
😎📊Данные, используемые при обучении MA-LMM-модели
MA-LMM (Memory-Augmented Large Multimodal Model) - это большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора. Вместо того, чтобы пытаться обрабатывать больше кадров одновременно, как в большинстве существующих моделей, MA-LMM обрабатывает видео онлайн с сохранением прошлой информации в банк памяти.
В открытый доступ выложили данные, на которых обучалась модель. Эти данные представляют собой 2 весьма больших датасета, которые можно загрузить по этой ссылке
💡Опубликован большой датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
😎💡Где взять данные? Несколько открытых репозиториев
Awesome Data - Github репозиторий. Список открытых наборов данных с прямыми ссылками на скачивание. Есть данные с видео, картинками, аудио, и вообще со всем.
Open ML - источник, который включает в себя 20k+ датасетов. Есть также библиотеки для Python и R.
Open Data Registry - хранилище данных от AWS. Тут есть некоторые датасеты, которых больше нигде не найти.
Papers with Code. - подборки датасетов, которые использовались в реальных исследованиях
Dagshub - хранилище, в котором Датасеты удобно поделены по областям применения (NLP, CV, пр.)