Цифровизируй это
1.65K subscribers
239 photos
4 videos
944 links
На этой площадке мы, команда VK Tech, собираем экспертные комментарии по текущей цифровой повестке, выясняем, что сейчас волнует бизнес, и выносим это на обсуждение.| tech.vk.com
Download Telegram
VMware vs OpenStack: сравниваем две платформы для развертывания инфраструктуры

Когда планируют развертывать виртуальную инфраструктуру, обычно выбирают между двумя платформами: VMware и Openstack. В статье мы рассказываем, почему сравнивать их не совсем корректно и какое решение больше подойдет для инфраструктуры на своих серверах и в облаке.
​​Как KGK Global повысила стабильность сервисов в три раза

🏢 Компания KGK Global проектирует оборудование для транспортных компаний и разрабатывает онлайн-сервисы для спутникового мониторинга транспорта.

🤔 Проблема. В KGK Global использовали собственное оборудование, на котором работали все сервисы компании. Со временем архитектура перестала справляться с растущей нагрузкой, а инструменты разработки отвечать требованиям актуальных клиентских задач. Из-за этого у компании регулярно возникали проблемы с доступностью онлайн-сервисов.

👍 Решением стала миграция на облачную платформу Mail․ru Cloud Solution. Архитектура PaaS-сервисов, аттестация по 152-ФЗ, а также надежные и быстрые каналы связи полностью удовлетворяют требованиям компании KGK Global. Также было внедрено новое хранилище — аналитическая СУБД ClickHouse, которая позволяет работать с большими объемами данных в режиме реального времени. После миграции в облако надежность работы сервисов возросла в три раза при сохранении стоимости содержания ИТ-инфраструктуры.

https://clck.ru/VkpJW
Как Kubernetes помогает работать с Big Data быстрее и эффективнее

В традиционной Hadoop-архитектуре есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред. Но есть и другой, Cloud-Native подход работы с большими данными. Он решает эти проблемы и задействует все преимущества облачных технологий.

В статье рассказываем, как в Data Science применяется Kubernetes и какие преимущества он может дать по сравнению с классическим развертыванием.
MLflow в облаке: простой и быстрый способ вывести ML-модели в продакшен

Подход MLOps помогает стандартизировать процесс разработки ML-моделей и сокращает время их выкатки в продакшен. Для построения MLOps нужны специальные инструменты, например, MLflow. Это один из самых стабильных и легких инструментов, позволяющий управлять жизненным циклом ML-моделей. Но чтобы получить от него максимум пользы, важно развернуть его в продуктивном отказоустойчивом варианте.

В статье рассказываем, как развернуть MLflow в облаке, настроить все необходимые сервисы, опубликовать и протестировать модель.
Три основных отличия базы данных от озера данных

В работе с базами и озерами данных есть принципиальные различия. Мы перевели короткую статью об устройстве Data Lake. Она пригодится тем, у кого нет большого опыта работы с реляционными базами данных.
Airflow — платформа для разработки, планирования и мониторинга сложных ETL-процессов, которая стала стандартом де-факто в своей области. В карточках — основные преимущества Airflow, а полное описание инструмента — в статье.
​​Аналитические сервисы Seeq в России будут предоставляться Mail․ru Cloud Solutions

Seeq — система для глубокой аналитики данных производственных процессов: анализ Big Data, смешение и интеграция данных, машинное обучение, предиктивная аналитика и многое другое. Система помогает повысить эффективность бизнеса за счет анализа производственных данных для решения прикладных задач.

Система Seeq расширяет экосистему отраслевых решений платформы Mail․ru Cloud Solutions. Теперь российский бизнес может получить доступ к аналитической системе, которая используется мировыми гигантами промышленности, прямо из отечественной облачной инфраструктуры.

Поддержку пользователей на этапе внедрения Seeq будет выполнять компания «ИндаСофт», которая выступает эксклюзивным партнером вендора на территории России.

https://clck.ru/Vn8qR
Подход Multicloud Native Service: как сделать систему максимально отказоустойчивой

Подход Multicloud Native Service сочетает в себе лучшее из подходов Multicloud и Cloud Native. Он позволяет построить 100% отказоустойчивую и высокодоступную систему. В статье подробно рассказываем о преимуществах и способах реализации подхода, а также о сложностях и методах их обхода.
​​Преимущества запуска Spark в Kubernetes

Для частого запуска Spark-приложений необходимо максимально упростить процесс запуска задач, а также уметь гибко настраивать их конфигурации. Для этого можно запускать Spark внутри Kubernetes. Вот основные преимущества такого подхода:

Изоляция сред. При переходе на новую версию Spark в традиционном Hadoop-кластере нужно организовать бесшовный апгрейд, проверить все приложения и пайплайны. Запуск Spark в Kubernetes решает эту проблему: каждый член команды может создать независимое окружение и использовать любую версию Spark.

Управление ресурсами. Kubernetes позволяет накладывать ограничения ресурсов на разные приложения и разные типы пайплайнов, например, используя Namespace.

Гибкое масштабирование. Kubernetes в облаке умеет задействовать огромное количество ресурсов при необходимости. Например, ваше приложение обычно использует 10 ядер процессора, но иногда ему нужно 500. Автомасштабирование кластера Kubernetes позволит получить дополнительные ресурсы лишь на то время, когда они реально нужны приложению.

Разделение Storage и Compute-слоев. В Hadoop-кластере каждая нода является и Storage, и Compute. Если приложению нужно добавить больше ядер, то добавляется новую ноду, которая также добавляет и диски, за которые надо платить. Аналогично и обратное. Облако же позволяет разделить Storage и Compute-слои: Kubernetes выступает в роли Compute, а S3-хранилище в роли Storage.

В статье мы подробнее рассказываем о запуске Spark внутри Kubernetes, а также на реальном примере показываем как это сделать.
​​В NERSC включили самый быстрый в мире суперкомпьютер с искусственным интеллектом

👉 Суперкомпьютер Perlmutter будет помогать в различных исследованиях, в том числе собирать воедино самую большую трехмерную карту видимой Вселенной и исследовать субатомные взаимодействия для создания более совершенных батарей и биотоплива.

👉 Но его главной задачей будет помощь в изучении темной энергии, которую открыл нобелевский лауреат Сол Перлмуттер, в честь которого и назван компьютер. Он будет обрабатывать данные от камеры для спектроскопии темной энергии (DESI), которая может захватывать до 5000 галактик за одну экспозицию.

👉 Perlmutter состоит из 6159 графических процессоров NVIDIA A100 с тензорными ядрами и 20-кратным ускорением, что делает его крупнейшей системой на базе A100 в мире. Он обеспечивает производительность ИИ почти в четыре экзафлопса.

👉 Раньше было невозможно провести полностью атомистическое моделирование больших систем из-за низкой скорости вычислений. Считается, что способность Perlmutter объединить ИИ и высокопроизводительные вычисления приведет к прорывам во многих областях науки: от материаловедения и квантовой физики до климатических прогнозов и биологических исследований.

Источник на английском
Как бизнесу использовать всю мощь GPU

Изначально графические процессоры использовались только для отрисовки графики. Но со временем они научились быстро обрабатывать большие объемы данных, и теперь используются в машинном обучении, промышленном интернете вещей и сейсморазведке.

В статье рассказываем, как и в каких сферах GPU помогает бизнесу сегодня.
Как «Ашан» построил платформу для работы с Big Data в публичном облаке

Современный ритейл уже не может обходиться без построения прогнозных и рекомендательных систем на основе Big Data. Но при больших объемах данных работать на локальных мощностях неэффективно. Поэтому некоторые компании приходят к облачной Big Data-платформе как к инструменту, который дает простую масштабируемость и управляемость.

Александр Дорофеев, ex Head of Big Data в компании «Ашан Ритейл Россия» рассказывает, зачем компании потребовалась специализированная Big Data-платформа, почему выбрали именно публичное облако и каких результатов удалось добиться после миграции.
​​К 2025 году 70% компаний сместят акцент с Big Data на Small Data и Wide Data

Компания Gartner опубликовала прогноз, согласно которому 70% компаний через 4 года переориентируются на использование «малых» и «широких» данных.

🤔 В чем проблема Big Data. Пандемия сломала многие модели AI/ML — они не успевают адаптироваться к глобальным изменениям. Для обучения моделей нужно много новых данных, а компании не успевают их собирать — все очень быстро меняется. Так что ИИ в некоторых сферах сейчас может испытывать «голод», когда данных для обучения не хватает.

👍 Решение: Small Data и Wide Data. Чтобы исправить эту проблему, можно использовать «малые» и «широкие» данные. Small Data — это данные, которые достаточно малы для понимания человеком: результаты исследований и опросов, эксперименты и интервью. А Wide Data позволяет анализировать и объединять структурированные и неструктурированные данные из различных источников.

🔁 Комбинация Small Data и Wide Data может заменить Big Data. Благодаря комбинации двух подходов можно создавать более надежные модели для искусственного интеллекта и решить проблему недостатка данных для обучения.

Подробнее: https://clck.ru/Vxqrw
Что такое Apache Spark и как он используется в Big Data

В работе с Big Data используется много разных инструментов. Даже для одних и тех же задач существует несколько технологий, у каждой из которых свои особенности и недостатки. Чтобы помочь разобраться во всех этих инструментах, мы рассказали об одном из них — Apache Spark. Вы узнаете, что это такое и как он используется в Big Data.
​​На платформе Mail․ru Cloud Solutions появилась Arenadata DB Enterprise

📊 Arenadata DB — распределенная аналитическая СУБД, построенная на основе open source-проекта Greenplum. Она предназначена для хранения и обработки больших объемов информации и позволяет построить надежное и масштабируемое корпоративное хранилище данных.

😍 Вы можете получить бесплатный доступ к Arenadata DB в версии Enterprise на три месяца, для этого оставьте заявку на странице решения: https://clck.ru/W3D6Z

🏢 В Enterprise-версию Arenadata DB встроены коннекторы к ClickHouse и Kafka, которые также доступны на платформе Mail․ru Cloud Solutions.

Благодаря коннекторам интеграция с этими продуктами пройдет заметно проще в сравнении с открытой версией Greenplum. Бизнес получит возможность быстро создать полноценную платформу для работы с Big Data.

☁️ Arenadata DB доступна на платформе Mail․ru Cloud Solutions в виде PaaS-сервиса. Это означает, что администрирование полностью переходит под ответственность провайдера.

Специалисты Mail․ru Group и Arenadata проконсультируют вас по построению платформ для работы с большими данными и помогут с интеграцией с другими решениями, в том числе развернутыми в локальной инфраструктуре. Также пользователям облачной Enterprise-версии будут доступны расширенная поддержка и обучение от разработчика.