Forwarded from Smart Data (Denis Solovyov)
Всем привет. На этих выходных хочу закончить разбор всех 4-х факторов эффективности работы компании в целом и data team, в частности.
Мы закончили наш цикл мини-интервью со специалистами и руководителями разных компаний, которые были посвящены 3 фактору эффективности - "Структура команды".
Исходя из всех интервью можно сделать такие выводы:
- Структура команды зависит от 2-х главных факторов: уровень развития data-driven культуры и размер компании. Именно в такой последовательности, так как без культуры работы с данными большие компании не будут уделять должное внимание аналитической функции и структуре.
- Команда по работе с данными - это предприятие внутри предприятия. Т.е. подразделение, отвечающее за данные и аналитику переживает такие же стадии развития, как обычное предприятие (при условии развития, конечно): сначала оно имеет в своём штате небольшое количество сотрудников-универсалов, назовём их full-stack аналитиками, которые самостоятельно могут собрать данные, обработать их, визуализировать, проанализировать и сделать выводы из них. По мере развития компании, увеличивается количество бизнес-процессов и данных. Необходимо использовать более сложные технологии, в которых нужно иметь глубокую экспертизу. Становится очень проблематично одному специалисту быть экспертом во всех сферах (инжиниринге, аналитике и data science). Поэтому команда плавно расширяет штат и переходит к разделению труда.
- Работа с данными стала мейнстримом сравнительно недавно, поэтому сложно сказать, какая структура команды наиболее эффективная. Многие компании довольно гибкие в этом плане и методом проб и ошибок, экспериментами нащупывают наиболее подходящую под их бизнес-нужды структуру.
Получилась очень классная рубрика. Думаю, в будущем сделаем интервью и на другие темы)
P.S. Завтра опубликую пост о последнем факторе и начнём двигаться уже к техническим концепциям и конкретным инструментам.
Мы закончили наш цикл мини-интервью со специалистами и руководителями разных компаний, которые были посвящены 3 фактору эффективности - "Структура команды".
Исходя из всех интервью можно сделать такие выводы:
- Структура команды зависит от 2-х главных факторов: уровень развития data-driven культуры и размер компании. Именно в такой последовательности, так как без культуры работы с данными большие компании не будут уделять должное внимание аналитической функции и структуре.
- Команда по работе с данными - это предприятие внутри предприятия. Т.е. подразделение, отвечающее за данные и аналитику переживает такие же стадии развития, как обычное предприятие (при условии развития, конечно): сначала оно имеет в своём штате небольшое количество сотрудников-универсалов, назовём их full-stack аналитиками, которые самостоятельно могут собрать данные, обработать их, визуализировать, проанализировать и сделать выводы из них. По мере развития компании, увеличивается количество бизнес-процессов и данных. Необходимо использовать более сложные технологии, в которых нужно иметь глубокую экспертизу. Становится очень проблематично одному специалисту быть экспертом во всех сферах (инжиниринге, аналитике и data science). Поэтому команда плавно расширяет штат и переходит к разделению труда.
- Работа с данными стала мейнстримом сравнительно недавно, поэтому сложно сказать, какая структура команды наиболее эффективная. Многие компании довольно гибкие в этом плане и методом проб и ошибок, экспериментами нащупывают наиболее подходящую под их бизнес-нужды структуру.
Получилась очень классная рубрика. Думаю, в будущем сделаем интервью и на другие темы)
P.S. Завтра опубликую пост о последнем факторе и начнём двигаться уже к техническим концепциям и конкретным инструментам.
Вчера и сегодня идет конференция OpepTalk.AI, так что будет несколько сообщений на этот счет, вот пока первый материал
Forwarded from gonzo-обзоры ML статей
Слайды с сегодняшнего выступления про железо для AI.
https://www.slideshare.net/grigorysapunov/ai-hardware-landscape-2021
https://www.slideshare.net/grigorysapunov/ai-hardware-landscape-2021
www.slideshare.net
AI Hardware Landscape 2021
What's the landscape of the AI hardware right now: CPU, GPU, FPGA, ASIC, Neuromorphic, etc.
Рабочее место D-people
Очередное интервью в рамках премии CDO Awards - CDO Сбербанка Бориса Рабиновича о проекте “Фабрика данных”
Проект на рынке очень известный, но информации мало, что делает этот материал особенно интересным. Но кроме этого должен отметить, что проект реально очень крутой и прорывной в области демократизации данных, особенно с учетом масштаба такой организации, как Сбербанк.
Основные факты:
Основные сложности проекта:
https://www.computerworld.ru/cio/articles/040221-Tsifrovye-lyudi-Sbera?fbclid=IwAR3lrbDCEJoMC8d10GHhGspl4BKEsGE1423ELxZ2N8CCPNX91FO1G_rofEk
Очередное интервью в рамках премии CDO Awards - CDO Сбербанка Бориса Рабиновича о проекте “Фабрика данных”
Проект на рынке очень известный, но информации мало, что делает этот материал особенно интересным. Но кроме этого должен отметить, что проект реально очень крутой и прорывной в области демократизации данных, особенно с учетом масштаба такой организации, как Сбербанк.
Основные факты:
•
Ключевой эффект проекта — сокращение времени дата-сайентиста на построение модели с трех месяцев до дней. Аналитикам доступна “витрина данных” — дата-сеты, построенные на основе копий систем — источников информации, с полным описанием атрибутного состава и другой необходимой информации, а так же максимально быстрая и автоматизированная организация “песочницы” для работы с данными - магазин инфраструктуры, где можно выбрать виртуальный сервер необходимой конфигурации — с нужным числом ядер, объемом памяти и «начинкой». Заказываешь — и в течение часа разворачивается Hadoop и создается твой персональный сервер. Специально для тебя! Получается новый клиентский опыт: развернув сервер, заказываешь данные в супермаркете, получаешь права доступа — и эти данные автоматически отгружаются на твой сервер. •
К платформе на текущий момент подключены более 250 источников внутренних и внешних данных. Платформа состоит из более 100 элементов и сервисов, таких как компонент загрузки данных в реальном времени, журналирование действий пользователя, аудит, проверка прав доступа, карта данных как средство навигации, механизм проверки качества данных, механизм распространения данных и т. п. В «Фабрике данных» около 12 Пбайт полезных данных, а с учетом репликаций — около 40 Пбайт. •
Отдельно в банке разработана и утверждена политика по управлению корпоративными данными —документ, свод правил, вокруг которого выстраиваются организационная вертикаль CDO, набор процессов управления данными, роли, их функции и взаимодействие друг с другом (CDO банка и блоков, владельцы предметных областей, менеджеры данных, дата-стюарды, дата-инженеры, архитекторы по работе с данными и др.). •
Технологический стэк: основное хранение данных осуществляется в Hadoop в сборке от Cloudera, Apache Kafka, Spark, Oracle Golden Gate, OpenStack/OpenShift + собственная разработка на Java, фронтенд сделан на JavaScript + сделали свою сборку стека Hadoop, назвали ее Sberbank Data Platform, также будет собственная сборка реляционной БД Greenplum. Основные сложности проекта:
•
Во-первых, надо было сделать так, чтобы созданные инновационные компоненты стабильно работали с нужной функциональностью и нужными объемами данных. Через это надо было пройти, набить шишек и масштабироваться. •
Во-вторых, нужно было поменять процессы банка так, чтобы права доступа и согласования стало возможно заказывать и получать автоматизированно и чтобы все эти механизмы были узаконены. Вывод компонентов в эксплуатацию потребовал изменения регламентов по порядку проведения приемо-сдаточных испытаний и по правилам вывода моделей — это был большой труд. •
Но наиболее сложной была человеческая история: необходимо было убедить людей в том, что мы делаем действительно нужные, полезные и перспективные вещи. Добиться, чтобы люди начали доверять созданному нами решению, стали амбассадорами нового бренда и начали «переманивать» коллег выходить из привычных им систем, убеждать их в том, что новое решение эффективнее и за ним будущее.https://www.computerworld.ru/cio/articles/040221-Tsifrovye-lyudi-Sbera?fbclid=IwAR3lrbDCEJoMC8d10GHhGspl4BKEsGE1423ELxZ2N8CCPNX91FO1G_rofEk
Вестник цифровой трансформации | «Директор информационной службы»
«Цифровые люди» Сбера
В Сбере создали «Рабочее место D-people» — удобный сервис для исследователей данных, который позволил сократить время разработки и вывода модели в производство с более чем трех месяцев до одного дня. CDO Сбербанка Борис Рабинович рассказывает о фабрике, лаборатории…
Абсолютно фееричный доклад Константина Анохина с конференции OpenTalk 2021 про недостающие элементы доминирующего сейчас нейросетевого подхода к моделированию ИИ. Must see, очень интересно и доступно даже не профессионалам.
PS запись пиратская, пока официальную не выложили.
https://www.youtube.com/watch?v=LH-_NnFZIE8&list=WL&index=6&t=1s
PS запись пиратская, пока официальную не выложили.
https://www.youtube.com/watch?v=LH-_NnFZIE8&list=WL&index=6&t=1s
YouTube
Нейрореалистичный искусственный интеллект - доклад К. В. Анохина на конференции OpenTalks.AI 2021
Нейрореалистичный искусственный интеллект - недостающие звенья: Пленарный доклад К. В. Анохина на конференции OpenTalks.AI 2021
https://opentalks.ai
https://opentalks.ai
nlpin2020-210204134144.pdf
1.5 MB
Презентация Григория Сапунова “NLP in 2020”
Презентация с доклада на OpenTalk.AI 2021 про основные вехи 2020 года в области NLP.
Собственно основные вехи:
⁃ Появление супер больших языковых моделей и, в частности, GPT-3
⁃ Тенденция к тому, что увеличение размера модели ведет к уменьшению количества данных, необходимых для обучения
⁃ Обучать большие модели не только дорого для людей, но и для природы, в силу выделения CO2 дата-центрами
⁃ Большинство языковых моделей являются мульта-языковыми
⁃ Языковые модели преодолели очередной барьер в сравнении с человеком в “понимании” общих и открытых вопросов (benchmarks типа SuperGLUE и тп)
⁃ Архитектуры языковых моделей продолжают развиваться: внедрение трансформеров, памяти и тп
⁃ Демократизацию использования языковых моделей дрейвят облака и доступное в них API, которое делают крупные компании
Полная презентация во вложении
Презентация с доклада на OpenTalk.AI 2021 про основные вехи 2020 года в области NLP.
Собственно основные вехи:
⁃ Появление супер больших языковых моделей и, в частности, GPT-3
⁃ Тенденция к тому, что увеличение размера модели ведет к уменьшению количества данных, необходимых для обучения
⁃ Обучать большие модели не только дорого для людей, но и для природы, в силу выделения CO2 дата-центрами
⁃ Большинство языковых моделей являются мульта-языковыми
⁃ Языковые модели преодолели очередной барьер в сравнении с человеком в “понимании” общих и открытых вопросов (benchmarks типа SuperGLUE и тп)
⁃ Архитектуры языковых моделей продолжают развиваться: внедрение трансформеров, памяти и тп
⁃ Демократизацию использования языковых моделей дрейвят облака и доступное в них API, которое делают крупные компании
Полная презентация во вложении
Разработка_ИТ_стратегии_в_крупных_компаниях_t_me_it_ace_geronimus.pdf
8.7 MB
Как делать классическую ИТ-стратегию с примерами - лучший учебный материал в русскоязычном интернет (по моему мнению)
Посмотрел все источники по тому как создавать ИТ-стратегию на русском языке.
Считаю этот лучшим с точки зрения возможности применения на практике - и с точки зрения подачи материала, и примеров.
Документ правда старый: некоторые вещи уже так не делаются как по контенту (ну типа в ИТ-инфраструктуре уже другие подходы), так и по визуализации. Но это все можно найти в других источниках. А с точки зрения «как делать калссическую ИТ-стратегию» прямо нравится.
P.S. Под «классической» ИТ-стратегией понимаю стратегию от целей бизнеса, а не когда мы помогаем сформулировать цели бизнеса с помощью ИТ.
#практика #итстратегия #кейс #геронимус #лучшее
via @it_ace
💬 Комментировать
Посмотрел все источники по тому как создавать ИТ-стратегию на русском языке.
Считаю этот лучшим с точки зрения возможности применения на практике - и с точки зрения подачи материала, и примеров.
Документ правда старый: некоторые вещи уже так не делаются как по контенту (ну типа в ИТ-инфраструктуре уже другие подходы), так и по визуализации. Но это все можно найти в других источниках. А с точки зрения «как делать калссическую ИТ-стратегию» прямо нравится.
P.S. Под «классической» ИТ-стратегией понимаю стратегию от целей бизнеса, а не когда мы помогаем сформулировать цели бизнеса с помощью ИТ.
#практика #итстратегия #кейс #геронимус #лучшее
via @it_ace
💬 Комментировать
OFFTOPIC: ИМХО просто отличная книга по личной эффективности.
https://www.litres.ru/bred-stalberg/na-pike/
https://www.litres.ru/bred-stalberg/na-pike/
Всем привет! Пока готовиться обзор очередной статьи, сделаю анонс моей лекции, вдруг кому то будет интересно
https://mba.mgimo.ru/announce/afanasev
https://mba.mgimo.ru/announce/afanasev
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.
Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:
1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд
За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)
Исходная статья ниже
Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.
Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:
1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд
За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)
Исходная статья ниже
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Блог Ксении Денисовой
Графики McKinsey: как оформляют данные в консалтинге
Данная заметка посвящена исследованиям McKinsey, где числовая информация представлена в виде различных типов графиков. Цель – показать основные правила оформления цифровых данных на примере аналитических отчётов лучшей консалтинговой компании мира.
Я взяла…
Я взяла…
Интресная статья про организацию data mesh архитектуры в Intuit
https://medium.com/intuit-engineering/intuits-data-mesh-strategy-778e3edaa017
https://medium.com/intuit-engineering/intuits-data-mesh-strategy-778e3edaa017
Medium
Intuit’s Data Mesh Strategy
Intuit’s mission is ‘Power Prosperity Around the World’. And Intuit’s strategy for delivering on that mission is to be an ‘AI Driven…
Близится наступление знакового события в области управления данными - вручение премии CDO Awards 21. Уже сформирован полный перечень номинанотов и подготовлены обзоры/интерью про заявленные проекты.
Часть из них я отмечал в постах выше, а полный перечень и все интервью представленны тут: https://www.osp.ru/lp/cdoaward2021#nominees
Часть из них я отмечал в постах выше, а полный перечень и все интервью представленны тут: https://www.osp.ru/lp/cdoaward2021#nominees
www.osp.ru
Премия CDO Award 2021
CDO Award 2021 − это отраслевая награда для директоров по данным (Chief Data Officer) и руководителей аналогичных должностей, продемонстрировавших профессионализм и мастерство в своей области.