Клуб CDO

На следующей неделе будет проходить лучшая конференция по ИИ в России. Не пропустите!

https://opentalks.ai/ru/timetable

opentalks.ai

OpenTalks.AI 2024: Программа конференции

Смотреть программу конференции OpenTalks.AI 2024

626 viewsDenis Afanasev, 15:25

👍 4 👎💬

Клуб CDO

Сравнение точности алгоритмов ML с человеком

В 2018 году PNAS (Proceedings of the National Academy of Sciences) опубликовал исследование «Face recognition accuracy of forensic examiners, superrecognizers, and face recognition algorithms». Сравнивалась точность распознавания лиц судебно-медицинскими экспертами и алгоритмами. Задача заключалась в том, чтобы определить, изображены ли на парах изображений лица одного и того же человека или разных людей. Для исследования были выбраны 3 группы специалистов: судмедэксперты, лицевые эксперты, супер-распознаватели (неподготовленные люди с сильными навыками в распознавании лица); а также 2 контрольные группы: дактилоскописты и студенты.

Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms. P. Jonathon Phillipsa, Amy N. Yatesa, Ying Hub, Carina A. Hahnb, Eilidh Noyesb, Kelsey Jacksonb, Jacqueline G. Cavazosb,Ge´ raldine Jeckelnb, Rajeev Ranjanc, Swami Sankaranarayananc, Jun-Cheng Chend, Carlos D. Castillod, Rama Chellappac,David Whitee, and Alice J. O’Tooleb

621 viewsDenis Afanasev, 12:26

👍 5 👎 1 💬

Клуб CDO

Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms

PS текст не мой, прислали коллеги

679 viewsDenis Afanasev, 12:26

👍 1 👎💬

Клуб CDO

Forwarded from Smart Data (Denis Solovyov)

Всем привет. На этих выходных хочу закончить разбор всех 4-х факторов эффективности работы компании в целом и data team, в частности.

Мы закончили наш цикл мини-интервью со специалистами и руководителями разных компаний, которые были посвящены 3 фактору эффективности - "Структура команды".

Исходя из всех интервью можно сделать такие выводы:
- Структура команды зависит от 2-х главных факторов: уровень развития data-driven культуры и размер компании. Именно в такой последовательности, так как без культуры работы с данными большие компании не будут уделять должное внимание аналитической функции и структуре.
- Команда по работе с данными - это предприятие внутри предприятия. Т.е. подразделение, отвечающее за данные и аналитику переживает такие же стадии развития, как обычное предприятие (при условии развития, конечно): сначала оно имеет в своём штате небольшое количество сотрудников-универсалов, назовём их full-stack аналитиками, которые самостоятельно могут собрать данные, обработать их, визуализировать, проанализировать и сделать выводы из них. По мере развития компании, увеличивается количество бизнес-процессов и данных. Необходимо использовать более сложные технологии, в которых нужно иметь глубокую экспертизу. Становится очень проблематично одному специалисту быть экспертом во всех сферах (инжиниринге, аналитике и data science). Поэтому команда плавно расширяет штат и переходит к разделению труда.
- Работа с данными стала мейнстримом сравнительно недавно, поэтому сложно сказать, какая структура команды наиболее эффективная. Многие компании довольно гибкие в этом плане и методом проб и ошибок, экспериментами нащупывают наиболее подходящую под их бизнес-нужды структуру.

Получилась очень классная рубрика. Думаю, в будущем сделаем интервью и на другие темы)

P.S. Завтра опубликую пост о последнем факторе и начнём двигаться уже к техническим концепциям и конкретным инструментам.

830 viewsDenis Afanasev, 12:42

Клуб CDO

Вчера и сегодня идет конференция OpepTalk.AI, так что будет несколько сообщений на этот счет, вот пока первый материал

608 viewsDenis Afanasev, 13:01

👍 1 👎💬

Клуб CDO

Forwarded from gonzo-обзоры ML статей

Слайды с сегодняшнего выступления про железо для AI.

https://www.slideshare.net/grigorysapunov/ai-hardware-landscape-2021

www.slideshare.net

AI Hardware Landscape 2021

What's the landscape of the AI hardware right now: CPU, GPU, FPGA, ASIC, Neuromorphic, etc.

642 viewsDenis Afanasev, 13:01

Клуб CDO

ну пока это выглядит как наша сборная 🙂

638 viewsDenis Afanasev, 13:52

👍 4 👎💬

Клуб CDO

Forwarded from Nastya Semenova

1:00

Media is too big

VIEW IN TELEGRAM

717 viewsDenis Afanasev, 13:52

Клуб CDO

Рабочее место D-people

Очередное интервью в рамках премии CDO Awards - CDO Сбербанка Бориса Рабиновича о проекте “Фабрика данных”

Проект на рынке очень известный, но информации мало, что делает этот материал особенно интересным. Но кроме этого должен отметить, что проект реально очень крутой и прорывной в области демократизации данных, особенно с учетом масштаба такой организации, как Сбербанк.

Основные факты:
• Ключевой эффект проекта — сокращение времени дата-сайентиста на построение модели с трех месяцев до дней. Аналитикам доступна “витрина данных” — дата-сеты, построенные на основе копий систем — источников информации, с полным описанием атрибутного состава и другой необходимой информации, а так же максимально быстрая и автоматизированная организация “песочницы” для работы с данными - магазин инфраструктуры, где можно выбрать виртуальный сервер необходимой конфигурации — с нужным числом ядер, объемом памяти и «начинкой». Заказываешь — и в течение часа разворачивается Hadoop и создается твой персональный сервер. Специально для тебя! Получается новый клиентский опыт: развернув сервер, заказываешь данные в супермаркете, получаешь права доступа — и эти данные автоматически отгружаются на твой сервер.
• К платформе на текущий момент подключены более 250 источников внутренних и внешних данных. Платформа состоит из более 100 элементов и сервисов, таких как компонент загрузки данных в реальном времени, журналирование действий пользователя, аудит, проверка прав доступа, карта данных как средство навигации, механизм проверки качества данных, механизм распространения данных и т. п. В «Фабрике данных» около 12 Пбайт полезных данных, а с учетом репликаций — около 40 Пбайт.
• Отдельно в банке разработана и утверждена политика по управлению корпоративными данными —документ, свод правил, вокруг которого выстраиваются организационная вертикаль CDO, набор процессов управления данными, роли, их функции и взаимодействие друг с другом (CDO банка и блоков, владельцы предметных областей, менеджеры данных, дата-стюарды, дата-инженеры, архитекторы по работе с данными и др.).
• Технологический стэк: основное хранение данных осуществляется в Hadoop в сборке от Cloudera, Apache Kafka, Spark, Oracle Golden Gate, OpenStack/OpenShift + собственная разработка на Java, фронтенд сделан на JavaScript + сделали свою сборку стека Hadoop, назвали ее Sberbank Data Platform, также будет собственная сборка реляционной БД Greenplum.

Основные сложности проекта:
• Во-первых, надо было сделать так, чтобы созданные инновационные компоненты стабильно работали с нужной функциональностью и нужными объемами данных. Через это надо было пройти, набить шишек и масштабироваться.

• Во-вторых, нужно было поменять процессы банка так, чтобы права доступа и согласования стало возможно заказывать и получать автоматизированно и чтобы все эти механизмы были узаконены. Вывод компонентов в эксплуатацию потребовал изменения регламентов по порядку проведения приемо-сдаточных испытаний и по правилам вывода моделей — это был большой труд.

• Но наиболее сложной была человеческая история: необходимо было убедить людей в том, что мы делаем действительно нужные, полезные и перспективные вещи. Добиться, чтобы люди начали доверять созданному нами решению, стали амбассадорами нового бренда и начали «переманивать» коллег выходить из привычных им систем, убеждать их в том, что новое решение эффективнее и за ним будущее.

https://www.computerworld.ru/cio/articles/040221-Tsifrovye-lyudi-Sbera?fbclid=IwAR3lrbDCEJoMC8d10GHhGspl4BKEsGE1423ELxZ2N8CCPNX91FO1G_rofEk

Вестник цифровой трансформации | «Директор информационной службы»

«Цифровые люди» Сбера

В Сбере создали «Рабочее место D-people» — удобный сервис для исследователей данных, который позволил сократить время разработки и вывода модели в производство с более чем трех месяцев до одного дня. CDO Сбербанка Борис Рабинович рассказывает о фабрике, лаборатории…

1.1K viewsDenis Afanasev, 12:33

👍 11 👎💬

Клуб CDO

Завтра тестируем clubhouse :) приходите!

https://www.joinclubhouse.com/event/M5v2X82X

Clubhouse

Прямой эфир про AI, blockchain

Sunday, February 7 at 6:00pm MSK with Ani Aslanyan, Mark Shmulevich, Dr. Aleksei Minin, Denis Afanasev. Гости эфира - Марк Шмулевич, старший VP Taiger AI,
председатель комитета по цифровой трансформации SGTech.
Алексей Минин, партнёр MHP-Porsche. Поговорим…

1.5K viewsDenis Afanasev, 18:29

👍 6 👎💬

Клуб CDO

Абсолютно фееричный доклад Константина Анохина с конференции OpenTalk 2021 про недостающие элементы доминирующего сейчас нейросетевого подхода к моделированию ИИ. Must see, очень интересно и доступно даже не профессионалам.

PS запись пиратская, пока официальную не выложили.

https://www.youtube.com/watch?v=LH-_NnFZIE8&list=WL&index=6&t=1s

YouTube

Нейрореалистичный искусственный интеллект - доклад К. В. Анохина на конференции OpenTalks.AI 2021

Нейрореалистичный искусственный интеллект - недостающие звенья: Пленарный доклад К. В. Анохина на конференции OpenTalks.AI 2021
https://opentalks.ai

972 viewsDenis Afanasev, 07:54

👍 7 👎💬

Клуб CDO

nlpin2020-210204134144.pdf

1.5 MB

Презентация Григория Сапунова “NLP in 2020”

Презентация с доклада на OpenTalk.AI 2021 про основные вехи 2020 года в области NLP.
Собственно основные вехи:
⁃ Появление супер больших языковых моделей и, в частности, GPT-3
⁃ Тенденция к тому, что увеличение размера модели ведет к уменьшению количества данных, необходимых для обучения
⁃ Обучать большие модели не только дорого для людей, но и для природы, в силу выделения CO2 дата-центрами
⁃ Большинство языковых моделей являются мульта-языковыми
⁃ Языковые модели преодолели очередной барьер в сравнении с человеком в “понимании” общих и открытых вопросов (benchmarks типа SuperGLUE и тп)
⁃ Архитектуры языковых моделей продолжают развиваться: внедрение трансформеров, памяти и тп
⁃ Демократизацию использования языковых моделей дрейвят облака и доступное в них API, которое делают крупные компании

Полная презентация во вложении

882 viewsDenis Afanasev, 20:09

👍 10 👎💬

Клуб CDO

вдруг кому то пригодится

662 viewsDenis Afanasev, 20:27

👍 1 👎💬

Клуб CDO

Forwarded from ИТ-АС - ИТ в корпорациях (Архитектура и Стратегия, ИТ-менеджмент)

Разработка_ИТ_стратегии_в_крупных_компаниях_t_me_it_ace_geronimus.pdf

8.7 MB

Как делать классическую ИТ-стратегию с примерами - лучший учебный материал в русскоязычном интернет (по моему мнению)

Посмотрел все источники по тому как создавать ИТ-стратегию на русском языке.

Считаю этот лучшим с точки зрения возможности применения на практике - и с точки зрения подачи материала, и примеров.

Документ правда старый: некоторые вещи уже так не делаются как по контенту (ну типа в ИТ-инфраструктуре уже другие подходы), так и по визуализации. Но это все можно найти в других источниках. А с точки зрения «как делать калссическую ИТ-стратегию» прямо нравится.

P.S. Под «классической» ИТ-стратегией понимаю стратегию от целей бизнеса, а не когда мы помогаем сформулировать цели бизнеса с помощью ИТ.

#практика #итстратегия #кейс #геронимус #лучшее
via @it_ace

💬 Комментировать

1.1K viewsDenis Afanasev, 20:27

Клуб CDO

OFFTOPIC: ИМХО просто отличная книга по личной эффективности.

https://www.litres.ru/bred-stalberg/na-pike/

1.1K viewsDenis Afanasev, 21:11

👍 4 👎💬

Клуб CDO

С праздником всех причастных!

804 viewsDenis Afanasev, edited 06:03

👍 10 👎💬

Клуб CDO

Всем привет! Пока готовиться обзор очередной статьи, сделаю анонс моей лекции, вдруг кому то будет интересно

https://mba.mgimo.ru/announce/afanasev

700 viewsDenis Afanasev, 20:24

👍 9 👎 3 💬

Клуб CDO

Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics

Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.

Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:

1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд

За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)

Исходная статья ниже

731 viewsDenis Afanasev, edited 13:45

830 viewsDenis Afanasev, 13:45

👍 4 👎💬

Клуб CDO

Если думаете, что почитать, вот хороший список

https://m.habr.com/ru/post/542578/

Хабр

Что почитать (НаучПоп / Научная Фантастика)

Как это появилось?Некоторые время назад сильно увлёкся потреблением информации с научно-популярным уклоном. Но как не заблудиться в миллионах книг? Ресурс то ограничен. А значит придётся выбирать....