Клуб CDO
3.07K subscribers
379 photos
24 videos
88 files
1.44K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
CDO Award 2020 - Платформа больших данных

Началась публикация серии интервью номинантов премии CDO Award и первый материал от Банка ВТБ и Ростелеком о совместном проекте “Платформа Больших Данных” (ПБД).

Пока информации относительно проделанной работы и достигнутых результатов крайне мало. Самым значимым результатом является намерение об инвестиции 1 млрд р в данное СП со стороны основных акционеров. Пока у СП нет выручки, защищенной стратегии (она разрабатывается в течении этого года) и конкретных продуктов. Так же нет информации, собственно, об “управлении данными”, методиках, практиках и результатах.

Из интересных планов можно отметить: ПБД это в первую очередь “бизнес”, а не “технология” (что бы не смущало слово Платформа в названии) и основная задача - генерация выручки в областях рекламы, геомаркетинга, финансовых продуктов и облачных сервисов. Есть планы по разработке платформы обмена данными и маркетплейса моделей.

В качестве технологий будут ориентироваться на OpenStack, такие как Apache Kafka, Airflow, Hadoop, HBASE, Kudu, Ignite, Tableu и прочие (хотя Tableau проприетарный продукт).

Продолжаем следить за развитием событий и ждем основных результатов в 2021 году!

https://www.computerworld.ru/cio/articles/061120-Platforma-bolshih-dannyh-tandem-VTB-i-Rostelekoma-na-rynke-big-data?fbclid=IwAR0oKyueXB5pH-S1KpSMfn1ffdXBSlZcWaJoUedn4Ayohm-0isypgZaWTaI
Forwarded from CDO2Day
🔄Нерегулируемое прилагательное

Попытки регулирования big data сталкиваются с естественным препятствием - определением больших данных. Кто и как будет решать, стали ли обрабатываемые компанией данные уже "большими" или все еще "маленькие"?

Президент Ассоциации больших данных Анна Серебряникова в своей колонке для @cdo2day замечает, что «большие данные» – это не категория информации, а ее признак, который предполагает большое количество различных и несовместимых друг с другом категорий данных.

Она призывает не пытаться создавать новые понятия для регулирования, а сосредоточиться на конкретных мерах по защите интересов граждан и бизнеса.
a16z Podcast: The Great Data Debate

Довольно интересный подкаст обнаружил в блоге a16z (вообще, очень рекомендую этот ресурс) - дискуссия на тему трендов дата-архитектур. Вот, что из интересного отметил в ходе изучения.

Первый вопрос был на тему - кто в конечном счете победит: Data Lake или Data Warehouse. Спикеры отметили общий момент, что архитектура решений обработки данных и выбор технологий для их реализации должны, в первую очередь, определяться теми примерами использования данных, которые предполагаются к реализации. Тем не менее есть версия, что SQL и DWH быстро разовьются на горизонте 5 лет смогут ничем не уступать по удобству работы с полу-структурироваными данных. А за счет того, что SQL сам по себе очень удобен для работы с данными, Data Lake и технологии, на которых сейчас базируется эта архитектура, уйдут в прошлое. Тем не менее спикеры отмечают, что все больше и больше сейчас появляются примеров работы со сложными типами данных, какими как видео и изображения. Например, очень много такого рода данных обрабатываются в медицине. И Data Lake, как технология, направленная в первую очередь на поддержку AI и сложной аналитики данных, займет свое место в этой области. Не исключено, что SQL догонит NoSQL и в этой области, но спикеры ожидают это в перспективе 8-10 лет.

Исторический пример, к которому аппелируют спикеры, довольно нагляден. Когда BI, отчетность и dashboard стали набирать популярность в бизнесе, появился OLAP, как технология, которая лучше подходила для таких задач, чем традиционные базы данных. Тем не менее прошли годы и, с появлением колоночных баз данных, MPP и тд, про OLAP уже мало кто вспоминает. Ждет ли такая же участь современный NoSQL стек? Hadoop это уже настигло.

Обработка сложных данных набирает обороты и все больше кейсов их использования появляются в бизнесе, что требует усиления технологий в этой области и может ожидать появления крупных поставщиков в этой области технологий обработки данных.

Следует ожидает и усиление SQL в области Machine Leaning, но в течении следующих 3-х - 5 -ти лет будут доминировать гибридные подходы.

Кроме этого, спикеры отмечают Data Mesh как перспективную технологию децентрализации, которая продиктована организационными особенностями крупных организаций, где трудно централизовать все данные, а так же тренд в области архитектуры приложений, архитектура которых развивается в область создания целостных приложений, который могут как обрабатывать, так и применять данные. Сейчас, по классике, мы делаем обработку данных в DWH/DL и далее передает результаты в прикладное приложение для использования.

Далее был вопрос про скорость обработки данных - но тут ничего интересного озвучено не было. Да, надо определять компромис между скоростью и объемом, но разнообразность технологий позволяет реализовать любой такой компромис.

Полный текст и запись тут:

https://a16z.com/2020/11/12/a16z-podcast-the-great-data-debate/
Привет, коллеги.

Кто следит за нашей деятельностью, тот, конечно же, знает, что мы в Агентстве Искусственного Интеллекта запустили новый проект — VIR Person. Да, мы замахнулись на высокое. И мы, так или иначе, добьёмся результатов. Несмотря на то, что из Топ-10 Архипелага 20.35 нас выгнали, мы не унываем, а воспринимаем как добрый знак.

А причину изгнания можете посмотреть на официальном канале проекта на Youtube. Ролик «Архипелаг 20.35. VIR Person». Если говорить фигурально, то нам позвонили из Администрации президента и сказали буквально следующее: «Блин, вы там офигели? В нашей стране магия по оживлению мёртвых запрещена! Кончайте там с этим!» Смотреть можно с 07:40. Такие дела...

Подписывайтесь на канал проекта.
Интересный кейс выше - навел меня на мысль, что он ставил новые этические проблемы перед обществом - можно ли использовать цифровые копии умерших людей, кому принадлежат “права на образ” и тд. Вель уже сегодня ничего не мешает использовать образы актеров в новых фильмах и тд. Есть о чем подумать законодателям 🙂
Очень хороший получился сегодня диалог с коллегами на тему ИИ. Без хайпа, достаточно прагматичный и предметный. Удалось высказать много мыслей. Спасибо организаторам и модератору! Рекоммендую посмотреть, интересующимся темой.
Смотрите через 30 мин нашу дискуссию TechTalk по теме «Растущая роль искусственного интеллекта в обществе и экономике. Правила новой этики».

https://youtu.be/1xl1shxVt3Y
Краткое изложение
В 2021г. АБД создаст Кодекс этики данных 2.0, а Российская государственная библиотека предложила создать хранилище данных на базе библиотеки - итоги TechTalk «Растущая роль ИИ в обществе и экономике. Правила новой этики»?

По итогам сегодняшней дискуссии публикуем основные хайлаты спикеров:

1. Исполнительный директор ассоциации больших данных Алексей Нейман рассказал, что в 2021 году планируется начать работу над Кодексом этики использования данных 2.0 – когда будет набран критический объем предложений по развитию первой его версии. Тем не менее, по его мнению, прежде чем задумываться об этике ИИ в целом, стоит посмотреть на этику использования данных – сами алгоритмы не должны дискриминировать кого-то или нести вред.
 
2. Все участники согласились с тем, что пока искусственный интеллект создается людьми, люди и должны думать об этике. «Этика остается этикой людей», - подчеркнул генеральный директор Cleverdata Денис Афанасьев.

3. CDO «Мегафон», Леонид Черный, отметил, что чтобы ИИ стал настоящим интеллектом,  надо дать ему не только право принятия решений, но и возможность нести за них ответственность. 

4. Афанасьев также затронул тему изменений. По его словам, нужно не только ждать, пока современные технологии подстроятся под человека, но и среда должна адаптироваться. Например, нужны новые правила для дорог, по которым смогут ездить беспилотные машины и улицы, по которым смогут летать дроны.

5. Генеральный директор РГБ Вадим Дуда предложил создать хранилище данных на базе библиотеки. «Нужна очень взвешенная государственная политика по сохранению данных», - объяснил он. На этом Дуда не остановился – он также анонсировал возможное создание в библиотеке аналога рекомендательного сервиса, как у Spotify и Apple Music, на основе предпочтений, запросов книг и времени посещения читателей библиотеки. 

6. Черный, в свою очередь, рассказал, как «Мегафон» уже использует ИИ: технология помогает компании анализировать обратную связь от клиентов и это касается всех типов обращений. С помощью ИИ также компания рассчитывает узкие места в инфраструктуре связи, полноту покрытия территории сетью, после чего, на основании анализа данных компания формирует план строительства. Однако, по его словам, видимо самым распространенным примером использования ИИ в повседневной жизни человека на сегодня является обработка изображений телефоном, например, улучшение качества фотографий сразу после того, как был сделан кадр.

7. Обсуждая вопрос необходимости создания закона о больших данных, участники дискуссии были практически единодушны – не нужен. По словам Неймана, текущего регулирования в этой области хватает с избытком, и именно оно нуждается в актуализации. Недавно принятый закон об экспериментальных правовых режимах как раз и призван на практике апробировать необходимые регуляторные изменения и внедрить их в жизнь.

8. Вадим Дуда отметил, что нужен не закон о больших данных, а большой закон о данных.

9. Дарья Чашкина, директор по обучению «Школы 21», сказала, что нужна определенная стратегия по большим данным - это, в том числе, и вопрос профессионального сообщества: появляется спрос на CDO, которые как раз работают именно с данными, как с ресурсом.

10. По итогам дискуссии, модератором которой была основатель нашего канала Ани Асланян, отметила, что к формированию стандартов этики ИИ, помимо бизнеса и государства необходимо активнее привлекать представителей разных общественных организаций, так как, в первую очень, общество - главный заказчик данного стандарта. 
Интересное исследование.

«В большинстве крупных российских компаний утверждают, что уже применяют решения на базе искусственного интеллекта (ИИ), но оценить эффект пока не могут, говорится в исследовании TAdviser и «Ростелекома».»

https://www.kommersant.ru/doc/4593938
Всем привет! Хотим напомнить, что продолжается прием заявок на премию для директоров по данным – CDO Award 2021.

Организаторы премии – издательство «Открытые системы» и онлайн-ресурс «Директор информационной службы» –- приглашают к участию в конкурсе руководителей по работе с данными с впечатляющими проектами, готовых продемонстрировать силу данных и их возможности в трансформации бизнеса и общества.

Премия CDO Award 2021 будет вручаться в номинациях:
• За создание новой бизнес-модели, основанной на данных
• За повышение эффективности бизнеса
• За реализацию инновационной идеи
• За обеспечение качества данных
• За достижения в подготовке специалистов по управлению данными
• За реализацию социально значимых инициатив на основе данных

Кроме того, учредители CDO Award 2021 вручат специальную премию «За вклад в популяризацию профессии» номинанту, активно проявившему себя в продвижении роли директора по данным в профессиональном медиапространстве, на профильных мероприятиях и в социальных сетях.

Если вы хоте рассказать о вашем опыте и достижениях в управлении данными в вашей организации — подавайте заявки, до 31/01/2021 и номинируйте ваших директоров по данным на премию CDO Award 2021!
Полезный контент: 3 бесплатные книги доступны на сайте издательства O’railly:

- Business models for Data Economy
- What is Data Science
- Migrating Big Data Analytics into the Cloud

https://www.oreilly.com/data/free/
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Аналитическое хранилище данных Amazon Redshift получило возможность использовать ML с помощью SQL. В целом индустрия идёт по пути упрощения методов анализа данных.
Forwarded from CDO2Day
Отраслевой дайджест_04.12-11.12.2020.pdf
239.5 KB
📖Представляем вашему вниманию дайджест новостей цифровизации отраслей экономики России.

От роботизированных самосвалов - до автоматизированных поездов. От цифровых технологий на стройках до телемедицины и электронных рецептов на лекарства. Все что произошло в "цифре" за неделю.
DIS_DG_book.pdf
1.1 MB
Небольшая брошюра от Informatica про современные тенденции Data Governance
Интересное исследование от компаний IDC и Neoflex.

Основываясь на нашем опыте с «Биржой данных», я всегда говорил, что данные - это поток, и текущие тенденции это подтверждают.

В отчете, в целом, много интересных цифр, собранных в рамках опроса компаний, отражены тенденции сегодняшнего дня, связанные с цифровизацией, онлайном и тд.

https://filearchive.cnews.ru/img/files/2020/11/10/idcstreaming_data_processing_technologiesrussian_market_today.pdf
Introducing the “4 Stages of Data Monetization”

Обратил внимание на публикацию в сети LinkedIn (запрещенная в России социальная сеть) с кричащим названием “4 этапа монетизации данных”. В целом в статье раскрывается сравнение данных с нефтью и аргументируется утверждение, что данные приносят ценность только в момент использования их для оптимизации бизнес-процессов, а не в сами по себе являются источником затрат на сбор и хранение. Аналог тут и с нефтью - сырая нефть то же не совсем полезный продукт, пока не подвергнуться глубокой переработке.

В статье приводятся интересные аргументы, цифры и полезные картинки.

https://www.linkedin.com/pulse/introducing-4-stages-data-monetization-bill-schmarzo/?trackingId=BsZ3Ox23TfSm7Tkj17yVKA%3D%3D
Всем привет! Сори, что у нас тут не такие частые посты, как в других каналах, но очень не хочется просто бездумно перепосчивать банальные новости просто ради активности. Хочется наоборот, более вдумчивого контента и полезной информации. Плюс, нагрузка перед концом года традиционно возрастает пропорционально трафику на дорогах. Но копится достаточно большое количество статей/информации, которые буду выкладывать по мере переваривания.

Вопрос тут возник: мне повезло расширить сферу своих профессиональных интересов на более широкий круг тем (помимо дисциплины управления данными, которой посвящен этот канал изначально), таких как:
- AI в плане NLP, CV, рекомендательных систем, персонализации, платформы AI,
- гейминг, киберспорт
- умный дом и IoT
- платформы цифровых коммуникаций
- платформы пользовательского контента и опыта

поэтому материала, которым хочется поделиться, все больше 🙂

Внимание! Вопрос к знатокам - давайте проголосуем, если вы за то, чтобы выйти за рамки чистого управления данными, ставьте лайк, если против - то дислайк. Жду вашего мнения!
Статья_Гражданско_правовые_аспекты_регулирования_оборота_да.pdf
393.9 KB
Спасибо всем проголосовавшим, очень приятно видеть вовлеченность аудитории! На основании результатов голосования делаем вывод, что спектр контента немного расширим, но уходить совсем далеко от темы данных и злоупотреблять сторонними темами не будем :)

Сегодня хочу поделиться юридическим, но любопытным документом. Во вложении статья Гражданско-правовые аспекты регулирования оборота данных в условиях попыток формирования цифровой экономики (Савельев А.И.) ("Вестник гражданского права", 2020, N 1).

Должен предупредить, что юридический текст, как всегда, тяжелый, но уникальность статьи состоит в обзоре юридических аспектов современного законодательства, совмещенным с глубоким пониманием сути таких понятий как “данные”, “информация” и тд.

Выводы вполне предсказуемы - пока наше законодательство не в полной мере отвечает требованиям процессов обмена и продажи данных. Но следует обратить внимание, что такие вещи, как “hash телефона”, отнесены Роскомнадзором к персональным данным.