Клуб CDO
3.08K subscribers
380 photos
24 videos
88 files
1.44K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Краткое изложение
В 2021г. АБД создаст Кодекс этики данных 2.0, а Российская государственная библиотека предложила создать хранилище данных на базе библиотеки - итоги TechTalk «Растущая роль ИИ в обществе и экономике. Правила новой этики»?

По итогам сегодняшней дискуссии публикуем основные хайлаты спикеров:

1. Исполнительный директор ассоциации больших данных Алексей Нейман рассказал, что в 2021 году планируется начать работу над Кодексом этики использования данных 2.0 – когда будет набран критический объем предложений по развитию первой его версии. Тем не менее, по его мнению, прежде чем задумываться об этике ИИ в целом, стоит посмотреть на этику использования данных – сами алгоритмы не должны дискриминировать кого-то или нести вред.
 
2. Все участники согласились с тем, что пока искусственный интеллект создается людьми, люди и должны думать об этике. «Этика остается этикой людей», - подчеркнул генеральный директор Cleverdata Денис Афанасьев.

3. CDO «Мегафон», Леонид Черный, отметил, что чтобы ИИ стал настоящим интеллектом,  надо дать ему не только право принятия решений, но и возможность нести за них ответственность. 

4. Афанасьев также затронул тему изменений. По его словам, нужно не только ждать, пока современные технологии подстроятся под человека, но и среда должна адаптироваться. Например, нужны новые правила для дорог, по которым смогут ездить беспилотные машины и улицы, по которым смогут летать дроны.

5. Генеральный директор РГБ Вадим Дуда предложил создать хранилище данных на базе библиотеки. «Нужна очень взвешенная государственная политика по сохранению данных», - объяснил он. На этом Дуда не остановился – он также анонсировал возможное создание в библиотеке аналога рекомендательного сервиса, как у Spotify и Apple Music, на основе предпочтений, запросов книг и времени посещения читателей библиотеки. 

6. Черный, в свою очередь, рассказал, как «Мегафон» уже использует ИИ: технология помогает компании анализировать обратную связь от клиентов и это касается всех типов обращений. С помощью ИИ также компания рассчитывает узкие места в инфраструктуре связи, полноту покрытия территории сетью, после чего, на основании анализа данных компания формирует план строительства. Однако, по его словам, видимо самым распространенным примером использования ИИ в повседневной жизни человека на сегодня является обработка изображений телефоном, например, улучшение качества фотографий сразу после того, как был сделан кадр.

7. Обсуждая вопрос необходимости создания закона о больших данных, участники дискуссии были практически единодушны – не нужен. По словам Неймана, текущего регулирования в этой области хватает с избытком, и именно оно нуждается в актуализации. Недавно принятый закон об экспериментальных правовых режимах как раз и призван на практике апробировать необходимые регуляторные изменения и внедрить их в жизнь.

8. Вадим Дуда отметил, что нужен не закон о больших данных, а большой закон о данных.

9. Дарья Чашкина, директор по обучению «Школы 21», сказала, что нужна определенная стратегия по большим данным - это, в том числе, и вопрос профессионального сообщества: появляется спрос на CDO, которые как раз работают именно с данными, как с ресурсом.

10. По итогам дискуссии, модератором которой была основатель нашего канала Ани Асланян, отметила, что к формированию стандартов этики ИИ, помимо бизнеса и государства необходимо активнее привлекать представителей разных общественных организаций, так как, в первую очень, общество - главный заказчик данного стандарта. 
Интересное исследование.

«В большинстве крупных российских компаний утверждают, что уже применяют решения на базе искусственного интеллекта (ИИ), но оценить эффект пока не могут, говорится в исследовании TAdviser и «Ростелекома».»

https://www.kommersant.ru/doc/4593938
Всем привет! Хотим напомнить, что продолжается прием заявок на премию для директоров по данным – CDO Award 2021.

Организаторы премии – издательство «Открытые системы» и онлайн-ресурс «Директор информационной службы» –- приглашают к участию в конкурсе руководителей по работе с данными с впечатляющими проектами, готовых продемонстрировать силу данных и их возможности в трансформации бизнеса и общества.

Премия CDO Award 2021 будет вручаться в номинациях:
• За создание новой бизнес-модели, основанной на данных
• За повышение эффективности бизнеса
• За реализацию инновационной идеи
• За обеспечение качества данных
• За достижения в подготовке специалистов по управлению данными
• За реализацию социально значимых инициатив на основе данных

Кроме того, учредители CDO Award 2021 вручат специальную премию «За вклад в популяризацию профессии» номинанту, активно проявившему себя в продвижении роли директора по данным в профессиональном медиапространстве, на профильных мероприятиях и в социальных сетях.

Если вы хоте рассказать о вашем опыте и достижениях в управлении данными в вашей организации — подавайте заявки, до 31/01/2021 и номинируйте ваших директоров по данным на премию CDO Award 2021!
Полезный контент: 3 бесплатные книги доступны на сайте издательства O’railly:

- Business models for Data Economy
- What is Data Science
- Migrating Big Data Analytics into the Cloud

https://www.oreilly.com/data/free/
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Аналитическое хранилище данных Amazon Redshift получило возможность использовать ML с помощью SQL. В целом индустрия идёт по пути упрощения методов анализа данных.
Forwarded from CDO2Day
Отраслевой дайджест_04.12-11.12.2020.pdf
239.5 KB
📖Представляем вашему вниманию дайджест новостей цифровизации отраслей экономики России.

От роботизированных самосвалов - до автоматизированных поездов. От цифровых технологий на стройках до телемедицины и электронных рецептов на лекарства. Все что произошло в "цифре" за неделю.
DIS_DG_book.pdf
1.1 MB
Небольшая брошюра от Informatica про современные тенденции Data Governance
Интересное исследование от компаний IDC и Neoflex.

Основываясь на нашем опыте с «Биржой данных», я всегда говорил, что данные - это поток, и текущие тенденции это подтверждают.

В отчете, в целом, много интересных цифр, собранных в рамках опроса компаний, отражены тенденции сегодняшнего дня, связанные с цифровизацией, онлайном и тд.

https://filearchive.cnews.ru/img/files/2020/11/10/idcstreaming_data_processing_technologiesrussian_market_today.pdf
Introducing the “4 Stages of Data Monetization”

Обратил внимание на публикацию в сети LinkedIn (запрещенная в России социальная сеть) с кричащим названием “4 этапа монетизации данных”. В целом в статье раскрывается сравнение данных с нефтью и аргументируется утверждение, что данные приносят ценность только в момент использования их для оптимизации бизнес-процессов, а не в сами по себе являются источником затрат на сбор и хранение. Аналог тут и с нефтью - сырая нефть то же не совсем полезный продукт, пока не подвергнуться глубокой переработке.

В статье приводятся интересные аргументы, цифры и полезные картинки.

https://www.linkedin.com/pulse/introducing-4-stages-data-monetization-bill-schmarzo/?trackingId=BsZ3Ox23TfSm7Tkj17yVKA%3D%3D
Всем привет! Сори, что у нас тут не такие частые посты, как в других каналах, но очень не хочется просто бездумно перепосчивать банальные новости просто ради активности. Хочется наоборот, более вдумчивого контента и полезной информации. Плюс, нагрузка перед концом года традиционно возрастает пропорционально трафику на дорогах. Но копится достаточно большое количество статей/информации, которые буду выкладывать по мере переваривания.

Вопрос тут возник: мне повезло расширить сферу своих профессиональных интересов на более широкий круг тем (помимо дисциплины управления данными, которой посвящен этот канал изначально), таких как:
- AI в плане NLP, CV, рекомендательных систем, персонализации, платформы AI,
- гейминг, киберспорт
- умный дом и IoT
- платформы цифровых коммуникаций
- платформы пользовательского контента и опыта

поэтому материала, которым хочется поделиться, все больше 🙂

Внимание! Вопрос к знатокам - давайте проголосуем, если вы за то, чтобы выйти за рамки чистого управления данными, ставьте лайк, если против - то дислайк. Жду вашего мнения!
Статья_Гражданско_правовые_аспекты_регулирования_оборота_да.pdf
393.9 KB
Спасибо всем проголосовавшим, очень приятно видеть вовлеченность аудитории! На основании результатов голосования делаем вывод, что спектр контента немного расширим, но уходить совсем далеко от темы данных и злоупотреблять сторонними темами не будем :)

Сегодня хочу поделиться юридическим, но любопытным документом. Во вложении статья Гражданско-правовые аспекты регулирования оборота данных в условиях попыток формирования цифровой экономики (Савельев А.И.) ("Вестник гражданского права", 2020, N 1).

Должен предупредить, что юридический текст, как всегда, тяжелый, но уникальность статьи состоит в обзоре юридических аспектов современного законодательства, совмещенным с глубоким пониманием сути таких понятий как “данные”, “информация” и тд.

Выводы вполне предсказуемы - пока наше законодательство не в полной мере отвечает требованиям процессов обмена и продажи данных. Но следует обратить внимание, что такие вещи, как “hash телефона”, отнесены Роскомнадзором к персональным данным.
И еще один юридический обзор на тему данных: компания CleverDATA подготовила и опубликовала документ с обзором того, что в сфере данных произошло за год в законодательной области.

https://rppa.ru/_media/analitika/big_data_2020.pdf
Data Mesh в «Леруа Мерлен»: DIY в работе с данными

В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.

Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).

Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.


Полный текст интервью по ссылке:

https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0
Миру нужна новая операционная система для обмена данными

Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.

Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.

Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных

Полный текст стаьи:

https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/
Небольшой оффтоп, но может быть кому-то окажется полезным

Мой список "лучших книг года" 🙂

Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!

Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.

Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:

Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin

Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan

Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker

Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков

Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson
Друзья, поздравляю всех с наступающим Новым годом! Здоровья, удачи, много денег, интересных задач и проектов!
Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl
State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM