Клуб CDO
3.08K subscribers
380 photos
24 videos
88 files
1.44K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
На этой неделе ВОЗ опубликовала 1-й доклад об использовании ИИ в здравоохранении, а также 6 принципов проектирования, разработки и внедрения ИИ. 

В документе говорится о переоценке преимуществ ИИ, одновременно, подчеркивая, как с помощью технологии можно улучшить скрининг, оказание клинической помощи и тд.

По оценке IDC, в 2020г. объем, создаваемых данных о здоровье, превысил 2000 эксабайт, ежегодно он будет расти на 48% в год. 

В докладе ВОЗ отмечаются, что возможности, создаваемые ИИ, связаны с рисками.

Закодированные в алгоритмах предубеждения могут причинить вред пациентам и поставщикам медицинских услуг. Системы, обученные в основном на данных, полученных от людей из стран с высоким уровнем доходов, например, могут не работать для пациентов с низким и средним уровнем доходов. Более того, нерегулируемое использование ИИ может подорвать права пациентов в пользу бизнеса или государства.

Наборы данных, используемых для обучения систем искусственного интеллекта, которые могут прогнозировать наступление таких болезней как Альцгеймер, диабет, рак груди и шизофрения, поступают из различных источников. Часто пациенты не знают, куда отправляются их персданные. В 2017 году регулирующий орган Великобритании пришел к выводу, что фонд Royal Free London NHS Foundation Trust, подразделение Национальной службы здравоохранения Великобритании, предоставил DeepMind данные о 1,6 миллионах пациентов без их согласия.

Независимо от источника информации данные могут содержать предвзятость, создавая неравенство в алгоритмах ИИ, обученных диагностике заболеваний. Команда британских ученых обнаружила, что почти все наборы данных о заболеваниях глаз поступают из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики заболеваний глаз с меньшей вероятностью работают для расовых групп из недостаточно представленных стран.

Чтобы еще раз показать эту точку зрения, исследователи из Стэнфорда обнаружили - некоторые ИИ медицинские устройства, одобренные FDA, уязвимы. По мере того, как ИИ становится встроенным в большее количество медицинских устройств (в прошлом году FDA одобрило более 65 устройств) - точность этих алгоритмов не изучается тщательно.

Чтобы ограничить риски и увеличить пользу ИИ для здоровья, ВОЗ рекомендует предпринять меры:

1. компенсация должна быть доступна всем, на кого негативно повлияли ИИ - решения

2. необходимо постоянно оценивать приложения ИИ, чтобы определить, соответствуют ли они ожиданиям и требованиям

3. ВОЗ рекомендует как правительствам, так и компаниям устранять сбои на рабочем месте, вызванные автоматизированными системами, включая обучение медицинских работников и их адаптации к использованию ИИ

4. Системы ИИ должны быть тщательно спроектированы с учетом разнообразия социально-экономических и условий здравоохранения.
Небольшое оффтопик, но не могу не поделиться и молчать.

Не знаю, кто как относиться к теме AGI, но в любом случае рекомендцю ознакомиться со статьей во вложении. Несмотря на то, что статья не новая (2014 год) в ней рассматриваются 2 противоположных теории общего ИИ - технологической сингулярности и теории квантового сознания Пенроуза.

Не хочу тут грузить деталями, но напишу свои выводы по прочтению:

- сингулярность не наступит, тк скорость вычислений никак не относиться к созникновению сознания
- у нас нет теории нашего сознания и нет даже физической теории, на которой можно построить теорию сознания. Пенроуз использует квантовую физику только потому, что классическая физика никак не помогает сделать модель сознания, а другой физики у нас нет
- по всей видимости наша реальность имеет фундаментальные ограничения, к которым мы можем асимптотически приближаться но которые никогда не сможем преодолеть (постоянная планка, скорость света) и сознание относиться к таким же фундаментальным ограничениям

Ну а то, что мы считаем ИИ сейчас (ML) в общем то остается довольно полезным шагом в автоматизации и вычислениях и продолжает расширять возможности людей за счет технологий, но ни в коей мере их не заменяет.
Конференция о дата-инжиниринге SmartData 2021 ищет спикеров 🎙

Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!

В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).

Темы, которые ждут больше всего:
– Стриминг;
– СУБД и хранилища для больших данных;
– Архитектура DWH;
– Data governance;
–Технологии построения ETL;
– Оркестрация и MLOps.

Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.

Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.

➡️ Подать заявку и узнать подробности можно на сайте.
Вопросы присылайте на почту program@smartdata.ru
И еще немного про Data Mesh

Немного мыслей тут родилось про Data Mesh. Тема популярная, все начинают вокруг говорить о том, что они применяют этот подход, реализуют проекты и тд. Тем не менее все время не могу уловить какую “суть” этого подхода, какую то формулировку, которая в простой форме объяснит основное отличие от предыдущих концепций, типа Data Lake и тп. Читаешь статьи, вроде много букв везде, а вот понимание не складывается. И вот проштудировал еще раз основной источник на сайте Мартина Фаулера (см ниже) и вот родилось такое понимание:

Data Mesh в первую очередь это организационная концепция, а не техническая. Она говорит о том, что мы децентрализуем ОТВЕТСТВЕННОСТЬ за данные между разными командами, обеспечивая их нужным (даже централизованным) техническим инструментарием, для того, что бы они эту ответственность могли осуществлять.

Вот в чем суть - основные проблемы во всех больших проектах DHW/DL это больше организационные проблемы взаимодействия разных команд, а не техническое проблемы обработки данных, и Data Mesh предлагает нам концепцию, по которой каждая команда, которая производит данные, должна быть ответственной за переиспользование этих данных другими командами, что бы катализировать использования данных в организации.

Реализации этой концепции требует:
⁃ В первую очередь организации изменения - изменения культуры, формирования новых KPI, поддержки со стороны руководства и тд.
⁃ Во вторую очередь процессные изменения - процессы Data Goverence, обеспечивающие “правила игры” общие для всех команд
⁃ В третью очередь технические изменения - нужно эти команды обеспечить технической возможностью выполнять новую функцию (хранить данные обрабатывать), а так же поддержать технически функции типа Data Discovery и прочие из пункта 2. И это очень важно сделать при реализации данного подхода.

И еще раз подчеркну, что технические решения из третьего пункта могут быть вполне себе централизованными Data Lake, если это экономически и технически обосновано.

Вот такие у меня сложились персональные выводы на текущий момент.

https://martinfowler.com/articles/data-monolith-to-mesh.html
Дайджест статей 11/07/2021

Всем привет! Довольно много статей по теме управления данными и работы с данными вообще появляется в поле моего внимания, но делать краткие обзоры каждой сложно, а спамить в канал и пересылать каждую статью - не хочется. Поэтому решил просто делать еженедельный дайджест того, что пролетает по нашей теме на Хабре и других источниках. Публиковать буду по пятницам, что бы было чем заняться в выходные 🙂

Вот подборка этой недели:

Data Mesh: как работать с данными без монолита
https://habr.com/ru/company/dododev/blog/475476/

Как и зачем «Ашан» построил платформу для работы с Big Data в публичном облаке
https://habr.com/ru/company/mailru/blog/565664/

Как Hadoop-кластер помогает нам выполнять триллионы вычислений в день и выводить аналитику на новый уровень
https://m.habr.com/ru/company/moex/blog/566174/

Следующий этап: построение конвейера данных от периферии до аналитики
https://habr.com/ru/company/cloudera/blog/560236/

BeeTech 2021: обзор докладов big-data, искуственный интеллект, IT-архитектура, QA, Back-End
BeeTech 2021: обзор докладов big-data, искуственный интеллект, IT-архитектура, QA, Back-End / Блог компании Beeline Казахстан / Хабр
Воскресный офтопик (и я писал об этом в FB, но закину и сюда, может кому пригодится)

Для тех, кто много читает - я тут несколько лет мучаюсь с софтом для чтения электронных книг. iBooks - единственный достойный тул, но он ужасен, особенно на компе. Невозможно управлять классификацией книг, синхронизация загадочна, обложки не отображаются и тд.

Неожиданно наткнулся на очень достойную альтернативу (правда платную) - можно грузить свои книги, синхронизировать между устройствами, читать везде и тд и работает вроде четко.

Делюсь: https://www.bookfusion.com/
Всем привет! В следующий четверг, 22 июля, в 21:00 МСК, совместно с авторами канала https://t.me/noml_digest, проведем голосовой чат на тему модных трендов в области управления данными.

Ссылка на чат для подключения: https://t.me/noml_community?voicechat

Темы: Data Warehouse, Data Lake, Data Vault, Data Lakehouse, Data Fabric, Data Mesh, Data Lab, Data Hub, DataOps, Data Governance ... ну и конечно же Big Data.

Будем разбираться что означают все эти слова, и как заложить крепкий фундамент для успешных ML/DS проектов в виде современной Data Management системы.
А именно, в повестке встречи следующее:
- Эволюция подходов в технологиях построения Data Management систем и методологиях Data Governance.
- Плюсы и минус централизации и децентрализации управления корпоративными данными, как обычно будем искать истину где-то посередине)
- Технологические аспекты и грани децентрализованной обработки и хранения данных, вспомним про Data Federation и обсудим новомодный Data Fabric.
- Как Ops добрался до данных и аналитики: процессы, роли и инструменты DataOps.
- Без качественных данных качественную ML модель не построить. Как решается задачи Data Quality с точки зрения технологий и методологий.

Участники дискуссии
- Денис Афанасьев, Head of TechPlatforms в SberDevices, основатель CleverDATA
- Сергей Абрамов, Head of Feature&ML Engineering, GlowByte Advanced Analytics
- Дмитрий Инокентьев, Архитектор Data платформ, GlowByte Consulting
Дайджест статей 16/07/2021


Платформа обработки данных Билайн
https://habr.com/ru/company/beeline/blog/567508/

Hadoop или MongoDB: что использовать для Big Data?
https://habr.com/ru/company/otus/blog/567558/

Следующий этап: построение конвейера данных от периферии до аналитики
https://habr.com/ru/company/cloudera/blog/560236/

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH
https://habr.com/ru/company/otus/blog/567916/
#книгамесяца про «Забывание» от профессора Скотта Смолла, директора исследовательского центра болезни Альцгеймера в Колумбийском университете .

В книге говорится, что до недавнего времени он и большинство других ученых считали, что забывание - это технический сбой нашего мозга.

Но недавние исследования в области нейробиологии, психологии, медицины и информатики говорят о другом. Искажение фактов и деталей в мозге не только полезны, но и психологически необходимы.

Забывчивость нам даёт когнитивный дар, который позволяет адаптироваться в суматохе жизни.

Доктор Смолл утверждает, что забывание позволяет нам адаптироваться и импровизировать лучше. А сон является ключом к удалению посторонней информации.
ну такое себе развлечение - за 10 минут сжечь кучу денег без какой то практической пользы