Клуб CDO
2.76K subscribers
354 photos
23 videos
84 files
1.37K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Ведущий исследователь Озлем Гарибай, доцент кафедры промышленной инженерии и систем управления UCF, говорит, что технология стала занимать более заметное место во многих аспектах нашей жизни, породив множество проблем, которые необходимо тщательно изучить.

Например, грядущая повсеместная интеграция искусственного интеллекта может существенно повлиять на жизнь человека таким образом, который ещё не до конца понятен, говорит Гарибай, работающая над применением ИИ в разработке и открытии материалов и лекарств, а также над тем, как ИИ влияет на социальные системы.

Гарибай и группа исследователей определили шесть важных задач, которые необходимо будет решить.

- Благополучие человека: ИИ должен уметь находить возможности, повышающие благополучие людей. Он также должен быть внимателен к благополучию пользователя, взаимодействующего с ИИ.
- Ответственность: Преимущества ИИ должны использоваться таким образом, чтобы соответствовать человеческим ценностям и приоритетам, а также снижать риск непредвиденных последствий или нарушений этических норм.
- Конфиденциальность: Сбор, использование и распространение данных в системах ИИ должны быть тщательно продуманы для обеспечения защиты частной жизни людей и предотвращения вредного использования против отдельных лиц или групп.
- Проектирование: В основе ИИ должен лежать фреймворк, который позволит разделять ИИ с низким риском, ИИ не требующий специальных мер, ИИ с высоким риском и ИИ, который не следует реализовывать вообще.
- Управление и надзор: Необходима система управления, учитывающая весь жизненный цикл ИИ — от концепции до разработки и внедрения.
- Взаимодействие человека и ИИ: Для формирования этичных и справедливых отношений между людьми и системами ИИ необходимо, чтобы взаимодействие основывалось на фундаментальном принципе уважения когнитивных способностей человека. В частности, люди должны сохранять полный контроль над поведением и результатами работы систем ИИ и нести за них ответственность.

В исследовании, которое проводилось в течение 20 месяцев, учитывались мнения 26 международных экспертов, имеющих различный опыт работы в области технологий ИИ.

https://www.eurekalert.org/news-releases/984019
Поздравляю всех причастных с Денем космонавтики!
В дополнение к новости выше
Forwarded from Futuris (Anton)
⚡️Amazon мощно заявил о себе в гонке генеративных ИИ ⚡️ предоставив бесплатный доступ к своему AI-ассистенту по программированию CodeWhisperer🤖 (бесплатный аналог Copilot X от Microsoft) - поддерживает множество языков программирования, интегрируется с различными средами разработки (IDE) и фильтрует предложения кода.

Кроме того, Amazon представил Bedrock - инновационный инструмент для создания и масштабирования генеративных ИИ-приложений. Он включает базовые модели от стартапов, таких как AI21 Labs, Anthropic и Stability AI, что позволит разработчикам строить свои приложения на основе передовых ИИ-технологий.

Эти новости подчеркивают амбиции Amazon на рынке искусственного интеллекта, где компания стремится конкурировать с гигантами, такими как Microsoft, Google, OpenAI. Разработчики теперь могут расчитывать на более доступные и продвинутые инструменты, которые помогут ускорить и упростить процесс разработки программного обеспечения🤓
Дайджест статей

Методика оценки BI-систем от «Северстали»
https://habr.com/ru/companies/severstal/articles/729000/

Как устроен massively parallel processing (MPP) в Trino
https://habr.com/ru/companies/cedrusdata/articles/729004/

Is Apache Kafka Providing Real Message Ordering?
https://dzone.com/articles/is-apache-kafka-providing-real-message-ordering

Data Modernization Stages and Best Practices
https://dzone.com/articles/data-modernization-stages-and-best-practices

A New Era of Data Analytics: Exploring the Innovative World of Data Lakehouse Architectures
https://dzone.com/articles/a-new-era-of-data-analytics-exploring-the-innovati

Все, что вы хотели знать о задаче определения остаточного ресурса оборудования
https://habr.com/ru/articles/717812/

The Role of Big Data Analytics in Gaming
https://www.smartdatacollective.com/role-of-big-data-analytics-gaming/

Decentralized Data Mesh With Apache Kafka in Financial Services
https://dzone.com/articles/decentralized-data-mesh-with-apache-kafka-in-financial-services
Разбавить немного умные тексты
📚Digest полезных материалов по ML
👍Рекомендательные системы

Part1
Colloborative Filtering: User-baser, Item-based models, SVD, ALS

1️⃣ Теоретическая статья про рекомендательные системы от Яндекса
2️⃣ Хороший пост на хабр про user-/item-based модели
3️⃣ Лекция Дьяконова по коллаборативной фильтрации (есть основные алгоритмы)
4️⃣ Лекция ФКН ВШЭ по рекомендательным системам (заметки одного из лучших лекторов на ФКН - Евгения Соколова) - это хардкор для тех, кому не хватает теории
5️⃣ Оригинальная статья про алгоритм ALS
6️⃣ Знаменитое соревнование Netflix Prize по РекСис

Part2 Content-based recommender systems, ассоциативные правила

1️⃣ Хорошее объяснение ассоциативных правил на Хабр
2️⃣ Алгоритм apriori in Python
3️⃣ Соревнование по анализу продуктовой корзины
4️⃣ Пример использования ассоциативных правил на Python
5️⃣ Статья на TowardsDataScience про Content-based рекомендательные системы

#ml_на_пальцах
На фото могила Томаса Байеса в Лондоне. Человека, без которого ChatGPT скорее всего был бы не возможен :)

Томас Байес (Thomas Bayes) - английский математик и пресвитерианский священник, родившийся в 1701 году и умерший в 1761 году. Его вклад в развитие искусственного интеллекта заключается в создании теоремы Байеса, которая является основой для машинного обучения и статистического вывода.

Теорема Байеса позволяет вычислять вероятность того, что некоторое событие произойдет, на основе знания связанных с этим событием условий. Это позволяет моделировать и прогнозировать результаты на основе имеющихся данных и сделанных ранее выводов.

В искусственном интеллекте теорема Байеса используется в различных приложениях, таких как классификация текстов, распознавание речи, обработка изображений и многих других областях. Она используется для определения вероятности того, что некоторый объект или событие принадлежит к определенному классу на основе имеющихся данных и априорных знаний о классе.

Томас Байес оставил огромный вклад в развитие математики и статистики, а его теорема сегодня является одним из фундаментальных элементов машинного обучения и искусственного интеллекта.
Клуб CDO
Поддержать канал
Поддерживаем канал и работу @IgorVA_bot 🙂
Напоминаю, что завтра будет проходить конференция First Russian Data Forum, где я приму участие в секции "Будущее обработки данных" где с коллегами поговорим, собственно, про будущее обработки данных :)

Что интересно: на брифинге спикеров обсуждали темы докладов и выяснилось, что практически все доклады, так или иначе, связаны с темой объединения данных и защищенных совместных выступлений. Я расскажу про федеративную модель работы, а коллеги поделятся другими методами и практиками.

Наконец-то эти темы становятся мейнстримом :)

Кажется, что будет интересно, приходите послушать.


https://data-forum.ru/
Forwarded from Коммерсантъ
Ассоциация участников рынка больших данных проанализировала варианты развития

Рынок больших данных в РФ при базовом сценарии развития вырастет до 319 млрд руб. к концу 2024 года, полагают в Ассоциации участников рынка больших данных (АБД). Там разработали несколько сценариев, худший из которых предполагает перевод рынка на «мобилизационную экономику» — то есть монополизацию и возложение госзаданий на крупные компании. В АБД, однако, полагают, что рынок вырастет и в этом случае.

Эксперты в целом сомневаются, что цифровой учет военнообязанных всерьез повлияет на ситуацию с большими данными в России, поскольку эта система будет работать вне рыночного поля.

#Ъузнал
Напоминаю, что завтра и послезавтра (19-20 апреля) будет проходить конференция "DataTalks 4.0 актуальные вопросы про данные", которую регулярно проводит Ростелеком. Мне всегда очень нравятся там материалы, они всегда очень сфокусированы на таких темах как качество данных, data governace и тд и носят прикладной характер. Ниже привожу 2 ссылки на YouTube, где будет осуществляться трансляция.

https://datatalks.rt.ru/events/datatalks-4-0

День 1: https://www.youtube.com/watch?v=4-XdD9bkL2Y
День 2: https://www.youtube.com/watch?v=OqWtPVbK-r0
Интересно, что это такое :)
Forwarded from GoPractice!
Встречайте «Симулятор управления ML/AI-проектами»

Долгое время основные вызовы в применении ML-технологий лежали в инженерной и научной плоскостях.

Развитие технологий привело к тому, что сейчас эти вызовы стремительно смещаются в плоскость продуктовую.

Все чаще вопрос оказывается не в том, как что-то реализовать, а в том, где есть возможности для применения ML-технологий: создадут ли они ценность, принесет ли это выгоду бизнесу, как организовать разработку и довести проект до успешного внедрения.

Все это создает спрос на специалистов, которые способны увидеть возможности для применения машинного обучения и реализовать ML-проект. Уже сейчас зарплата, например, ML/AI-продакта превышает доход обычного продакт-менеджера на 20–40%.

Как стать таким специалистом?

Эту задачу и призван решить наш новый «Симулятор управления ML/AI-проектами».

Почему мы создали симулятор

Представления большинства нетехнических специалистов про ML находятся в одной из двух крайностей:

🪄 Одни видят ML/AI как магию, которая позволяет сделать все, что угодно. Надо лишь поставить задачу разработчикам;

⚙️ Другие же считают, что ML — это что-то очень сложное, глубоко техническое и недоступное.

Такая ситуация возникает по той причине, что человеку со стороны бизнеса достаточно сложно разобраться в ML.

Но на самом деле, если десять лет назад глубокое понимание математики и программирования было необходимым знанием для погружения в ML-индустрию, то на текущем этапе развития алгоритмы и модели стали уже общедоступными.

На этом фоне ключевая ценность работы с ML смещается в способность увидеть возможность для применения машинного обучения, а потом адаптировать существующие алгоритмы и технологии для конкретной прикладной задачи.

Но научиться управлять ML-проектами можно только на практике. А для того чтобы менеджеру доверили такой проект, нужен опыт. Замкнутый круг.

«Симулятор управления ML/AI-проектами» нацелен на то, чтобы разорвать этот круг и дать необходимые навыки и опыт для работы менеджеров ML-проектов.

Чему учит симулятор

🔦 Видеть, где машинное обучение может принести пользу бизнесу;

🤖 Создавать продукты на основе технологий машинного обучения;

🏗 Строить процесс создания и внедрения ML-решений, предотвращать типичные ошибки и проблемы заранее;

💵 Организовать работу над ML-проектами так, чтобы они приносили пользу бизнесу.

Как устроено обучение в симуляторе

Как и в других симуляторах GoPractice, вы погружаетесь в интерактивную историю, в которой вам предстоит помочь компании выбраться из кризиса и стать лидером рынка.

Вы будете учиться, принимать решения, ошибаться, анализировать ошибки, находить новые пути, тестировать и внедрять ML-модели и в конце концов достигать успеха.

Обучение в симуляторе построено вокруг работы над тремя проектами, каждый из которых научит вас решать распространенную ML-задачу:

👓 Задача на основе компьютерного зрения (computer vision);

📊 Прогнозирование продаж;

💡 Создание рекомендательной системы.

Этот симулятор — многолетний практический опыт создания ML-решений, упакованный в двухмесячную интерактивную образовательную программу.

Узнать подробнее о том, зачем продакт-менеджерам, предпринимателям и другим специалистам изучать ML, а также прочитать отзывы наших первых студентов вы можете в нашем блоге по ссылке.

Стоимость и специальное предложение

Стоимость обучения в симуляторе составит 65 900 рублей.

А для тех, кто начнет учиться до 15 мая, цена будет ниже — 59 900 рублей.

Обучение в симуляторе проходит онлайн и в своем темпе. При этом вы всегда можете задать вопрос авторам и получить от них всю необходимую поддержку.

Начать обучение можно прямо сейчас.
Новая публикация на тему Federated Learning в журнале Nature.

"A federated learning differential privacy algorithm for non-Gaussian heterogeneous data"

https://www.nature.com/articles/s41598-023-33044-y
Вот всегда меня интересовало, как же можно было сделать такую систему рекомендаций, что просто страшно ленту открывать. А вот оно оказывается как оно делается :)

Ну правда, я всегда поражался тому, что мне рекомендует Twitter. И похоже, что проблема у них в Embedding Spaces - судя по статье, они выбирают твиты для рекомендаций из "сообществ" -> те, которые вызывают наибольшую реакцию и хайп. Ну и тогда понятно почему ко мне лезет в ленту какая то жесть, вместо полезных статей про управления данными :)

Интересная инфа про нагрузку: "Вышеописанный пайплайн работает примерно 5 миллиардов раз в день и выполняется в среднем за 1,5 секунды. При этом один запуск пайплайна требует 220 секунд времени CPU — почти в 150 раз больше, чем задержка, которую вы видите в приложении."

https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
Kupriyanov_AD16.pptx
7.4 MB
Отличная презентация про использование ChatGPT для аналитика, рассказавающая о подходах prompt engineering. Все таки мощная штука!