Клуб CDO
3.08K subscribers
380 photos
24 videos
88 files
1.44K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Дайджест статей 06/08/21

Improving Data Processing with Spark 3.0 & Delta Lake
https://www.smartdatacollective.com/improving-data-processing-with-spark-3-delta-lake/

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
https://habr.com/ru/post/567078/

A 2021 Guide To Modernizing Data Integration and Supercharging Digital Transformation
https://dzone.com/articles/a-2021-guide-to-modernizing-data-integration-and-s

Are Data Intelligence Tools Part of the New Normal?
https://blogs.gartner.com/power-of-the-profession-blog/are-data-intelligence-tools-part-of-the-new-normal/
Интересная картинка
Немного оффтопик, но решил поделиться - очень интересная статья, в которой собраны основные философские концепции теории сознания. Про НС там совсем чуть-чуть, но обзор по тому что сейчас известно на тему сознания с отсылками к источникам, которые можно изучить отдельно - очень неплохой имхо.

https://habr.com/ru/post/570824/
News Recommendation System

По итогам прочтения статьи «News recommender system: a review of recent progress, challenges, and opportunities» написал тут небольшие заметки о наиболее интересных, с моей точки зрения, моментах этого исследования.

Излишне говорить о важности систем рекомендации новостей, не буду пересказывать статистику о том, как вокруг нас растёт информационный поток, но надо отметить, что в дополнение к этому росту сейчас также довольно остро встаёт проблема fake news, что делает задачу персонализации новостной ленты еще более важной и требует применения подходом, когда анализируется не только meta-информация о контенте (что сейчас применяется в большинстве движков) но и сам контент, который становится все больше мультимодальными (представляет собой текст, аудио или изображение/видеоряд).

NRS (news recommendation system), так же как и рекомендательная система для любого другого контента имеет свои особенности, сложности и вызовы. Как отдельная доменная область, новости имеют следующие особенности:

⁃ Короткое время жизни контента (тут хочу отметить интересный подход, который применён в продукте BraveNews, там коллеги используют логарифмическую функцию от возраста новости при расчете ее релевантности);
⁃ Дубликация контента - на один новостной повод публикуются большое количество новостных сообщений;
⁃ Скорость информационного потока и реакции пользователей - строить новостную ленту и отражать в рекомендациях реакции пользователей надо достаточно быстро;
⁃ У пользователей могут быть 2 типа «предпочтений/интересов» - долгосрочные и краткосрочные, которые надо учитывать при персонализации;
⁃ Необходимость контроля качества новостей, из-за влияния clickbate заголовков на популярность новости и fake news;
⁃ Новостные тренды и «связанность» новостей в рамках развития одного новостного повода, когда пользователь хочет следить за развитием какой то ситуации с течением времени;
⁃ Важность для рекомендаций сопутствующего окружающего контекста (например в период Олимпийских игр даже те, что не интересуются спортом, могут быть заинтересованы в новостях об олимпийских играх);
⁃ Эмоции - эмоциональная окраска новостей очень сильно влияет на пользовательское поведение и должна учитываться при рекомендациях.

Кроме этого, оценка качества самих рекомендаций так же имеет свои особенности, тк простая оценка «точности» на основе одной метрики (например клик) не может говорить о качестве всей новостной ленты в целом, где надо учитывать и оптимизировать такие параметры, как:

⁃ Среднее время чтения ленты пользователем;
⁃ Разнообразие новостной ленты - хорошим подходом является не сужение фокуса пользователя и создания «информационного пузыря», а внесение разнообразия в ленту (часто для этого используют даже случайное подмешивание новостей вместе с рекомендованными);
⁃ Покрытие - насколько персональная новостная лента покрывает общий информационный фон;
⁃ Novelty (не знаю как на русский правильно перевести :) ) - насколько новости не повторяют прошлые новости и отличаются своей новизной в информационном, а не временном, плане;
⁃ Неожиданность - насколько новость может «удивить» пользователя;
⁃ Важность - оценка важности новости для пользователя.

Все эти аспекты формируют и влияют на пользовательский опыт и его качество. Оценка качества данного опыта - довольно субъективна и для ее измерения используют как прямые данные (сбор метрик по кликам, скролам и тд) так и косвенные (опоросы, использование асессоров и тд).

Комбинации всех этих характеристик, являющихся всегда компромиссом друг относительно друга, формирует ряд числовых оценочных метрик для качества новостной ленты.

Что касается алгоритмов,применяемых в NRS, то самыми распространёнными остаются алгоритмы колоборативной фильтрации и content-based filtering (CF и CBF), а так же их их сочетания. В большинстве своём данные алгоритмы работают на основе meta-информации о новостях. Тем не менее в работе отмечается их недостаточное качество применительно конкретно к новостным рекомендациям.
В последнее время исследователи и разработчики все больше обращают внимание на «окружающий контекст» и алгоритмы глубокого обучения для улучшения качества рекомендаций.

К «новым» подходам в разработке NRS авторы относят использование следующих алгоритмов:
⁃ Matrix factorization и Non-negative matrix factorization
⁃ Tensor factorization
⁃ Probabilistic matrix factorization
⁃ Bayesian personalized ranking
⁃ General linear modeling

А так же их модификации на основе нейронных сетей с использование глубокого обучения, что особенно набирает популярность в последнии годы, а в случае, если идёт работа с оценкой контента новости (будь то текст, аудио или изображение), то использование CNN/RNN, а так же языковых моделей (типа BERT) становится просто жизненно необходимым.

Еще одним преимуществом использования NN является возможность обучаться в процессе взаимодействия пользователя с контентом. Так же модели, в основе которых находится deep learning, показывают хорошее качество при моделировании последовательного новостного контента и в случаях холодного старта, за счёт того, что они выявляют такие признаки в контенте, которые позволяют сформировать рекомендации даже в случае разряженных данных, на которых подходы на основе CF/CBF показывают плохой результат. Особенно выдающиеся результаты данные модели показывают с применением механизма внимания.

Все перечисленные выше особенности находят своё отражение не только в алгоритмах, которые «затачиваются» под задачи NRS, но в специализированных платформах для создания NRS, таких как CLEF NEWSREEL, streamingRec и MIND.

К основным сложностям создания NRS относят:
⁃ Требуемая скорость обработки данных и чувствительность к «свежести» новости
⁃ Оценка метрик «качества» новостной ленты
⁃ Оценка качества новостного контента (дедубликация, fake news и тд)

PS опускаю в этих заметках части исследования, посвящённые проблематики информационного пузыря, анонимности пользователей и прочим моральным-этическим аспектам, являющихся в целом общими для рекомендаций любого типа контента

[2009.04964] News Recommender System: A review of recent progress, challenges, and opportunities
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Первые 3 недели в роли менеджера Data Engineering https://tiffanyjachja.medium.com/my-first-three-weeks-a-data-engineering-manager-8b0be08da7a5
Facebook на фоне скандалов и давления в области защиты пользовательских данных активно развивает направление Гомоморфного шифрования и усиливает конманду лучшими с мире специалистами в этой области.

Во вложении статья с The Information (доступ к ней на сайте платный, поэтому прикладываю файлом эксклюзивно для участников этого канала).

Гомогенное шифрование - форма шифрования, позволяющая производить определённые математические действия с зашифрованными данными и получать зашифрованный результат, который соответствует результату операций, выполненных с открытыми данными. Например, один человек мог бы сложить два зашифрованных числа, не зная расшифрованных чисел, а затем другой человек мог бы расшифровать зашифрованную сумму — получить расшифрованную сумму, не имея расшифрованных чисел.

Facebook интересуется темой в первую очередь в задаче использования данных Whatsup в рекламной платформе самого Facebook. Напомню, что за WU была заплачено очень большая сумма в расчете именно на повышение привлекательности Facebook Ads на рекламном рынке, но активности регуляторов сейчас ограничивают возможности по реализации этой синергии.

Пока данный подход находится на ранеей стадии исследования в Facebook, хотя многие крупные игроки уже имеют разработанные решения.
Дайджест статей 21/08/2021

Обдурить Шаи-Хулуда
https://habr.com/ru/post/573766/

Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark
https://habr.com/ru/post/572522/

Как не утонуть в озере данных: инструкция от РСХБ
https://habr.com/ru/company/rshb/blog/573322/
Всем привет! Я заранее прошу прощения за саморекламу, но хочется поделиться радостью 🙂 Да и в целом не совсем оффтопик же 🙂

Текстовая модель ruRoberta-large finetune, которую разработал SberDevices, стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE.

https://gazeta.ru/tech/news/2021/08/25/n_16429268.shtml
Дайджест статей 27/08/2021

Как мы внедряем машинное зрение на Стойленском ГОКе
https://habr.com/ru/company/redmadrobot/blog/571504/

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3
https://habr.com/ru/company/otus/blog/574704/

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии
https://habr.com/ru/company/evraz/blog/573340/

Как мы внедрили BI-платформу и начали развивать self-service аналитику
https://habr.com/ru/post/574890/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574890

Чего компании ждут от Data Scientist в 2021
https://habr.com/ru/post/574674/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574674
​​Призрак бродит по планете, призрак трансгуманизма.
Манифест Джека Кларка на Stanford HAI.

Два весьма знаменательных события этой недели – (1) в литературе и (2) в разработке ИИ, - удивительным образом сошлись в своем базовом тезисе.
Первое событие – роман Виктора Пелевина TRANSHUMANISM INC., опубликованный вчера в России.
Второе – «Манифест» Джека Кларка «Big models: What has happened, where are we going, and who gets to build them», с которым он выступил 23-го августа в Стэнфордском институте человеко-ориентированного ИИ (HAI).

Базовый тезис обоих текстов один и тот же:
мейнстримный тренд развития ИИ, ведет к тому, что невиданные в истории человечества материальные и нематериальные блага
• получат лишь самые богатые бизнесмены, высокие правительственные чиновники и ведущие разработчики ИИ,
• а подавляющему большинству людей эти сверхценные блага просто не достанутся.


В романе Пелевина:
«В будущем богатые люди смогут отделить свой мозг от старящегося тела - и станут жить почти вечно в особом “баночном” измерении. Туда уйдут вожди, мировые олигархи и архитекторы миропорядка. Там будет возможно все. Но в банку пустят не каждого. На земле останется зеленая посткарбоновая цивилизация, уменьшенная до размеров обслуживающего персонала, и слуг-биороботов».

Мало знакомым с положением дел в разработке ИИ такой прогноз кажется антиутопической пугалкой. Они полагаются на коммодизацию ИИ-приложений, что, по их мнению, приведет со временем к радикальному удешевлению приложений и сделает их доступными для большинства (типа современных бесплатных приложений для перевода, генерации текстов и всевозможных игр с фотографиями себя и других). Вот типичный пример такого рассуждения (4).

В отличие от таких критиков, Джек Кларк, 100%-но согласен с Пелевиным, что никакая коммодизация не спасет.
При этом Кларк – один из самых осведомленных экспертов по ИИ в мире, известностью в кругах ИИ разработчиков не уступающий Пелевину в современном российской литбомонде (погуглите, если кто не знает).

Логика «манифеста» Кларка, представленного им на Stanford HAI, не сложнее логики «Манифеста Коммунистической партии» Маркса и Энгельса.

Зачем большому бизнесу делиться сверхприбылью? Ведь до сих пор монополисты БигТеха этого не делали, лишь увеличивая свою капитализацию на десятки и сотни ярдов в год (см. 3).

Что же предлагает Кларк?
Вот логика его предложения.
А) Дальнейшее развитие ИИ решающим образом зависит от совершенствования «Больших моделей» (так Кларк именует базовые модели, которые учат на масштабируемых «больших данных», и они могут быть адаптированы для широкого круга задач нижестоящего уровня – напр. BERT, GPT-3, CLIP).
Б) Доводка и обучение Больших моделей – весьма дорогое дело. И потому это делается сейчас лишь китами БигТеха. Они забирают себе академические разработки таких моделей и совершенствуют их уже без «академиков».
В) «Академики» далее оказываются вне игры. А киты БигТеха, хоть со скрипом, но все же вынуждены делиться достижениями Больших моделей с правительством.
Г) Если все оставить как есть, основными выгодопреобретателями развития ИИ останутся киты БигТеха и высокие чиновники. А большинство людей будут лишь хлебать негативные последствия внедрения все более мощных приложений (типа тотального контроля и т.п.)
Д) Изменить положение вещей может лишь одно - Большие модели должны обучаться и совершенствоваться не БигТехом, а в академической среде (и Кларк пишет, как к этому идти)

Скорее всего, на «манифест» Кларка киты БигТеха отреагируют так же, как на роман Пелевина – не заметят или свысока покуражатся (как было с фильмом «Социальная дилемма»).

Что ж. Над манифестом компартии тоже куражились. Но для 1/7 части мира вышло только хуже. Сейчас же речь о всем мире.
Ссылки:
1 (видео)
2 (слайды)
3 (скорость обогащения)
4 (критика тезиса)
#ИИ
что бы все таки не отходить далеко от основной темы канала - управление данными, вот еще одна статья на тему разницы между DWH и DataLake.

Из значимого в статье я бы отметил, что решения предназначены для разных категорий пользователей: DWH для аналитиков, DL для саентистов.

Ну и хорошая стравнительная картинка.

https://www.smartdatacollective.com/understanding-the-differences-between-data-lakes-and-data-warehouses/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
друзья, я тут попробую прикрутить нативные комментарии к постам, прошу прощения если будет какой-то тестовый спам. спаибо заранее за понимание 🙂
Дайджест статей 04/09/2021

Essential Features of Data Quality Tool
http://www.datasciencecentral.com/xn/detail/6448529:BlogPost:1065569

Управление сложностью legacy-кода в Big Data проектах с помощью инструмента Datalog
https://habr.com/ru/post/576034/?utm_source=habrahabr&utm_medium=rss&utm_campaign=576034

6 правил по обеспечению качества данных для машинного обучения
https://habr.com/ru/post/573590/?utm_source=habrahabr&utm_medium=rss&utm_campaign=573590

В чем разница между DevOps и MLOps?
https://habr.com/ru/company/nixys/blog/573444/

Собственная методология разработки R&D-проектов в AI, от идеи до создания
https://habr.com/ru/company/selectel/blog/575692/

CI/CD Trend Report 2021: Key Takeaways
https://dzone.com/articles/cicd-trend-report-2021-key-takeaways

5 этапов, гарантирующих успешную разметку данных
https://habr.com/ru/post/574314/

Декларативное описание структур данных в RDBMS
https://habr.com/ru/post/575254/