Дайджест статей 23/07/21
The Essential Data Cleansing Checklist
https://dzone.com/articles/the-essential-data-cleansing-checklist
Обзор Databrick. Что облачный продукт может дать начинающим специалистам
https://habr.com/ru/post/568276/
What Is Data Locality?
https://dzone.com/articles/what-is-data-locality
Why Your Business Should Use a Data Catalog to Organize Its Data
https://www.smartdatacollective.com/why-business-should-use-data-catalog-to-organize-its-data/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
Персональные данные и всё, что о них нужно знать
https://habr.com/ru/post/568364/
Databook: Turning Big Data into Knowledge with Metadata at Uber
https://eng.uber.com/databook/
Turning Metadata Into Insights with Databook
https://eng.uber.com/metadata-insights-databook/
Open Source Data Lineage Tools for Data Management
https://www.knowledgenile.com/blogs/open-source-data-lineage-tools/
Хранилище комплексных данных о клиентах и его синхронизация с Hubspot при помощи BigQuery, dbt, Looker и Hightouch
https://habr.com/ru/post/568686/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568686
Data Platform: Data Ingestion Engine for Data Lake
https://dzone.com/articles/data-platform-data-ingestion-engine
The Essential Data Cleansing Checklist
https://dzone.com/articles/the-essential-data-cleansing-checklist
Обзор Databrick. Что облачный продукт может дать начинающим специалистам
https://habr.com/ru/post/568276/
What Is Data Locality?
https://dzone.com/articles/what-is-data-locality
Why Your Business Should Use a Data Catalog to Organize Its Data
https://www.smartdatacollective.com/why-business-should-use-data-catalog-to-organize-its-data/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
Персональные данные и всё, что о них нужно знать
https://habr.com/ru/post/568364/
Databook: Turning Big Data into Knowledge with Metadata at Uber
https://eng.uber.com/databook/
Turning Metadata Into Insights with Databook
https://eng.uber.com/metadata-insights-databook/
Open Source Data Lineage Tools for Data Management
https://www.knowledgenile.com/blogs/open-source-data-lineage-tools/
Хранилище комплексных данных о клиентах и его синхронизация с Hubspot при помощи BigQuery, dbt, Looker и Hightouch
https://habr.com/ru/post/568686/?utm_source=habrahabr&utm_medium=rss&utm_campaign=568686
Data Platform: Data Ingestion Engine for Data Lake
https://dzone.com/articles/data-platform-data-ingestion-engine
DZone
The Essential Data Cleansing Checklist
This article covers data quality issues, such as missing, duplicate, or inaccurate values, which cause headaches. Creating a suitable data cleansing checklist makes it ideal to use in systems.
Puppet-State-of-DevOps-Report-2021.pdf
6 MB
Вышел новый State of DevOps Report 2021. Ранее делал анализ версии 2020 года, интересно будет сравнить что изменилось.
Дайджест статей 30/07/21
Что пролетело на радарах за неделю:
Analytics and AI Transformation
https://www.pwc.com/us/en/services/consulting/analytics.html?overlay=healthcareInfographic
What is data governance?
http://www.datasciencecentral.com/xn/detail/6448529:BlogPost:1058708
Data Collection Services Assisting Organizations to Achieve the Right Business Impact
http://www.datasciencecentral.com/xn/detail/6448529:BlogPost:1058703
Какими нормами и законами регулируется защита персональных данных?
https://habr.com/ru/company/digitalrightscenter/blog/569900/
Дайджест новостей искусственного интеллекта и машинного обучения за июль
https://habr.com/ru/post/568762/
Топ-5 инструментов для разметки данных в 2021 году
https://habr.com/ru/post/569938/
Что пролетело на радарах за неделю:
Analytics and AI Transformation
https://www.pwc.com/us/en/services/consulting/analytics.html?overlay=healthcareInfographic
What is data governance?
http://www.datasciencecentral.com/xn/detail/6448529:BlogPost:1058708
Data Collection Services Assisting Organizations to Achieve the Right Business Impact
http://www.datasciencecentral.com/xn/detail/6448529:BlogPost:1058703
Какими нормами и законами регулируется защита персональных данных?
https://habr.com/ru/company/digitalrightscenter/blog/569900/
Дайджест новостей искусственного интеллекта и машинного обучения за июль
https://habr.com/ru/post/568762/
Топ-5 инструментов для разметки данных в 2021 году
https://habr.com/ru/post/569938/
PwC
Analytics and AI Transformation
PwC helps you build your analytics and artificial intelligence (AI) capabilities from strategy to deployment.
Опубликована запить митапа по Data Science, проводимого Ростелекомом.
В самом первом выступлении Максим Лисянский из LeroyMerlin рассказывает об организации функции работы с данными в компании. Как раз, в продолжении обсуждаемой ранее темы про Data Mesh, пример того как в компании сформированы распределенные продуктовые команды, вместо единой централизованной функции.
https://youtu.be/jIywXLHfG6Y
В самом первом выступлении Максим Лисянский из LeroyMerlin рассказывает об организации функции работы с данными в компании. Как раз, в продолжении обсуждаемой ранее темы про Data Mesh, пример того как в компании сформированы распределенные продуктовые команды, вместо единой централизованной функции.
https://youtu.be/jIywXLHfG6Y
YouTube
Митап про DataScience
На митапе спикеры из Ростелекома, Леруа Мерлен, Газпромбанка и Утконоса поделятся рецептом внедрения DataScience в компаниях на примере собственного опыта.
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
⚡️Facebook будет настраивать таргетинг рекламы на основе зашифрованных сообщений в WhatsApp
Для этого ИТ-гигант набирает команду исследователей искусственного интеллекта, в том числе нанял ключевого сотрудника из Microsoft.
Facebook - один из немногих ИТ гигантов, таких как Microsoft, Amazon и Google, которые исследуют гомоморфное шифрование.
Такой тип шифрования позволяет делать произвольные вычисления на зашифрованных данных без их расшифровки. Например, Google может делать поиск по запросу не зная, что это за запрос, можно фильтровать спам, не читая писем, подсчитывать голоса, не вскрывая конверты с голосами и многое другое.
Исследователи надеются, что эта технология позволит компании анализировать личную информацию, включая медицинские записи и финансовые данные, сохраняя при этом информацию в зашифрованном виде и защищённой от киберугроз, в случае Facebook - утечки данных рекламодателям или другим лицам.
Кристин Лаутер, которая ранее более 20 лет проработала в Microsoft, занимаясь криптографией и исследованиями конфиденциальности, присоединилась к Facebook в апреле в качестве руководителя исследования AI, в ее подчинении сейчас 120 исследователей в области шифрования, машинного обучения, робототехники и других областей искусственного интеллекта.
Неизвестно, сколько лет потребуется Facebook для внедрения такой технологии и как WhatsApp и другие пользователи Facebook отреагируют на комбинацию шифрования и рекламы.
По сравнению с другими крупными технологическими компаниями Facebook - новичок в этой области.
Например, Microsoft изучает эту технологию более 10 лет, публикуя библиотеку кода с открытым исходным кодом по этой теме и помогая создавать для нее глобальные стандарты.
А Google, IBM опубликовали код для приложений гомоморфного шифрования. IBM во время пандемии заявила, что использовала такое шифрование для анализа рентгеновских изображений для выявления у пациентов Covid-19.
Для этого ИТ-гигант набирает команду исследователей искусственного интеллекта, в том числе нанял ключевого сотрудника из Microsoft.
Facebook - один из немногих ИТ гигантов, таких как Microsoft, Amazon и Google, которые исследуют гомоморфное шифрование.
Такой тип шифрования позволяет делать произвольные вычисления на зашифрованных данных без их расшифровки. Например, Google может делать поиск по запросу не зная, что это за запрос, можно фильтровать спам, не читая писем, подсчитывать голоса, не вскрывая конверты с голосами и многое другое.
Исследователи надеются, что эта технология позволит компании анализировать личную информацию, включая медицинские записи и финансовые данные, сохраняя при этом информацию в зашифрованном виде и защищённой от киберугроз, в случае Facebook - утечки данных рекламодателям или другим лицам.
Кристин Лаутер, которая ранее более 20 лет проработала в Microsoft, занимаясь криптографией и исследованиями конфиденциальности, присоединилась к Facebook в апреле в качестве руководителя исследования AI, в ее подчинении сейчас 120 исследователей в области шифрования, машинного обучения, робототехники и других областей искусственного интеллекта.
Неизвестно, сколько лет потребуется Facebook для внедрения такой технологии и как WhatsApp и другие пользователи Facebook отреагируют на комбинацию шифрования и рекламы.
По сравнению с другими крупными технологическими компаниями Facebook - новичок в этой области.
Например, Microsoft изучает эту технологию более 10 лет, публикуя библиотеку кода с открытым исходным кодом по этой теме и помогая создавать для нее глобальные стандарты.
А Google, IBM опубликовали код для приложений гомоморфного шифрования. IBM во время пандемии заявила, что использовала такое шифрование для анализа рентгеновских изображений для выявления у пациентов Covid-19.
The Information
Facebook Researchers Hope to Bring Together Two Foes: Encryption and Ads
Facebook is bulking up a team of artificial intelligence researchers, including a key hire from Microsoft, to study ways of analyzing encrypted data without decrypting it, the company confirmed. The research could allow Facebook to target ads based on encrypted…
Пост для любителей программной инженерии
Первый раз встретил книгу, в которой автор так конкретно и настоятельно рассказывает про методы декомпозиции требований для разработки архитектуры компонентов/сервисов программной системы, сопровождая описание отличной аргументаций и практическими примерами Я таких хороших описаний ранее не встречал (если кто встречал, поделитесь). Да и вообще, тема декомпозиции требований абсолютно не раскрыта в области Computer Science, всех учат больше кодированию, тестированию и системному дизайну с точки зрения отказоустойчивость. В вот в области декомпозиции требований и solution architect основном доминирует метод “функциональной декомпозиции”, который вроде как вообще растет из ООП и примеров в книгах на тему ООП. Собственно его все и используют, хотя по мнению автора (и не могу не согласиться) он сугубо пагубен и не приводит к возникновению элегантных и хороших архитектур программных систем, наоборот, плодя неэффективности и потери времени и денег при разработке и развитии программных систем.
Тут надо сказать, что такое “хорошая архитектура”. Как и то, что “хороший код” это код, который легко менять под изменения требований, “хорошая архитектура” - поддерживает легкое и безболезненное внесение изменений в компоненты системы. То есть задача архитектора так определить структурные компоненты системы, что бы изменение каждого из них минимально влияли на все другие. Вообще то, что изменение требований считается болью ИТ разработчиков не правильно, большинство авторов наоборот пишут о том, что изменения требований - это жизнь, это происходит и это должно быть. А наша задача вести разработку так, что бы эти изменения поддерживать.
Так вот, функциональная декомпозиция разбивает систему на структурные элементы, определяемые функциональностью системы. Один из способов выполнения функциональной декомпозиции — создание сервисов для всех разновидностей функциональности. Этот способ декомпозиции приводит к взрывному росту количества сервисов, так как система сколько-нибудь приличного размера может содержать сотни видов функциональности. В этих сервисах часто будет дублироваться большой объем общей функциональности, адаптированной для конкретного случая. Поэтому внесение изменений в систему как правило начинает затрагивать большое количество сервисов и модулей и говорить тут о красивой и элегантной архитектуре не особо приходиться.
Автор предлагает использовать другой метод - “декомпозицию на основе нестабильности” (Volatility-based decomposition). Правда тут русский перевод неточен, я бы перевел название как “декомпозиция на основе изменчивости”. Идея тут в том, что бы выделить области в требованиях, вероятность изменений которых велико и инкапсулировать эти изменения в соответсвующие компоненты/сервисы системы. Изменения при этом могут исходить из 2-х “областей”:
Например, смотря на требования к системе биржевой торговли, видим такой список возможных областей нестабильности: нестабильность пользователей, нестабильность клиентских приложений, нестабильность безопасности, нестабильность хранения, нестабильность торговых позиций, нестабильность локального контекста и законодательства и тд - требования ко всем этим областям могут меняться как от разных пользователей, так и с течением времени по мере развития системы. После того как области нестабильности будут определены, необходимо инкапсулировать их в компонентах архитектуры.
Такой подход минимизирует количество изменений, которые надо будет вносить в компоненты системы, при изменении одного из них. Все изменения одной области “инкапсулируются” и макимально изолируются.
Мне такой подход показался очень правильным и элегантным. Это, конечно, краткое изложение идеи, подробнее читайте в первой главе книги: https://www.litres.ru/leve-dzhuvel/sovershennyy-soft-64073407/
Первый раз встретил книгу, в которой автор так конкретно и настоятельно рассказывает про методы декомпозиции требований для разработки архитектуры компонентов/сервисов программной системы, сопровождая описание отличной аргументаций и практическими примерами Я таких хороших описаний ранее не встречал (если кто встречал, поделитесь). Да и вообще, тема декомпозиции требований абсолютно не раскрыта в области Computer Science, всех учат больше кодированию, тестированию и системному дизайну с точки зрения отказоустойчивость. В вот в области декомпозиции требований и solution architect основном доминирует метод “функциональной декомпозиции”, который вроде как вообще растет из ООП и примеров в книгах на тему ООП. Собственно его все и используют, хотя по мнению автора (и не могу не согласиться) он сугубо пагубен и не приводит к возникновению элегантных и хороших архитектур программных систем, наоборот, плодя неэффективности и потери времени и денег при разработке и развитии программных систем.
Тут надо сказать, что такое “хорошая архитектура”. Как и то, что “хороший код” это код, который легко менять под изменения требований, “хорошая архитектура” - поддерживает легкое и безболезненное внесение изменений в компоненты системы. То есть задача архитектора так определить структурные компоненты системы, что бы изменение каждого из них минимально влияли на все другие. Вообще то, что изменение требований считается болью ИТ разработчиков не правильно, большинство авторов наоборот пишут о том, что изменения требований - это жизнь, это происходит и это должно быть. А наша задача вести разработку так, что бы эти изменения поддерживать.
Так вот, функциональная декомпозиция разбивает систему на структурные элементы, определяемые функциональностью системы. Один из способов выполнения функциональной декомпозиции — создание сервисов для всех разновидностей функциональности. Этот способ декомпозиции приводит к взрывному росту количества сервисов, так как система сколько-нибудь приличного размера может содержать сотни видов функциональности. В этих сервисах часто будет дублироваться большой объем общей функциональности, адаптированной для конкретного случая. Поэтому внесение изменений в систему как правило начинает затрагивать большое количество сервисов и модулей и говорить тут о красивой и элегантной архитектуре не особо приходиться.
Автор предлагает использовать другой метод - “декомпозицию на основе нестабильности” (Volatility-based decomposition). Правда тут русский перевод неточен, я бы перевел название как “декомпозиция на основе изменчивости”. Идея тут в том, что бы выделить области в требованиях, вероятность изменений которых велико и инкапсулировать эти изменения в соответсвующие компоненты/сервисы системы. Изменения при этом могут исходить из 2-х “областей”:
•
Изменения требований одного пользователя системы с течением времени •
Изменения, которые формируются требованиями разных пользователей системыНапример, смотря на требования к системе биржевой торговли, видим такой список возможных областей нестабильности: нестабильность пользователей, нестабильность клиентских приложений, нестабильность безопасности, нестабильность хранения, нестабильность торговых позиций, нестабильность локального контекста и законодательства и тд - требования ко всем этим областям могут меняться как от разных пользователей, так и с течением времени по мере развития системы. После того как области нестабильности будут определены, необходимо инкапсулировать их в компонентах архитектуры.
Такой подход минимизирует количество изменений, которые надо будет вносить в компоненты системы, при изменении одного из них. Все изменения одной области “инкапсулируются” и макимально изолируются.
Мне такой подход показался очень правильным и элегантным. Это, конечно, краткое изложение идеи, подробнее читайте в первой главе книги: https://www.litres.ru/leve-dzhuvel/sovershennyy-soft-64073407/
Литрес
«Совершенный софт» – Лёве Джувел | ЛитРес
Совершенный софт – это проверенный, структурированный и высокотехнологичный подход к разработке программного обеспечения. Множество компаний уже используют идеи Лёве в сотнях систем, но раньше эти мы…
Дайджест статей 06/08/21
Improving Data Processing with Spark 3.0 & Delta Lake
https://www.smartdatacollective.com/improving-data-processing-with-spark-3-delta-lake/
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
https://habr.com/ru/post/567078/
A 2021 Guide To Modernizing Data Integration and Supercharging Digital Transformation
https://dzone.com/articles/a-2021-guide-to-modernizing-data-integration-and-s
Are Data Intelligence Tools Part of the New Normal?
https://blogs.gartner.com/power-of-the-profession-blog/are-data-intelligence-tools-part-of-the-new-normal/
Improving Data Processing with Spark 3.0 & Delta Lake
https://www.smartdatacollective.com/improving-data-processing-with-spark-3-delta-lake/
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
https://habr.com/ru/post/567078/
A 2021 Guide To Modernizing Data Integration and Supercharging Digital Transformation
https://dzone.com/articles/a-2021-guide-to-modernizing-data-integration-and-s
Are Data Intelligence Tools Part of the New Normal?
https://blogs.gartner.com/power-of-the-profession-blog/are-data-intelligence-tools-part-of-the-new-normal/
SmartData Collective
Improving Data Processing with Spark 3.0 & Delta Lake
Smart companies are using Spark 3.0 & Delta Lake to improve their data processing capabilities in a myriad of ways.
Немного оффтопик, но решил поделиться - очень интересная статья, в которой собраны основные философские концепции теории сознания. Про НС там совсем чуть-чуть, но обзор по тому что сейчас известно на тему сознания с отсылками к источникам, которые можно изучить отдельно - очень неплохой имхо.
https://habr.com/ru/post/570824/
https://habr.com/ru/post/570824/
Хабр
Есть ли сознание у нейронной сети?
МозгВ последние несколько лет произошел скачкообразный рост индустрии машинного обучения - нейронные сети теперь занимаются всем: накладывают на лица маски котиков, обыгрывают людей в го, ищут кариес...
News Recommendation System
По итогам прочтения статьи «News recommender system: a review of recent progress, challenges, and opportunities» написал тут небольшие заметки о наиболее интересных, с моей точки зрения, моментах этого исследования.
Излишне говорить о важности систем рекомендации новостей, не буду пересказывать статистику о том, как вокруг нас растёт информационный поток, но надо отметить, что в дополнение к этому росту сейчас также довольно остро встаёт проблема fake news, что делает задачу персонализации новостной ленты еще более важной и требует применения подходом, когда анализируется не только meta-информация о контенте (что сейчас применяется в большинстве движков) но и сам контент, который становится все больше мультимодальными (представляет собой текст, аудио или изображение/видеоряд).
NRS (news recommendation system), так же как и рекомендательная система для любого другого контента имеет свои особенности, сложности и вызовы. Как отдельная доменная область, новости имеют следующие особенности:
⁃ Короткое время жизни контента (тут хочу отметить интересный подход, который применён в продукте BraveNews, там коллеги используют логарифмическую функцию от возраста новости при расчете ее релевантности);
⁃ Дубликация контента - на один новостной повод публикуются большое количество новостных сообщений;
⁃ Скорость информационного потока и реакции пользователей - строить новостную ленту и отражать в рекомендациях реакции пользователей надо достаточно быстро;
⁃ У пользователей могут быть 2 типа «предпочтений/интересов» - долгосрочные и краткосрочные, которые надо учитывать при персонализации;
⁃ Необходимость контроля качества новостей, из-за влияния clickbate заголовков на популярность новости и fake news;
⁃ Новостные тренды и «связанность» новостей в рамках развития одного новостного повода, когда пользователь хочет следить за развитием какой то ситуации с течением времени;
⁃ Важность для рекомендаций сопутствующего окружающего контекста (например в период Олимпийских игр даже те, что не интересуются спортом, могут быть заинтересованы в новостях об олимпийских играх);
⁃ Эмоции - эмоциональная окраска новостей очень сильно влияет на пользовательское поведение и должна учитываться при рекомендациях.
Кроме этого, оценка качества самих рекомендаций так же имеет свои особенности, тк простая оценка «точности» на основе одной метрики (например клик) не может говорить о качестве всей новостной ленты в целом, где надо учитывать и оптимизировать такие параметры, как:
⁃ Среднее время чтения ленты пользователем;
⁃ Разнообразие новостной ленты - хорошим подходом является не сужение фокуса пользователя и создания «информационного пузыря», а внесение разнообразия в ленту (часто для этого используют даже случайное подмешивание новостей вместе с рекомендованными);
⁃ Покрытие - насколько персональная новостная лента покрывает общий информационный фон;
⁃ Novelty (не знаю как на русский правильно перевести :) ) - насколько новости не повторяют прошлые новости и отличаются своей новизной в информационном, а не временном, плане;
⁃ Неожиданность - насколько новость может «удивить» пользователя;
⁃ Важность - оценка важности новости для пользователя.
Все эти аспекты формируют и влияют на пользовательский опыт и его качество. Оценка качества данного опыта - довольно субъективна и для ее измерения используют как прямые данные (сбор метрик по кликам, скролам и тд) так и косвенные (опоросы, использование асессоров и тд).
Комбинации всех этих характеристик, являющихся всегда компромиссом друг относительно друга, формирует ряд числовых оценочных метрик для качества новостной ленты.
Что касается алгоритмов,применяемых в NRS, то самыми распространёнными остаются алгоритмы колоборативной фильтрации и content-based filtering (CF и CBF), а так же их их сочетания. В большинстве своём данные алгоритмы работают на основе meta-информации о новостях. Тем не менее в работе отмечается их недостаточное качество применительно конкретно к новостным рекомендациям.
По итогам прочтения статьи «News recommender system: a review of recent progress, challenges, and opportunities» написал тут небольшие заметки о наиболее интересных, с моей точки зрения, моментах этого исследования.
Излишне говорить о важности систем рекомендации новостей, не буду пересказывать статистику о том, как вокруг нас растёт информационный поток, но надо отметить, что в дополнение к этому росту сейчас также довольно остро встаёт проблема fake news, что делает задачу персонализации новостной ленты еще более важной и требует применения подходом, когда анализируется не только meta-информация о контенте (что сейчас применяется в большинстве движков) но и сам контент, который становится все больше мультимодальными (представляет собой текст, аудио или изображение/видеоряд).
NRS (news recommendation system), так же как и рекомендательная система для любого другого контента имеет свои особенности, сложности и вызовы. Как отдельная доменная область, новости имеют следующие особенности:
⁃ Короткое время жизни контента (тут хочу отметить интересный подход, который применён в продукте BraveNews, там коллеги используют логарифмическую функцию от возраста новости при расчете ее релевантности);
⁃ Дубликация контента - на один новостной повод публикуются большое количество новостных сообщений;
⁃ Скорость информационного потока и реакции пользователей - строить новостную ленту и отражать в рекомендациях реакции пользователей надо достаточно быстро;
⁃ У пользователей могут быть 2 типа «предпочтений/интересов» - долгосрочные и краткосрочные, которые надо учитывать при персонализации;
⁃ Необходимость контроля качества новостей, из-за влияния clickbate заголовков на популярность новости и fake news;
⁃ Новостные тренды и «связанность» новостей в рамках развития одного новостного повода, когда пользователь хочет следить за развитием какой то ситуации с течением времени;
⁃ Важность для рекомендаций сопутствующего окружающего контекста (например в период Олимпийских игр даже те, что не интересуются спортом, могут быть заинтересованы в новостях об олимпийских играх);
⁃ Эмоции - эмоциональная окраска новостей очень сильно влияет на пользовательское поведение и должна учитываться при рекомендациях.
Кроме этого, оценка качества самих рекомендаций так же имеет свои особенности, тк простая оценка «точности» на основе одной метрики (например клик) не может говорить о качестве всей новостной ленты в целом, где надо учитывать и оптимизировать такие параметры, как:
⁃ Среднее время чтения ленты пользователем;
⁃ Разнообразие новостной ленты - хорошим подходом является не сужение фокуса пользователя и создания «информационного пузыря», а внесение разнообразия в ленту (часто для этого используют даже случайное подмешивание новостей вместе с рекомендованными);
⁃ Покрытие - насколько персональная новостная лента покрывает общий информационный фон;
⁃ Novelty (не знаю как на русский правильно перевести :) ) - насколько новости не повторяют прошлые новости и отличаются своей новизной в информационном, а не временном, плане;
⁃ Неожиданность - насколько новость может «удивить» пользователя;
⁃ Важность - оценка важности новости для пользователя.
Все эти аспекты формируют и влияют на пользовательский опыт и его качество. Оценка качества данного опыта - довольно субъективна и для ее измерения используют как прямые данные (сбор метрик по кликам, скролам и тд) так и косвенные (опоросы, использование асессоров и тд).
Комбинации всех этих характеристик, являющихся всегда компромиссом друг относительно друга, формирует ряд числовых оценочных метрик для качества новостной ленты.
Что касается алгоритмов,применяемых в NRS, то самыми распространёнными остаются алгоритмы колоборативной фильтрации и content-based filtering (CF и CBF), а так же их их сочетания. В большинстве своём данные алгоритмы работают на основе meta-информации о новостях. Тем не менее в работе отмечается их недостаточное качество применительно конкретно к новостным рекомендациям.
В последнее время исследователи и разработчики все больше обращают внимание на «окружающий контекст» и алгоритмы глубокого обучения для улучшения качества рекомендаций.
К «новым» подходам в разработке NRS авторы относят использование следующих алгоритмов:
⁃ Matrix factorization и Non-negative matrix factorization
⁃ Tensor factorization
⁃ Probabilistic matrix factorization
⁃ Bayesian personalized ranking
⁃ General linear modeling
А так же их модификации на основе нейронных сетей с использование глубокого обучения, что особенно набирает популярность в последнии годы, а в случае, если идёт работа с оценкой контента новости (будь то текст, аудио или изображение), то использование CNN/RNN, а так же языковых моделей (типа BERT) становится просто жизненно необходимым.
Еще одним преимуществом использования NN является возможность обучаться в процессе взаимодействия пользователя с контентом. Так же модели, в основе которых находится deep learning, показывают хорошее качество при моделировании последовательного новостного контента и в случаях холодного старта, за счёт того, что они выявляют такие признаки в контенте, которые позволяют сформировать рекомендации даже в случае разряженных данных, на которых подходы на основе CF/CBF показывают плохой результат. Особенно выдающиеся результаты данные модели показывают с применением механизма внимания.
Все перечисленные выше особенности находят своё отражение не только в алгоритмах, которые «затачиваются» под задачи NRS, но в специализированных платформах для создания NRS, таких как CLEF NEWSREEL, streamingRec и MIND.
К основным сложностям создания NRS относят:
⁃ Требуемая скорость обработки данных и чувствительность к «свежести» новости
⁃ Оценка метрик «качества» новостной ленты
⁃ Оценка качества новостного контента (дедубликация, fake news и тд)
PS опускаю в этих заметках части исследования, посвящённые проблематики информационного пузыря, анонимности пользователей и прочим моральным-этическим аспектам, являющихся в целом общими для рекомендаций любого типа контента
[2009.04964] News Recommender System: A review of recent progress, challenges, and opportunities
К «новым» подходам в разработке NRS авторы относят использование следующих алгоритмов:
⁃ Matrix factorization и Non-negative matrix factorization
⁃ Tensor factorization
⁃ Probabilistic matrix factorization
⁃ Bayesian personalized ranking
⁃ General linear modeling
А так же их модификации на основе нейронных сетей с использование глубокого обучения, что особенно набирает популярность в последнии годы, а в случае, если идёт работа с оценкой контента новости (будь то текст, аудио или изображение), то использование CNN/RNN, а так же языковых моделей (типа BERT) становится просто жизненно необходимым.
Еще одним преимуществом использования NN является возможность обучаться в процессе взаимодействия пользователя с контентом. Так же модели, в основе которых находится deep learning, показывают хорошее качество при моделировании последовательного новостного контента и в случаях холодного старта, за счёт того, что они выявляют такие признаки в контенте, которые позволяют сформировать рекомендации даже в случае разряженных данных, на которых подходы на основе CF/CBF показывают плохой результат. Особенно выдающиеся результаты данные модели показывают с применением механизма внимания.
Все перечисленные выше особенности находят своё отражение не только в алгоритмах, которые «затачиваются» под задачи NRS, но в специализированных платформах для создания NRS, таких как CLEF NEWSREEL, streamingRec и MIND.
К основным сложностям создания NRS относят:
⁃ Требуемая скорость обработки данных и чувствительность к «свежести» новости
⁃ Оценка метрик «качества» новостной ленты
⁃ Оценка качества новостного контента (дедубликация, fake news и тд)
PS опускаю в этих заметках части исследования, посвящённые проблематики информационного пузыря, анонимности пользователей и прочим моральным-этическим аспектам, являющихся в целом общими для рекомендаций любого типа контента
[2009.04964] News Recommender System: A review of recent progress, challenges, and opportunities
Дайджест статей 13/08/2021
Обзор методов чистки данных
https://habr.com/ru/post/571606/
Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет
https://habr.com/ru/post/568638/
Реализация CI/CD для корпоративных хранилищ данных
https://habr.com/ru/post/571918/
A Dataset Exploration Case Study with Know Your Data
http://ai.googleblog.com/2021/08/a-dataset-exploration-case-study-with.html
AI, ML and Data Engineering InfoQ Trends Report - August 2021
https://www.infoq.com/articles/ai-ml-data-engineering-trends-2021/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global
Обзор методов чистки данных
https://habr.com/ru/post/571606/
Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет
https://habr.com/ru/post/568638/
Реализация CI/CD для корпоративных хранилищ данных
https://habr.com/ru/post/571918/
A Dataset Exploration Case Study with Know Your Data
http://ai.googleblog.com/2021/08/a-dataset-exploration-case-study-with.html
AI, ML and Data Engineering InfoQ Trends Report - August 2021
https://www.infoq.com/articles/ai-ml-data-engineering-trends-2021/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global
Хабр
Обзор методов чистки данных
Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции...
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Первые 3 недели в роли менеджера Data Engineering https://tiffanyjachja.medium.com/my-first-three-weeks-a-data-engineering-manager-8b0be08da7a5
Facebook на фоне скандалов и давления в области защиты пользовательских данных активно развивает направление Гомоморфного шифрования и усиливает конманду лучшими с мире специалистами в этой области.
Во вложении статья с The Information (доступ к ней на сайте платный, поэтому прикладываю файлом эксклюзивно для участников этого канала).
Гомогенное шифрование - форма шифрования, позволяющая производить определённые математические действия с зашифрованными данными и получать зашифрованный результат, который соответствует результату операций, выполненных с открытыми данными. Например, один человек мог бы сложить два зашифрованных числа, не зная расшифрованных чисел, а затем другой человек мог бы расшифровать зашифрованную сумму — получить расшифрованную сумму, не имея расшифрованных чисел.
Facebook интересуется темой в первую очередь в задаче использования данных Whatsup в рекламной платформе самого Facebook. Напомню, что за WU была заплачено очень большая сумма в расчете именно на повышение привлекательности Facebook Ads на рекламном рынке, но активности регуляторов сейчас ограничивают возможности по реализации этой синергии.
Пока данный подход находится на ранеей стадии исследования в Facebook, хотя многие крупные игроки уже имеют разработанные решения.
Во вложении статья с The Information (доступ к ней на сайте платный, поэтому прикладываю файлом эксклюзивно для участников этого канала).
Гомогенное шифрование - форма шифрования, позволяющая производить определённые математические действия с зашифрованными данными и получать зашифрованный результат, который соответствует результату операций, выполненных с открытыми данными. Например, один человек мог бы сложить два зашифрованных числа, не зная расшифрованных чисел, а затем другой человек мог бы расшифровать зашифрованную сумму — получить расшифрованную сумму, не имея расшифрованных чисел.
Facebook интересуется темой в первую очередь в задаче использования данных Whatsup в рекламной платформе самого Facebook. Напомню, что за WU была заплачено очень большая сумма в расчете именно на повышение привлекательности Facebook Ads на рекламном рынке, но активности регуляторов сейчас ограничивают возможности по реализации этой синергии.
Пока данный подход находится на ранеей стадии исследования в Facebook, хотя многие крупные игроки уже имеют разработанные решения.
Интересный подаст с Максимом Купрашевичем из SberDevices, с рассказаом о о некоторых очень интересных применениях компьютерного зрения в решении как бизнес-задач, так и в общественно-значимых некоммерческих инициативах.
https://www.youtube.com/watch?v=XakNS_3S_xQ
https://www.youtube.com/watch?v=XakNS_3S_xQ
YouTube
#028 ML Максим Купрашевич. Компьютерное зрение, амурские тигры и желтая курточка
В гостях Максим Купрашевич - руководитель команды машинного обучения в Layer, SberDevices. Максим рассказал о некоторых очень интересных применениях компьютерного зрения в решении как бизнес-задач, так и в общественно-значимых некоммерческих инициативах.…
Дайджест статей 21/08/2021
Обдурить Шаи-Хулуда
https://habr.com/ru/post/573766/
Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark
https://habr.com/ru/post/572522/
Как не утонуть в озере данных: инструкция от РСХБ
https://habr.com/ru/company/rshb/blog/573322/
Обдурить Шаи-Хулуда
https://habr.com/ru/post/573766/
Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark
https://habr.com/ru/post/572522/
Как не утонуть в озере данных: инструкция от РСХБ
https://habr.com/ru/company/rshb/blog/573322/
Хабр
Обдурить Шаи-Хулуда
Привет, Хабр! Сегодня поговорим о «больших данных» в кибербезопасности, а точнее, о том насколько легко - или сложно - обойти защиту, использующую Big Data. Иначе говоря, как надурить и объегорить...
3 Themes Surface in the 2021 Hype Cycle for Emerging Technologies
https://www.gartner.com/smarterwithgartner/3-themes-surface-in-the-2021-hype-cycle-for-emerging-technologies/
https://www.gartner.com/smarterwithgartner/3-themes-surface-in-the-2021-hype-cycle-for-emerging-technologies/
Всем привет! Я заранее прошу прощения за саморекламу, но хочется поделиться радостью 🙂 Да и в целом не совсем оффтопик же 🙂
Текстовая модель ruRoberta-large finetune, которую разработал SberDevices, стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE.
https://gazeta.ru/tech/news/2021/08/25/n_16429268.shtml
Текстовая модель ruRoberta-large finetune, которую разработал SberDevices, стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE.
https://gazeta.ru/tech/news/2021/08/25/n_16429268.shtml
Газета.Ru
Языковые модели от SberDevices стали лучшими в мире по пониманию текстов на русском языке
Текстовая модель ruRoberta-large finetune, которую разработал SberDevices, стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку…
Дайджест статей 27/08/2021
Как мы внедряем машинное зрение на Стойленском ГОКе
https://habr.com/ru/company/redmadrobot/blog/571504/
Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3
https://habr.com/ru/company/otus/blog/574704/
Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии
https://habr.com/ru/company/evraz/blog/573340/
Как мы внедрили BI-платформу и начали развивать self-service аналитику
https://habr.com/ru/post/574890/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574890
Чего компании ждут от Data Scientist в 2021
https://habr.com/ru/post/574674/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574674
Как мы внедряем машинное зрение на Стойленском ГОКе
https://habr.com/ru/company/redmadrobot/blog/571504/
Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3
https://habr.com/ru/company/otus/blog/574704/
Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии
https://habr.com/ru/company/evraz/blog/573340/
Как мы внедрили BI-платформу и начали развивать self-service аналитику
https://habr.com/ru/post/574890/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574890
Чего компании ждут от Data Scientist в 2021
https://habr.com/ru/post/574674/?utm_source=habrahabr&utm_medium=rss&utm_campaign=574674
Хабр
Как мы внедряем машинное зрение на Стойленском ГОКе
Вместе с группой НЛМК рассказываем, как машинное зрение сделает процесс по перевозке сырья на Стойленском горно-обогатительном комбинате безопаснее и в перспективе позволит сократить...