очень неплохая статья про А/B тестирование от коллег из Yandex. Несмотря на то, что такие тесты это довольно простая и базовая механника, которая must have в любом принятии решения на основе данных, мало где это делается действительно математически грамотно.
Не смогу не поделиться новостью, к которой, во-первых, имею непосредственное отношение (как руководитель рабочей группы на площадке Ассоциации ФинТех), а во-вторых, которая является значимым шагом вперёд в области получения и использования данных из государственных учетных систем.
https://digital.gov.ru/ru/events/39846/?fbclid=IwAR0GHdWyk8pYZciqlEOy0ZYTFVk0fojcnC1RaYA8mD04EFJ2vB9QBsjJEWE
https://digital.gov.ru/ru/events/39846/?fbclid=IwAR0GHdWyk8pYZciqlEOy0ZYTFVk0fojcnC1RaYA8mD04EFJ2vB9QBsjJEWE
Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации
Запущен сервис по цифровому взаимодействию между гражданами и банками через Единый портал госуслуг
Всем добрый день!
Сначала анонс июньского мероприятия, потом напоминание и ссылка на завтрашнее выступление.
На 18 июня с 19:00 по Москве договорились с Александром Крашенинниковым, Руководителем BI в Ozon, о выступлении по теме "Опыт Ozon: аналитика пользовательского поведения в real-time". За real-time аналитику было 34% голосов в апрельском опросе, который проводили здесь, так что, надеемся, вы соберетесь. Заранее сохраняйте себе в календарь, чтобы не пропустить. Регистрироваться нигде не надо, ссылку пришлем сюда накануне.
А завтра, 28 мая, с 19:00 до 20:00 по Москве Тигран Саркисов, Директор по работе с данными, Х5 Retail Group, расскажет про качество данных и data governance на опыте X5. Присоединиться можно будет по ссылке:
https://us02web.zoom.us/j/89879432144
Сначала анонс июньского мероприятия, потом напоминание и ссылка на завтрашнее выступление.
На 18 июня с 19:00 по Москве договорились с Александром Крашенинниковым, Руководителем BI в Ozon, о выступлении по теме "Опыт Ozon: аналитика пользовательского поведения в real-time". За real-time аналитику было 34% голосов в апрельском опросе, который проводили здесь, так что, надеемся, вы соберетесь. Заранее сохраняйте себе в календарь, чтобы не пропустить. Регистрироваться нигде не надо, ссылку пришлем сюда накануне.
А завтра, 28 мая, с 19:00 до 20:00 по Москве Тигран Саркисов, Директор по работе с данными, Х5 Retail Group, расскажет про качество данных и data governance на опыте X5. Присоединиться можно будет по ссылке:
https://us02web.zoom.us/j/89879432144
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Друзья, через 10 минут начинаем. Тигран Саркисов, Директор по работе с данными, Х5 Retail Group, расскажет про качество данных и data governance на опыте X5. подключайтесь: https://us02web.zoom.us/j/89879432144
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
The curse of the data lake monster
Интересная статья на тему сравнения подходов к построению data lake: сверху-вниз против снизу вверх.
Авторы аргументируют, что снизу вверх, когда озеро данных формируется без какой-то конкретной задачи, в надежде, что когда все данные окажутся в одном месте, на них придут аналитики данных и начнут делать бизнес-кейсы, приходит к избыточным затратам и излишним инженерным сложностям.
По сути, ситуация ничем не будет отличаться от вечных проблем реляционных корпоративных хранилищ - когда всю доменную область компании надо унифицировать в рамках одной единой модели данных. Единая унифицированная модель данных непрактична ни для чего, кроме как для самых маленьких организаций. Для моделирования даже слегка сложного домена необходимо наличие нескольких ограниченных контекстов, каждый из которых имеет свою собственную модель данных.
В статье авторы утверждают, что любое ПО лучше всего разрабатывается на тонких вертикальных срезах, которые направлены на конкретные задачи использования и конкретные результаты работы пользователей, и проекты, требующие больших объемов данных, не являются исключением.
Сложно с этим не согласиться, но все таки не надо забывать, что само определение "озеро данных", на мой взгляд, не включает в себя унификацию модели данных, а представляет из себя концепцию, в рамках которой в "озеро данных" собираются "сырые" данные в исходном формате, из которых под каждую бизнес-задачу "поднимается" нужная аналитическая витрина.
В любом случае, правильные выводы статьи:
- Нет единого, универсального определения озера данных. Чтобы гарантировать, что вы получите то, что хотите, будьте конкретны в отношении проблемы, которую вы пытаетесь решить.
- Работайте над сформулированными кейсами и измеримыми бизнес-целями.
- Позвольте вашим специалистам по работе с данными работать в максимально тесном контакте с инженерами по работе с данными. Скорее всего, вы добьетесь результатов быстрее, результаты будут более тесно увязаны с целью, которую они пытаются решить, а совместное владение будет означать, что усилия по техническому обслуживанию будет легче координировать.
https://www.thoughtworks.com/insights/blog/curse-data-lake-monster
Интересная статья на тему сравнения подходов к построению data lake: сверху-вниз против снизу вверх.
Авторы аргументируют, что снизу вверх, когда озеро данных формируется без какой-то конкретной задачи, в надежде, что когда все данные окажутся в одном месте, на них придут аналитики данных и начнут делать бизнес-кейсы, приходит к избыточным затратам и излишним инженерным сложностям.
По сути, ситуация ничем не будет отличаться от вечных проблем реляционных корпоративных хранилищ - когда всю доменную область компании надо унифицировать в рамках одной единой модели данных. Единая унифицированная модель данных непрактична ни для чего, кроме как для самых маленьких организаций. Для моделирования даже слегка сложного домена необходимо наличие нескольких ограниченных контекстов, каждый из которых имеет свою собственную модель данных.
В статье авторы утверждают, что любое ПО лучше всего разрабатывается на тонких вертикальных срезах, которые направлены на конкретные задачи использования и конкретные результаты работы пользователей, и проекты, требующие больших объемов данных, не являются исключением.
Сложно с этим не согласиться, но все таки не надо забывать, что само определение "озеро данных", на мой взгляд, не включает в себя унификацию модели данных, а представляет из себя концепцию, в рамках которой в "озеро данных" собираются "сырые" данные в исходном формате, из которых под каждую бизнес-задачу "поднимается" нужная аналитическая витрина.
В любом случае, правильные выводы статьи:
- Нет единого, универсального определения озера данных. Чтобы гарантировать, что вы получите то, что хотите, будьте конкретны в отношении проблемы, которую вы пытаетесь решить.
- Работайте над сформулированными кейсами и измеримыми бизнес-целями.
- Позвольте вашим специалистам по работе с данными работать в максимально тесном контакте с инженерами по работе с данными. Скорее всего, вы добьетесь результатов быстрее, результаты будут более тесно увязаны с целью, которую они пытаются решить, а совместное владение будет означать, что усилия по техническому обслуживанию будет легче координировать.
https://www.thoughtworks.com/insights/blog/curse-data-lake-monster
Thoughtworks
The curse of the data lake monster
Artificial intelligence and machine learning are currently all the rage. Every organization is trying to jump on this bandwagon and cash in on their data reserves. At Thoughtworks, we’d agree that this tech has huge potential — but as with all things, realizing…
Всем привет!
Если вдруг не смогли в четверг быть на выступлении Тиграна Саркисова, CDO X5 Retail Group, то посмотрите запись. Было интересно! К видео для удобства проставлены таймкоды. А презентацию выложим, как только получим 🙂
https://youtu.be/Ad8RuCdMjJY
Если вдруг не смогли в четверг быть на выступлении Тиграна Саркисова, CDO X5 Retail Group, то посмотрите запись. Было интересно! К видео для удобства проставлены таймкоды. А презентацию выложим, как только получим 🙂
https://youtu.be/Ad8RuCdMjJY
YouTube
Клуб CDO. Тигран Саркисов, CDO, Х5 Retail Group: "Качество данных и data governance: опыт X5"
Тигран рассказал о типовых ошибках и лучших практиках внедрения CDO в компании, а также дал практические советы по data governance на основе своего опыта.
0:35 о регламенте мероприятия
2:18 Тигран Саркисов - знакомство
3:55 Часть 1 про типовые ошибки и лучшие…
0:35 о регламенте мероприятия
2:18 Тигран Саркисов - знакомство
3:55 Часть 1 про типовые ошибки и лучшие…
DataLake
По мотивам прошлой статьи, обзор которой был сделан выше, хочется еще раз обратиться к концепции Data Lake. А если надо уточнить что-то концептуальное - надо читать блог старины Фаулера :)
И вот интересная статья из его блога про озеро данных. Самое важное, что отмечает Фаулер - озеро данных это хранилище сырых данных в исходном формате, без приведения их в какой-бы то не было унифицированной схемы.
Он отмечает, что часто в компаниях путают хранилище данных (хранение данных в унифицированной модели данных) и озеро данных (хранение данных без приведения и трансформации исходных схем данных) и это является основной причиной неуспешности проектов построения озёра данных. Так же часто озёра данных критикуют - какой смысл дублировать данные исходных систем без их очистки и повышения качества данных? Это ведь какое то «болото» данных получается.
Но такая критика не вполне уместна. Озеро данных предназначено для аналитиков, а не для других систем. Оно не является точкой интеграции систем, оно не содержит «золотых записей» и не является «единым источников правды» в организации. Его назначение - сократить время решения аналитических задач, за счёт того, что в момент, когда нужно сделать какую-то модель, не надо заниматься извлечением данных из источников и достаточно работать только с озером данных, формируя из него то представление набора нужных данных, которое нужно для данной конкретной задачи.
https://martinfowler.com/bliki/DataLake.html
По мотивам прошлой статьи, обзор которой был сделан выше, хочется еще раз обратиться к концепции Data Lake. А если надо уточнить что-то концептуальное - надо читать блог старины Фаулера :)
И вот интересная статья из его блога про озеро данных. Самое важное, что отмечает Фаулер - озеро данных это хранилище сырых данных в исходном формате, без приведения их в какой-бы то не было унифицированной схемы.
Он отмечает, что часто в компаниях путают хранилище данных (хранение данных в унифицированной модели данных) и озеро данных (хранение данных без приведения и трансформации исходных схем данных) и это является основной причиной неуспешности проектов построения озёра данных. Так же часто озёра данных критикуют - какой смысл дублировать данные исходных систем без их очистки и повышения качества данных? Это ведь какое то «болото» данных получается.
Но такая критика не вполне уместна. Озеро данных предназначено для аналитиков, а не для других систем. Оно не является точкой интеграции систем, оно не содержит «золотых записей» и не является «единым источников правды» в организации. Его назначение - сократить время решения аналитических задач, за счёт того, что в момент, когда нужно сделать какую-то модель, не надо заниматься извлечением данных из источников и достаточно работать только с озером данных, формируя из него то представление набора нужных данных, которое нужно для данной конкретной задачи.
https://martinfowler.com/bliki/DataLake.html
martinfowler.com
bliki: Data Lake
A Data Lake is a store that hold raw data as a source for data scientists to explore ways to gain information. It should not be accessed by end-users or used for system integration.
1DMx_Federated_learning_v1.pdf
2.5 MB
На прошлой неделе выступал на конференции “Форум BIG DATA 2020”, рассказывал про методы защищенного обмена данными, которые мы у себя реализуем и тестируем. Поскольку тема актуальна, делюсь презентацией с нашим клубом.
Легальность использования пользовательских данных из открытых источников
Интересный анализ от юристов Deloitte. Для прочтения материала требуется регистрация, поэтому краткое саммари:
Основной вывод - данные из соц сетей нельзя использовать никаким образом без получения согласия пользователя на право получение и использование этих данных:
⁃ Соцсети тоже не позиционируют себя как общедоступный источник данных. Пользовательские соглашения «ВКонтакте» и Facebook включают в себя прямое ограничение на использование информации из профилей третьими лицами.
⁃ Сами соцсети могут довольно широко использовать данные из профилей. Рамки и цели работы с такими данными прописываются в пользовательском соглашении. Оно же регулирует передачу этой информации третьим лицам для коммерческого использования.
⁃ Как показывает существующая судебная практика Российские суды обычно трактуют закон в пользу пользователя, а значит, компанию, которая анализирует персональные данные без специального разрешения, могут привлечь к административной ответственности и взыскать с нее компенсацию за моральный вред.
https://pro.rbc.ru/news/5eda225f9a794722d58e2d19?from=from_main&utm_source=rbc.ru&utm_medium=inhouse_media&utm_campaign=lines&utm_content=5eda225f9a794722d58e2d19
Интересный анализ от юристов Deloitte. Для прочтения материала требуется регистрация, поэтому краткое саммари:
Основной вывод - данные из соц сетей нельзя использовать никаким образом без получения согласия пользователя на право получение и использование этих данных:
⁃ Соцсети тоже не позиционируют себя как общедоступный источник данных. Пользовательские соглашения «ВКонтакте» и Facebook включают в себя прямое ограничение на использование информации из профилей третьими лицами.
⁃ Сами соцсети могут довольно широко использовать данные из профилей. Рамки и цели работы с такими данными прописываются в пользовательском соглашении. Оно же регулирует передачу этой информации третьим лицам для коммерческого использования.
⁃ Как показывает существующая судебная практика Российские суды обычно трактуют закон в пользу пользователя, а значит, компанию, которая анализирует персональные данные без специального разрешения, могут привлечь к административной ответственности и взыскать с нее компенсацию за моральный вред.
https://pro.rbc.ru/news/5eda225f9a794722d58e2d19?from=from_main&utm_source=rbc.ru&utm_medium=inhouse_media&utm_campaign=lines&utm_content=5eda225f9a794722d58e2d19
РБК
Чужое или общее: можно ли использовать данные пользователей из соцсетей
3,8 млрд человек пользуются соцсетями — таковы результаты свежего исследования DataReportal. В своих профилях они публикуют личные данные, контакты, фото. Для бизнеса все это источник ценной информаци
Опубликованы материалы недавно прошедшей конференции BigData Forum 2020.
Презентации доступны по ссылке: http://ospcon.osp.ru/bigdata2020/materials
Презентации доступны по ссылке: http://ospcon.osp.ru/bigdata2020/materials
И ссылка на записи выступлений
https://www.youtube.com/playlist?list=PLTdVPW9NTNvpwW-2z-eprpZClCRtCx1p9
https://www.youtube.com/playlist?list=PLTdVPW9NTNvpwW-2z-eprpZClCRtCx1p9
YouTube
BIG DATA 2020 - YouTube
Всем добрый день!
Напоминаем, что 18 июня в 19:00 по Москве будет выступление Александра Крашенинникова, Руководителя BI в Ozon, на тему: "Опыт Ozon: аналитика пользовательского поведения в real-time".
Ссылка для подключения: https://us02web.zoom.us/j/88135153340
Напоминаем, что 18 июня в 19:00 по Москве будет выступление Александра Крашенинникова, Руководителя BI в Ozon, на тему: "Опыт Ozon: аналитика пользовательского поведения в real-time".
Ссылка для подключения: https://us02web.zoom.us/j/88135153340
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Меньше часа до начала:
в 19:00 по Москве будет выступление Александра Крашенинникова, Руководителя BI в Ozon, на тему: "Опыт Ozon: аналитика пользовательского поведения в real-time".
Ссылка для подключения: https://us02web.zoom.us/j/88135153340
До встречи в зуме!
в 19:00 по Москве будет выступление Александра Крашенинникова, Руководителя BI в Ozon, на тему: "Опыт Ozon: аналитика пользовательского поведения в real-time".
Ссылка для подключения: https://us02web.zoom.us/j/88135153340
До встречи в зуме!
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Всем добрый день!
Если не смогли вчера посмотреть выступление Александра Крашенинникова, Руководителя BI в Ozon, то запись по ссылке (проставили таймкоды для удобства): https://youtu.be/P0Kkqe6vJr8
Ниже презентация в pdf.
Если не смогли вчера посмотреть выступление Александра Крашенинникова, Руководителя BI в Ozon, то запись по ссылке (проставили таймкоды для удобства): https://youtu.be/P0Kkqe6vJr8
Ниже презентация в pdf.
YouTube
Клуб CDO. Александр Крашенинников: "Опыт Ozon: аналитика пользовательского поведения в real-time"
Александр - Руководитель BI в компании Ozon. Рассказал про пользовательское поведение, потребителей аналитики внутри компании, технологическое обеспечение пр...
Приоритизация
Сегодня хочу поделится статьей не про данные, но, тем не менее, про связанную с процессом анализа данных методику.
На одной из встреч Клуба выступал Олег Хомюк (Ламода) и в своей презентации он кратко рассказал о методе приоритизации гипотез для проработки, который принят в компании Ламода. Он мне показался очень интересным и правильным. Ниже ссылка на статью, где этот метод описывается более подробно, а кратко суть и важность его вот в чем.
Уже базовой сложившейся практикой является выбор проектов, продуктовых функций и аналитических гипотез, на основе расчета экономического эффекта в виде отношения предполагаемого дохода, который появится после реализации задачи к затратам, которые необходимо понести для реализации.
Предлагаемый метод ICE отличается тем, что в формуле присутствует еще один параметр - уверенность.
Уверенность указывает на то, насколько мы уверены в воздействии, а также в некоторой степени в простоте реализации. Обычно мы очень плохо умеем оценивать и то и другое (помним же, что из-за разных когнитивных искажений data-driven подход и лучше), Уверенность - это противоядие - этот коэффициент помогает нам быть честными в своих предположениях.
Есть только один способ оценить уверенность - соответсвующие свидетельства (обратная связь от заказчика, исследования рынка и тд).
Метод оценки по сути прост - предлагается таблица, которая в соответствие каждому свидетельству ставит значение коэффициента уверенности.
В принципе, все очень просто и эффективно.
https://itamargilad.com/the-tool-that-will-help-you-choose-better-product-ideas/
Сегодня хочу поделится статьей не про данные, но, тем не менее, про связанную с процессом анализа данных методику.
На одной из встреч Клуба выступал Олег Хомюк (Ламода) и в своей презентации он кратко рассказал о методе приоритизации гипотез для проработки, который принят в компании Ламода. Он мне показался очень интересным и правильным. Ниже ссылка на статью, где этот метод описывается более подробно, а кратко суть и важность его вот в чем.
Уже базовой сложившейся практикой является выбор проектов, продуктовых функций и аналитических гипотез, на основе расчета экономического эффекта в виде отношения предполагаемого дохода, который появится после реализации задачи к затратам, которые необходимо понести для реализации.
Предлагаемый метод ICE отличается тем, что в формуле присутствует еще один параметр - уверенность.
Уверенность указывает на то, насколько мы уверены в воздействии, а также в некоторой степени в простоте реализации. Обычно мы очень плохо умеем оценивать и то и другое (помним же, что из-за разных когнитивных искажений data-driven подход и лучше), Уверенность - это противоядие - этот коэффициент помогает нам быть честными в своих предположениях.
Есть только один способ оценить уверенность - соответсвующие свидетельства (обратная связь от заказчика, исследования рынка и тд).
Метод оценки по сути прост - предлагается таблица, которая в соответствие каждому свидетельству ставит значение коэффициента уверенности.
В принципе, все очень просто и эффективно.
https://itamargilad.com/the-tool-that-will-help-you-choose-better-product-ideas/
Itamar Gilad
Idea Prioritization With ICE and The Confidence Meter
Most product ideas deliver no benefits. In this article I show a real-world prioritization example using ICE and the Confidence Meter
перепощу тут новость - если в России будут доступны все сервисы AWS - особенно связанные с построением хранилищ, работой с ML моделями и тд - это будет прям отлично!
Ну и нельзя не отметить, что для mail.ru это прям “ход конем” в ответ на яндекс.облако и гос облако сбербанка.
Ну и нельзя не отметить, что для mail.ru это прям “ход конем” в ответ на яндекс.облако и гос облако сбербанка.
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Amazon договорился о выходе на российский рынок в партнерстве с Mailru
Компании предложат клиентам единый доступ к облачным сервисам и решениям. Это позволит Amazon соблюдать законодательство о хранении персональных данных в России- до сих пор ближайший ее дата-центр был в Германии.
Mailru и Amazon запускают в России мультиклауд (облачная инфраструктура, построенная на решениях различных поставщиков), который позволит клиентам получить доступ к сервисам одновременно обеих компаний.
Прямые продажи услуг мировых облачных провайдеров в России ограниченны и составляют не более 8% рынка.
Весь рынок облачных услуг России в 2019 году составил ~ 86 млрд руб.
Компании предложат клиентам единый доступ к облачным сервисам и решениям. Это позволит Amazon соблюдать законодательство о хранении персональных данных в России- до сих пор ближайший ее дата-центр был в Германии.
Mailru и Amazon запускают в России мультиклауд (облачная инфраструктура, построенная на решениях различных поставщиков), который позволит клиентам получить доступ к сервисам одновременно обеих компаний.
Прямые продажи услуг мировых облачных провайдеров в России ограниченны и составляют не более 8% рынка.
Весь рынок облачных услуг России в 2019 году составил ~ 86 млрд руб.
Коммерсантъ
Mail.ru Group и Amazon встретились в облаках
Компании запустят совместный сервис в России