HFLabs — о клиентских данных
1.39K subscribers
170 photos
8 videos
5 files
418 links
Канал о работе с клиентскими данными в крупном бизнесе. Технологии, тренды, мнения.

О людях и работе в HFLabs пишем в «Лабсовой» — @hflabs_people

Куратор — @alina_solominka

Чат для обсуждений: @hflabs_official_chat.

www.hflabs.ru
Download Telegram
🎁 Государство поделится с бизнесом данными граждан

Новости все сыплются и сыплются. На этот раз «Коммерсант» выяснил: Минцифры создаст «государственную фабрику данных», чтобы бизнес мог интегрировать свои экосистемы с государственными. «Задача государства — раскрыть инфраструктуру электронного правительства вовне»,— пояснил представитель Минцифры.

Идею продвигают в Ассоциации больших данных (АБД). Там знакомые всё лица: «Яндекс», Mail.Ru Group, «Сбер», «Газпромбанк», «Тинькофф-банк», Qiwi, МТС, «МегаФон», «Вымпелком», «Ростелеком».

Получить данные граждан от государства — подарок для потребительского бизнеса

По задумке заходит покупатель в интернет-магазин, а там — авторизация через «Госуслуги». И вот уже магазин знает о человеке то же, что и государство. Разве что с некоторыми тонкостями. Здесь и ФИО, и день рождения, и адрес доставки, и телефон — все подлинное и без ошибок.

Или в «Яндексе» сетуют, например, что у них нет возможности получать актуальную информацию о недвижимости из Росреестра. С данными о передвижении общественного транспорта — та же история. Чиновники не дают.

С новой инициативой все это можно будет получить легально за некоторую плату.

Информацию будут защищать

Планируется, что данные граждан разделят на три категории:
— полностью открытые;
— конфиденциальные;
— обезличенные. То есть массивы информации, из которых невозможно вычленить данные отдельных владельцев.

Доступ к конфиденциальным данным можно будет получить только по одному из законов — например, по закону о персданных.

Не факт, что все будет работать как обещают

И все бы ничего, если обмен данными будет работать строго как заявили. В конце концов, интернет-сервисы сейчас спрашивают у пользователей даже больше, чем государство. Что хотят, то и просят, чего уж там. И ничего, делимся.

Но штука в том, что уже известны прецеденты по выводу конфиденциальных данных из-под защиты законодательства. Летом власти предлагали сделать это в рамках ««регуляторных песочниц» для разработки нового цифрового законодательства. Например, предложили в виде эксперимента обрабатывать биометрические данные без личного письменного согласия.

Еще для двух проектов, один из которых внедряет искусственный интеллект в медицине, предполагалось полностью вывести обработку персданных из-под регулирования. В том числе действия тайны связи, переписки и телефонных переговоров, а также врачебной тайны. Юристы даже называли это «демонтажем права на неприкосновенность частной жизни под видом развития инноваций». Об этом тоже писал «Коммерсант».

Ну и про утечки нельзя забывать, конечно. Любая база данных, представляющая коммерческую ценность, рано или поздно утечет. Об этом завтра выложим большую статью Дмитрия Журавлева, нашего гендира.
🙅‍♂️ Что не так со сбором персональных данных в России

Что бы человек ни сделал: оформил загранпаспорт на «Госуслугах» или купил билет на сайте авиакомпании, поискал в «Яндексе» лекарство от насморка или носки на Wildberries — информация о нём попадёт в руки властей или маркетологов.

Раньше данные были разрознены: условный Ozon хранил информацию о покупках клиентов, Netflix — о любимых видео и сериалах, а Foursquare — о перемещениях. Теперь же бизнес охотится за полными портретами клиентов и граждан, интегрируя данные из разных источников. Государство тоже консолидирует данные. Для этого 8 июня Владимир Путин одобрил введение Единого регистра данных о населении. Данных не обезличенных, а, наоборот, предельно личных.

Но любая база данных утечёт. Завтра или через три года, целиком или по кусочкам, но это обязательно случится. Аксиома. Поэтому сбор персональных и необезличенных данных так опасен.

Уже сейчас меньше чем за 10 000 рублей можно узнать состояние банковских счетов любого клиента топ-банка. Всё это не в «Даркнете», никакой Tor не нужен. Плату за услугу принимают чуть ли не переводом с карты на карту. В «Даркнете» же пятидневный доступ к городской камере наружного наблюдения в Москве стоит 5000 рублей. За 10 000 рублей найдут нужного человека по системе распознавания лиц. Преступники уже знают о людях гораздо больше, чем те готовы рассказать. Поэтому так эффективны мошеннические звонки из банков, в последние месяцы превратившиеся в России в настоящее бедствие.

Причем с правовой точки зрения граждане России беспомощны — мы не имеем рычагов, чтобы влиять на законы о данных. У коммерческих же структур нет интереса биться за защиту персональных данных — заработать здесь не получится, для борьбы не хватает экономической силы.

Наш гендиректор Дмитрий Журавлев рассказал, что в России не так со сбором персональных данных.

https://secretmag.ru/opinions/kompromat-bez-sroka-davnosti-chto-ne-tak-so-sborom-personalnykh-dannykh-v-rossii.htm
▶️ Запись вебинара «Конфликты обновлений, или Почему мы не верим изменениям в исходных системах»

Продолжаем серию уроков о мастер-системах клиентских данных. Подоспел второй вебинар цикла: о конфликтах между данными, которые хранятся в мастер-системе, и данными, пришедшими из исходных систем.

Основной вопрос вебинара: как быть, если в эталонной карточке клиента стоит имя «Василий», а из учетной системы приходит обновление «Людмила»? Как защитить мастер-данные от «плохих» и даже опасных изменений? От фрода, наконец. Подробные ответы вы найдете в лекции.

Материал пригодится архитекторам, дата-инженерам, аналитикам и специалистам по безопасности информации. Тем, кто хочет разобраться в сложностях работы с клиентскими данными.

Спикер — великолепный Михаил Берёзин, главный по CDI-системе HFLabs «Единый клиент». Посмотрите, в открытом доступе крайне мало материалов по такой узкой теме. А то и вообще нет.

https://www.youtube.com/watch?v=x8mDkELa6eM

#вебинары
Так, что это у нас здесь?

Это гендиректор HFLabs Дмитрий Журавлев на видеоконференции с Дмитрием Медведевым. Сверху прямо по центру.

Готовим нечто небывалое, но по существу пока сказать ничего не можем — все под строжайшим NDA. Как только будет возможность, сразу все расскажем здесь.

Немного подробностей — в фейсбуке Дмитрия Анатольевича https://www.facebook.com/Dmitry.Medvedev/posts/10157290323551851
1️⃣ Можно ли построить универсальный MDM всего на одном решении

А вот и запись вчерашнего вебинара Павла Абдюшева — директора по развитию продуктов HFLabs. Получилось горячо: после основной программы еще 40 минут отвечали на вопросы участников. Такого еще не было.

В двух словах о содержании.

MDM-системы создают по более или менее единой концепции: приводят данные в порядок, ищут и объединяют дубликаты, учатся работать с обновлениями данных и предотвращать конфликты.

Из-за этой универсальности родился распространенный миф: если есть MDM-система, уже работающая с одним доменом данных, ее легко адаптировать и для всех остальных доменов. Но в реальности дело обстоит по-другому.

За последние 10 лет мы в HFLabs строили MDM-решения для трех принципиально разных доменов данных: клиентские MDM, единые адресные системы и систему нормативно-справочной информации. Накопленный опыт вложил в вебинар Павел Абдюшев.

— Сначала разобрались, какие типы MDM-систем вообще бывают и в чем их особенности.
— Показали, какие решения можно переиспользовать при построении мультидоменных MDM-систем. И что, увы, придется делать с нуля.
— В конце обсудили, что же лучше: специализированные системы под каждый домен или комбайны вида «всё в одном».

Будет интересно прежде всего IT-директорам, архитекторам, CDO, CIO и владельцам данных.

https://youtu.be/3WUoYbC2tkM

#вебинары
В октябре Дмитрий Журавлев (наш гендиректор) писал, что в мире не хватает общественной дискуссии на тему защиты персданных https://secretmag.ru/opinions/kompromat-bez-sroka-davnosti-chto-ne-tak-so-sborom-personalnykh-dannykh-v-rossii.htm

И вот, в Европе что-то наклевывается — вполне себе общественная кампания
Forwarded from Ivan Begtin (Ivan Begtin)
В октябре началась общеевропейская кампания против сбора биометрии основанной на лице человека "Reclaim your face" (Верни себе лицо) [1] инициированная группой НКО таких как: AccessNow, Article 19, Privacy International и др. На сегодня их петицию подписали 4362 человека [2]

В кампании даны три акцента:
- прозрачность (объясняйте зачем собирается биометрия)
- красные линии (некоторые способы сбора биометрии опасны и лучше запрещать все)
- уважение к людям (биометрия не должна использоваться для массовой манипуляции, уважайте свободу воли)

Ссылки:
[1] https://reclaimyourface.eu/
[2] https://reclaimyourface.eu/the-solution/#sign

#privacy #sureillance
Forwarded from Инфографика
Какие компании собирают больше всего персональных данных.
На кого в HFLabs интересно посмотреть?

Мы тут подумали, что вам может быть интересно посмотреть на HFLabs с человеческой стороны. Кто здесь работает, чем мы живем. Что мы за люди такие, в конце-то концов.

Что если мы снимем видеоинтервью с каким-нибудь сотрудником?

Опрос воспоследует
Если что, последний вариант — нормальный. Ролики — очень энергозатратная штука. Например, про офис снимали целый день. Если такое не особо интересно, будет очень полезно узнать об этом заранее. Тогда мы вложимся в другой контент: те же вебинары, например, или статьи по бизнесовой части
До чего доходит
Второй день DataTalks, прямо сейчас идет круглый стол «Демократизация данных. За и против. Регуляторные требования и этика работы с данными».

Модерирует наш гендиректор Дмитрий Журавлев, участвуют CDO «Магнита» и «Леруа Мерлен», посмотрите https://www.youtube.com/watch?v=YHWPyKnZs_k
🧲 Курс HFLabs по Data Quality

Мы в HFLabs решили, что будем делать курс по Data Quality. Полноценный продукт: такой, чтобы не стыдно было брать деньги. После такого курса человек будет знать, как правильно. Что конкретно делать с DQ в компании.

В новый курс мы вложим все, что узнали о качестве данных с 2005 года. Это будет полноценное обучение, с несколькими преподавателями и продолжительностью в несколько месяцев.

Уже готов первый черновик концепции

Пока придумали следующие разделы.
1. Зачем нужно думать о качестве данных.
2. Анализ бизнес-процессов: как выявить проблемы.
3. Метрики качества. Что, где и когда нужно измерить.
4. Интеграции. Анализ систем-источников и систем-приемников.
5. Инструменты управления качеством данных.
6. Проектирование интеграций без потери качества.

Ориентируемся на несколько аудиторий

Из нашего курса аналитики узнают, как анализировать данные, выявлять аномалии, находить скрытые инсайты. Архитекторы — как проектировать и интегрировать системы, чтобы бизнес получал максимум от IT. Разработчики интеграций — как сделать интеграцию и ничего не упустить. Специалисты по хранилищам данных — какие данные собирать и какие строить метрики, чтобы обеспечить качество данных.

Что вы бы хотели видеть на курсе о DQ?

Пока мы раздумываем, какую информацию еще включить в курс, как его организовать. Вы очень поможете нам, ответив на несколько вопросов в гуглоформе https://forms.gle/6DSqfQHnhYd1KPxN9

Разумеется, обо всех новостях будем сообщать здесь
📔 Как устроены государственные справочники об ИП и юрлицах

В среду мы провели вебинар о госсправочниках, запись уже можно посмотреть на YouTube https://www.youtube.com/watch?v=3pq6bSXGVsc.

О чем шла речь

Официальные данные об ИП и юридических лицах разбросаны то тут, то там: в ЕГРЮЛ и ЕГРИП, МСП, РАФП, «Мультистате». Где-то рядом по духу — реестры нотариусов и адвокатов Минюста.

Все это нужно обойти, чтобы проверить контрагента на благонадежность, например. Это неудобно и долго. Поэтому мы решили, что соберем «ЕГРЮЛ Про»: царь-базу, которая объединяет разные источники данных о ЮЛ, ИП, нотариусах и адвокатах.

На вебинаре мы рассказали, как объединяли справочники и что узнали в процессе.
1. Где и как взять данные о юрлицах, ИП, нотариусах и адвокатах. Легитимно ли это все.
2. Почему данные в разных источниках расходятся.
3. Как устроены инкрементальные и полные выгрузки из базы ФНС. Как пропадают данные.
4. Насколько сложно собрать данные их разных источников в один.
5. Что делать с адресами — типом данных, с которым в госсправочиках все особенно плохо.
6. Зачем вообще бизнесу единые базы вроде «СПАРКа», «Прайма» или «ЕГРЮЛ Про». Как и для чего их применять.

Кому будет полезно

Материал готовили с прицелом на тех, кто работает с данными юридических лиц. Например, специалистов корпоративного блока.

Кто выступал

Спикер: Макс Серебро, главный по продукту «Справочники» HFLabs. Макс каждый рабочий день разбирает госреестры по винтикам, смазывает и собирает обратно, не оставляя лишних деталей. Именно он объединяет государственные источники в единую базу HFLabs под названием «ЕГРЮЛ Про».

Помогала Ника Суслова — эксперт по качеству данных, бизнес-аналитик. Уже 10 лет исследует данные. Работала в банках федерального уровня на позициях от Data Quality-инженера до руководителя направления отчетности. Знает, какие данные и зачем нужны бизнесу, какая под всем этим заложена законодательная база.

#вебинары
🔥 Операционный директор HFLabs завела телеграм-канал

Елена Журавлева, сооснователь HFLabs и операционный директор, разочаровалась в фейсбуке и теперь ведет телеграм-канал. Пишет об HR, маркетинге, менеджменте, процессах и всем таком. Это не просто умствования — сегодня читаешь пост, а завтра все описанное уже приходит в HFLabs. Уж мы-то знаем.

Серьезно, канал очень хорошо показывает не только то, что творится внутри компании, но и то, что будет происходить в ближайшем будущем.

Если интересно, присоединяйтесь https://t.me/elenazh_hflabs
⭐️ Канал о мероприятиях для data-специалистов

Чтобы отслеживать самые заметные мероприятия о данных, подпишитесь на канал Data online events & Moscow meetups.

Здесь анонсируют события, посвященные Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям обработки данных.

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol.

👉🏻 Подписаться: t.me/data_events
👨‍👩‍👦‍👦 «Золотая» карточка: как объединить похожих клиентов, чтобы не было мучительно больно

Вчера продуктовод нашего «Единого клиента» рассказал, как мастер-системы формируют эталонные карточки клиентов. Запись уже на YouTube, смотрите на здоровье https://youtu.be/LEED8kcBdzE

О чем шла речь

Святой Грааль любой системы клиентских мастер-данных — «золотые» записи, они же эталонные карточки. В эти карточки собирают лучшие и наиболее полезные данные о клиентах из доступных источников. В дальнейшем «золотые» записи используют во всех процессах компании: маркетинге, продажах, аналитике, отчетности, клиентском сервисе.

При этом каждая учетная система в организации хранит свою правду о клиентах и продуктах, свою версию справочников. Разобраться в этих версиях и утащить в эталонную карточку самое лучшее — сложнейшая задача. Об этом мы и говорили на вебинаре.

А еще рассмотрели тонкости создания и обновления «золотой» записи, о которых не говорят в маркетинговых материалах мастер-систем:
— на какой основе строить «золотую запись»: создать с нуля или выбрать в учетных системах подходящую;
— как создавать, обновлять и удалять данные в «золотой» записи;
— что делать, если «золотую» запись собрали неверно;
— реально ли получать и обновлять «золотую» запись в онлайне, чтобы использовать в операционных процессах.

Кому будет полезно

Материал пригодится архитекторам, дата-инженерам, аналитикам, специалистам по безопасности информации. И всем, кто хочет разобраться в сложностях работы с клиентскими данными.

Кто выступил

Спикером был Михаил Берёзин, в HFLabs он руководит разработкой мастер-системы «Единый клиент». На этой позиции изучает алгоритмы создания и обновления «золотых» записей. Анализирует эффективность различных подходов и типовые ошибки в работе.

Михаил рассказал, как «Единый клиент» обращается с эталонными карточками. И какими принципами руководствуются современные мастер-системы при управлении «золотыми записями».

https://youtu.be/LEED8kcBdzE

#вебинары