topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Нью Йорк собирается начать регулировать найм, который происходит с помощью автоматизированных средств с целью контролировать «смещение»(bias) в сторону расы, пола или этнической принадлежности. Закон должен вступить в силу с 1 января 2023 года. https://aicomply.substack.com/p/the-new-york-city-ai-hiring-law-what?s=w
👍2
Презентация, которую провел Шавье Аматриан в Стэнфорде на днях. Я много раз упоминал его в своей книге. Кратко по его опыту: Netflix директор по исследованиям, Quora директор по разработке, Curai Health основатель. Во введении он пишет про опыт рекомендаций, потом переходит к опыту использования нейронок в медицине

https://www.slideshare.net/xamat/aidriven-product-innovation-from-recommender-systems-to-covid19
👍1
Ищу Python разработчика на parttime, с кем я продолжу разработку backend’а моего проекта.
Также будут задачи по статистическому анализу данных, ML моделирования (регрессии, рекомендации и тд).

Сейчас у меня уже есть работающий прототип. Я нанял фронтэндера, с ней мы уже почти сделали альфу версию.
Нужно доделывать бекэнд, так как у меня перестало хватать на это времени.

Мне нужен человек, который разбирается в разработке сервисов (FastApi, REST, Docker и пр.), но решил идти в data science (уметь работать с pandas).
Здесь будет хороший опыт.

Пишите в личку, если интересно.
👍4
Первый курс специализации Reinforcement Learning - основы.

Обучение с подкреплением (Reinforcement Learning) отличается от классического ML, тем, что он учится взаимодействуя со средой. Например, вам нужно, чтобы робот сам научился ходить, это как раз делается с помощью обучения с подкреплением. Второй пример - научить систему играть в крестики-нолики. Сфера очень интересная и бурно развивается. Она сейчас активно идет в глубокие нейронные сети в разделе DL reinforcement learning, и именно тут будут какие-то подвижки приблизиться к некоторому уровню «простого» интеллекта.

Я прошел рекомендуемый курс полтора года назад. Меня давно интересовала эта тема, и начал я ее с курса на курсере
https://coursera.org/learn/fundamentals-of-reinforcement-learning

Основан на книге: https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

Что вы из него узнаете:
1. принцип Маркова (может слышали про Марковские цепи)
2. Какие сигналы используются для обучения (rewards)
3. Подходы explore и exploit
4. Мультирукие бандиты
5. Уравнение Беллмана
6. Динамическое программирование

Кстати, этим курсом я закрыл свой пробел - по курсу Марковских цепей в МФТИ я схватил тройку, но этот принцип мне очень пригодился в работе :)

Совсем недавно я применил подход мультируких бандитов для решения задачи персонализации - сделал алгоритм показа видео для социальной сети ( в разработке).
PS: Про сам алгоритм персонализации напишу в следующем посте.

#курсы
👍7
topdatalab pinned «Привет, меня зовут Зыков Роман. Я автор этого канала и книги “Роман с Data Science. Как монетизировать большие данные». Где можно приобрести книгу: Бумажная https://www.ozon.ru/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye-zykov-roman-259016021/…»
Очень интересная статья про найм разработчиков.

https://habr.com/ru/post/667626/

Краткие мысли:
- одного кандидата интервьюируют сразу несколько человек
- не пишут код на собеседовании
- нет предопределённого списка вопросов

Я бы конечно все равно бы добавил немного лайфкодинга, чтобы понять, насколько быстро человек пишет, хотя бы то, что он знает и понимает.

Теоретически таким способом можно нанимать и data scientist.
🔥2
Screenshot 2022-06-03 at 12.08.50.png
131 KB
Если у вас есть свой домен, то cloudflare предоставляет совершенно бесплатно создавать виртуальные почтовые ящики и редиректить их на ваш рабочий email.

Я пользуюсь это услугой уже несколько месяцев как Google G Suite отключил мой домен 🙁

Скрины приложены к письму.
👍2
Zaraz - менеджер тегов веб-аналитики нового поколения

Я уже использую эту систему вместо Google Tag Manager в своих проектах!

Какую проблему решает Zaraz
На сайтах сейчас установлено множество различных систем аналитики и рекламных пикселей. Например, Google Analytics, Amplitude, рекламные пиксели Facebook, Google, Twitter.
Мы привыкли использовать Google Tag Manager, который прописывает все эти системы, когда и как их запускать. Все они делают это в браузерах пользователей, и из этого вытекают три проблемы:
1. Чем больше различных пикселей установлено и различных событий запускается, тем больше браузер пользователя начинает тормозить.
2. Если рекламную или аналитическую систему взломают, или туда попадет небезопасный код, все это начнет работать в браузере пользователя. Вы уже читали в моей книге историю о том, как через внешний код внедряют всевозможные скрипты третьей стороны, которые начинают матчить пользователей для RTB рекламы.
3. Разработчики аналитических и рекламных систем не парятся и собирают все данные, какие только могут, вплоть до адресов электронной почты пользователей, которые они вводят в веб-формы на сайтах. Данных никогда не бывает много.
Заметим, что Google Tag Manager не решает все эти проблемы.

Что сделал Zaraz
Они изолировали все эти рекламные аналитические системы от браузера пользователя. Весь JavaScript выполняется на их серверах. Сами сервера находятся на инфраструктуре CloudFlare по всему миру. Они обмениваются данными с аналитическими и рекламными системами по принципу сервер-сервер. В интерфейсе zaraz вы имеете полный контроль над тем, какие данные отправляются во внешнюю систему.

Как подключиться к Zaraz
- Вы делаете все это в интерфейсе CloudFlare, если вы уже используете ее для кэширования собственных сайтов.
- Zaraz может быть интегрирован через вызовы Google Tag Manager.
- Он также может быть вызван через Java Script на вашем сайте, если вы не используете CloudFlare.

Мой личный опыт
Мой проект использует CloudFlare, поэтому мне было очень легко подключить систему через его интерфейс в два клика. Google Analytics я также подключил в один клик. В дальнейшем я буду использовать интерфейсы java script от zaraz для подключения пользовательских событий Google Analytics.
Итог - сейчас нет никаких вызовов Google Analytics в браузере, а GA продолжает все считать. Я даже специально стер все куки, после обновления страницы куки GA появились снова.

Ссылки:
1. Как создавался Zaraz, статья от основателя сервиса https://blog.cloudflare.com/zaraz-use-workers-to-make-third-party-tools-secure-and-fast/
2. Документация на zaraz https://developers.cloudflare.com/zaraz/

Update: читатели блога подсказали мне про Server Side GTM. Так вот я открыл руководство по его внедрению https://developers.google.com/tag-platform/tag-manager/server-side/script-user-guide Попробуйте прочитать инструкцию :) Во-первых вам придется самостоятельно разворачивать Docker контейнер в облаке Google, во-вторых платить за его использование, в третьих следить за его работоспособностью. Я понимаю, что это могут делать большие компании. Но сам лично в эту историю я бы не полез. В zaraz все работает из коробки.

#webanalytics
👍6🔥5
Как работает Zaraz, иллюстрация к посту выше.
🔥4
Я много выступал с публичными лекциями в России, в Лондоне, Дублине, Бостоне…

В первые годы мне было очень страшно, сами презентации были полной ерундой по сравнению с моими текущими стандартами.

Раньше я рисовал эти слайды с кучей текста, которые слушатели пытались прочитать. Сейчас для публичного выступления мне достаточно короткого текста с пунктами, чтобы не забыть последовательность изложения; или самой простой схемы. Все предложения строятся в момент рассказа, лекция не повторяется.

Затем я сам себе дал слово не бегать по конференциям с одинаковыми докладами, и сделал все лишь 3-4 исключения за всю свою карьеру.

На следующем этапе я познакомился с человеком, который общался с 30 тыс. аудиторией без слайдов на стадионе! и узнал от него, что в целом выступление - это театральное представление, где тебе нужно удержать внимание слушателя. Но мне не давало покоя, что многие лекторы превращают выступление в балаган. Да, очень весело их слушать, но выходя из зала понимаешь, что ничего не помнишь.

И сегодня я наткнулся на журнал «Наука и Жизнь» 1968 года, где на 4х страницах об этом говорится. И самый главный критерий успешного выступления знаете какой? Сколько человек из вашей аудитории могут повторить главную мысль вашей лекции на следущий день!

Сама статья про ловушки лекций нахожится здесь: https://livrezon.com/publication/iskusstvo-vedeniya-nauchnoi-besedy-po-uilyamu-breggu (Искусство научной беседы)

Очень рекомендую к прочтению, ясное и понятное изложение.
👍15🤩1
Начинаю приоткрывать завесу с моего проекта виртуального маркетингового аналитика.
Это один из кейсов, когда я разрабатывал продукт.

1) Иван, опытный аналитик

уровень подготовки: высокий
доход: высокий
времени: говорит, что очень занят
отношение с коллегами: немного надменное
мотивация: невысокая

Цель: убрать с себя рутинные задачи маркетинга (“они приходят ко мне со всякой ерундой”), которые ему неинтересны

Сценарий:
- Прочитал статью на product hunt про виртуального маркетингового аналитика
- Зашел, посмотрел, что маркетологам можно давать выборки данных
- Автоматизировал выборки - дал доступ маркетологам
- Маркетологи теперь сами делают 80% задач и не дергают Ивана
А сам Иван рекомендует друзьям аналитикам этот сервис

Часто сталкивались с такими персонажами? Или сами такими были? :)

#virtualmarketinganalyst
🔥6
Сценарий 2

Женя, CRM маркетолог
уровень подготовки: высокий
доход: высокий
времени: мало
отношение с коллегами: доброжелательное
мотивация: высокая

Цель: Чтобы выполнять свои KPI по оборотам ей нужно, чтобы аналитики быстро работали. Но у них много задач, ее задачи они делают неделями.

Сценарий 3

Георгий, директор по маркетингу
уровень подготовки: высокий
доход: очень высокий
времени: мало
отношение с коллегами: требовательный
мотивация: высокая

Цель: Чтобы выполнять KPI компании по продажам нужны маркетологи. Но не простые, а со знанием как минимум SQL. Но таких людей очень тяжело найти.

————————-
Если подытожить сценарии, то на рынке не хватает легковесных инструментов анализа посложнее Excel, и которыми было бы пользоваться очень легко, несмотря на то, что внутри могут быть сложные алгоритмы ML.


Я работал над сценариями с осени, общался с крутыми экспертами рынка, которым я очень благодарен. В итоге у меня получилось то, что я планирую делать ближайший год.
Я выбрал одну тему, на которой буду фокусироваться - помочь маркетологам и аналитикам делать свою работу быстро. И решил отойти от темы привлечения клиентов, веб-аналитики, которыми занимался уже много лет.


#virtualmarketinganalyst
Нельзя объять необъятное. Поэтому я сосредоточился на одной теме - лояльности клиентов и их удержании. Меня всегда интересовало как пользователи себя ведут, насколько это предсказуемо, и как можно использовать эти данные для улучшения бизнеса.

В итоге «конечный» продукт выглядит так - маркетолог, аналитик или владелец своего небольшого бизнеса загружают свои анонимизированные данные в сервис. На выходе они получают метрики лояльности, возможность сравнить свои цифры с показателями рынка. Также получат рекомендации и готовые списки клиентов, с которыми точно работать прямо сейчас.

Я принципиально решил отказаться на данном этапе от API и прочих способов интеграций. В голове у меня была фигма, я хочу сделать что-то подобное - профессионалы и начинающие могут использовать инструмент с минимальным порогом входа.

Почему кроме маркетологов я целюсь и на профессиональных аналитиков? Потому что я часто ловил себя на мысли, что ленюсь делать какую-то задачу несколько дней, чистить ее от ошибок. Мне нужен инструмент, где я возьму свои данные, анонимизирую их, залью в сервис и получу результат. Затем я могу передать этот процесс маркетологу, сделав для него выгрузку данных.

Здесь у части моих читателей возникла мысль - почему сразу не сделать это через интеграцию и полную автоматизацию. Я отвечу так - потому что я не верю, что можно круто решить задачу сразу нацелившись на полную автоматизацию. 80-90% ошибок идут из кривой интеграции. Компании часто пытаются повесить на крючок своего клиента, через дорогую и сложную интеграцию, чтобы они потом не соскочили к конкуренту. Я хочу иметь мотивацию сделать все круто.

#virtualmarketinganalyst
🔥7👍4
https://app.topdatalab.com/demo/?demo_path=E-commerce+purchases&item=Multi+category+store
Выкладываю ссылку на маркетинговую часть моего проекта. Попробуйте решить простую задачу - сравните лояльность писателей отывов на Amazon для печатных книг и Kindle.
Напишите в комментарии - какую видите разницу.
👍4🔥2
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers/

Майкрософт открыл Copilot для публичного использования. Кто-нибудь уже пользовался?

Напомню, это что-то вроде помощника разработчика - ты ему даёшь задачку обычным текстом, он тебе код.
zaraz_ga4_parameters.png
36.9 KB
Пока я полностью доволен zaraz как инструментом добавления аналитических систем на сайт.
Пара важных нюансов:
1) Есть подтвержденные проблемы с трекингом Ecommerce параметров в GA и GA4. Отследить исправление можно здесь https://discord.com/channels/595317990191398933/917505178016579605
2) Если вы используете параметры событий, то подключать их к Google Analytics 4 нужно как в скриншоте. Мне это сразу понятно не было.
Получил интересный отзыв на книгу

“Я хотела бы высказать мнение о вашей книге "Роман с Data Science. Как монетизировать большие данные". 
Я купила эту книгу в поиске ответов на свои вопросы, как человек, который увлекается аналитикой, хочет работать в этой области и стать успешным специалистом. Небольшое предисловие: я уже работала некоторое время в роли аналитика и недавно выпустилась из вуза. Я считаю себя стажером, нежели, чем джуниором, так как мне хотелось бы набраться опыта и знаний, впрочем, это не совсем важно.
В главе 3. "Строим аналитику с нуля" в параграфе "Наём и увольнения" вы описываете процесс набора стажеров путем их сбора всех вместе в назначенное время и поэтапного отсеивания неподходящих кандидатов. Мне показался этот "путь" очень оскорбительным с точки зрения не нанимающего человека (вы просто решили сэкономить время, но не более), а с точки зрения стажера. Как человек, который и является стажером, я хочу заметить, что этот "путь" не является правильным и вот почему: 
- Вы не проверяете человека на то, как он работает в команде, так как разделяете на группы по 3-4 человека таких же конкурентов; 
- В этом всём этапе отбора вы теряете индивидуальность человека: человек может по-разному реагировать на стресс и не показать весь свой потенциал во время этого "естественного отбора"; 
- С человеческой точки зрения вам было бы приятно, если бы компания судила вас не как человека-специалиста, а как серую массу? Вы бы пошли работать в такую компанию? Скажу за себя, я не стала бы уважать такую компанию. Я считаю, что от таких унижений кандидатов можно в целом отказаться, а не популяризировать их в своей книге.
Вы пишете также, что те, кого вы наняли путём такого отбора стали отличными специалистами. Но с чего вы взяли, что те, кого вы НЕ взяли не стали бы хорошими специалистами? Это лишь субъективное мнение, из всех тех кандидатов вы могли пропустить более талантливого кандидата, а могли бы не пропустить, если бы сделали сразу индивидуальные собеседования.
Мне становится очень грустно от таких высказываний. Вы описываете себя как рок-энд-рольного специалиста, который добился всего чего можно в области анализа (и на гитаре играете, и компанией владеете), но при этом не любите в людях индивидуальность - вам лишь бы сэкономить время и поучаствовать в этом отвратительном этапе отбора, который, как мне кажется, просто создан для того, чтобы потешить своё самолюбие.”

Что думаете? Считаете, что такой отсев кандидатов - унижение? Или это новое поколение специалистов пришло?
👍6😁5
Когда радуешься за компанию, в создание которой вложил немало сил и владел почти 15% долей год назад. Больше не видишь себя в списках сооснователей и понимаешь, что с такими партнерами связываться больше не будешь. Потому что сам бы никогда так не поступил.
https://techcrunch.com/2022/06/30/marketing-automation-startup-rocket-reach-nabs-24m-for-expansion/?fbclid=IwAR0UlbmQKJIwiyvsVszue-NFL6WVApIusrQ0RFRSxqRHRVVIegXnrGrGUSk
👏9
А вот так было в 2014 году
IMG_9420.JPG
1.3 MB
🔥5