topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Нашел шикарный датасет по отзывам на амазоне - May 1996 - Oct 2018 - 233 млн отзывов.
https://nijianmo.github.io/amazon/index.html

Кстати, для датасайнтиста важно владеть командами UNIX консоли. Благодаря этому можно обрабатывать на своем компьютере очень большие файлы, выбирая только нужное. Вот пример такой обработки, которую я сделал для очень большого датасета на основе Twitter.
cat tweets2009-06.txt | awk '{print $2}' | grep '2009\|http://twitter' |sed 's/^http:\/\/twitter.com\///' > tweets2009-06_parsed.txt

Грамотное использование таких инструментов сэкономит вам много времени.
👍4
Пишу для тех, у кого по разным причинам заблокировались коммерческие аналитические системы (tableau и т.д.). На самом деле есть хорошие BI системы, которые бесплатны. Я писал в своей книге про Metabase - она до сих пор бесплатна, если вы устанавливаете ее на свои сервера. Очень рекомендую. Я ее использовал в Retail Rocket поверх Clickhouse с терабайтами данных. Видел как использовали в проекте FridgeNoMore (недавно закрылся). И сейчас я ее внедряю в одном проекте, который я консультирую.
Документация по установке тут: https://www.metabase.com/start/oss/

Она лучше, чем Apache Superset
👍2
Если вы пользовались Airtable, который тоже похоже не работает. Есть альтернатива https://github.com/nocodb/nocodb

Сам я не пользовался, но количество звезд и форков в github вызывает доверие
👍4
Для развития своих навыков в области анализа поведения клиентов я бы рекомендовал посмотреть книгу "Mastering Retention" от Amplitude. Очень хорошо и профессионально написана, хотя и бесплатная. Сам сейчас ее смотрю для одного из своих проектов. Прочитал уже треть.
https://info.amplitude.com/rs/138-CDN-550/images/product-analytics-playbook-vol1-amplitude.pdf

Что в ней интересного:
- доступная методология, которую можно реализовать на коленках без Amplitude
- некоторые вещи про сегментацию без ухода в RFM
- есть интересные ключевые показатели

на английском!
👍8
Американский суд разрешил парсить публично доступную информацию с сайтов. Подробнее про дело LinkedIn тут https://techcrunch.com/2022/04/18/web-scraping-legal-court/
Хорошая новость, выше я публиковал ссылку на датасет с отзывами на амазоне, он был подготовлен с помощью парсинга
👍5🤔1
Статья, где объясняется, что такое рекомендательная система как проект, который крутится в проде, а не как исследование. Ну тут и сразу Nvidia рекламирует свой движок рекомендаций Merlin для GPU. Читайте аккуратно, что подходит для очень больших игроков, часто слишком сложно выглядит. Они могут себе это позволить.

https://medium.com/nvidia-merlin/recommender-systems-not-just-recommender-models-485c161c755e

Английский язык
👍2🤔1
Mastering_retention_1-4_chapters.pdf
682.5 KB
Пару постов назад я скидывал ссылку на книгу Mastering Retention от Amplitude. Я прочитал первые 4 главы и даже накидал MindMap по ним. MindMap получился довольно сухим, но мне были интересны прежде всего определения, которые используются в книге. Файл в формате pdf и png приложены к посту

PS: Как закончу читать, выложу полный MindMap, stay tuned
👍5👏2
Mastering_retention_1-4_chapters.png
1.3 MB
Png версия
В связи с текущей ситуацией, да и с темой прайваси (когда стали блокировать известные трекеры), меня стали просить помочь создать собственную аналитическую систему как замену Google Analytics и другим веб аналитическим инструментам.
В чем плюс таких решений:
- данные полностью ваши, хранятся на ваших серверах
- трекер не публичный, а значит его сложнее заблокировать.
- намного легче сделать сквозную аналитику, которю я, например, уже делал еще в 2007 году. Вы связываете все от клика на сайте до доставки заказа
- данные хранятся в вашей бд, не нужно изучать сторонний софт, проводить сертификацию. Все делается через SQL. Поверьте - все эти интерфейсы и хаки такая ерунда по сравнению с SQL, благодаря которому можно сверху делать любые отчеты и кубы

Минусы:
- инженерия, пару человек придется держать для поддержки хозяйства, хотя это могут делать и ваши текущие инженеры
- сложно интегрировать затраты на рекламу. Рекламные системы пушат свою собственные аналитические инструменты

В целом, как я писал в книге, запрос на коробочные аналитические решения есть!
👍6
Илон Маск написал в своем твиттере буквально несколько дней назад. Но сам лозунг немного популисткий. Задача менеджера - getting things done, также его подзадача понимать - хорошо сделана работа или нет, и даже не всегда - хорошо написан код или нет. Да, если менеджер разбирается в деталях предмета - это очень хорошо, но в какой-то момент технические навыки атрофируются. В своей книге я писал про дилемму кодера и менеджера, что почти невозможно исполнять обе роли очень хорошо одновременно.
👍6
Согласны ли вы с твиттом Маска?
Anonymous Poll
40%
Да
34%
Нет
26%
Не знаю
Нью Йорк собирается начать регулировать найм, который происходит с помощью автоматизированных средств с целью контролировать «смещение»(bias) в сторону расы, пола или этнической принадлежности. Закон должен вступить в силу с 1 января 2023 года. https://aicomply.substack.com/p/the-new-york-city-ai-hiring-law-what?s=w
👍2
Презентация, которую провел Шавье Аматриан в Стэнфорде на днях. Я много раз упоминал его в своей книге. Кратко по его опыту: Netflix директор по исследованиям, Quora директор по разработке, Curai Health основатель. Во введении он пишет про опыт рекомендаций, потом переходит к опыту использования нейронок в медицине

https://www.slideshare.net/xamat/aidriven-product-innovation-from-recommender-systems-to-covid19
👍1
Ищу Python разработчика на parttime, с кем я продолжу разработку backend’а моего проекта.
Также будут задачи по статистическому анализу данных, ML моделирования (регрессии, рекомендации и тд).

Сейчас у меня уже есть работающий прототип. Я нанял фронтэндера, с ней мы уже почти сделали альфу версию.
Нужно доделывать бекэнд, так как у меня перестало хватать на это времени.

Мне нужен человек, который разбирается в разработке сервисов (FastApi, REST, Docker и пр.), но решил идти в data science (уметь работать с pandas).
Здесь будет хороший опыт.

Пишите в личку, если интересно.
👍4
Первый курс специализации Reinforcement Learning - основы.

Обучение с подкреплением (Reinforcement Learning) отличается от классического ML, тем, что он учится взаимодействуя со средой. Например, вам нужно, чтобы робот сам научился ходить, это как раз делается с помощью обучения с подкреплением. Второй пример - научить систему играть в крестики-нолики. Сфера очень интересная и бурно развивается. Она сейчас активно идет в глубокие нейронные сети в разделе DL reinforcement learning, и именно тут будут какие-то подвижки приблизиться к некоторому уровню «простого» интеллекта.

Я прошел рекомендуемый курс полтора года назад. Меня давно интересовала эта тема, и начал я ее с курса на курсере
https://coursera.org/learn/fundamentals-of-reinforcement-learning

Основан на книге: https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

Что вы из него узнаете:
1. принцип Маркова (может слышали про Марковские цепи)
2. Какие сигналы используются для обучения (rewards)
3. Подходы explore и exploit
4. Мультирукие бандиты
5. Уравнение Беллмана
6. Динамическое программирование

Кстати, этим курсом я закрыл свой пробел - по курсу Марковских цепей в МФТИ я схватил тройку, но этот принцип мне очень пригодился в работе :)

Совсем недавно я применил подход мультируких бандитов для решения задачи персонализации - сделал алгоритм показа видео для социальной сети ( в разработке).
PS: Про сам алгоритм персонализации напишу в следующем посте.

#курсы
👍7
topdatalab pinned «Привет, меня зовут Зыков Роман. Я автор этого канала и книги “Роман с Data Science. Как монетизировать большие данные». Где можно приобрести книгу: Бумажная https://www.ozon.ru/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye-zykov-roman-259016021/…»
Очень интересная статья про найм разработчиков.

https://habr.com/ru/post/667626/

Краткие мысли:
- одного кандидата интервьюируют сразу несколько человек
- не пишут код на собеседовании
- нет предопределённого списка вопросов

Я бы конечно все равно бы добавил немного лайфкодинга, чтобы понять, насколько быстро человек пишет, хотя бы то, что он знает и понимает.

Теоретически таким способом можно нанимать и data scientist.
🔥2
Screenshot 2022-06-03 at 12.08.50.png
131 KB
Если у вас есть свой домен, то cloudflare предоставляет совершенно бесплатно создавать виртуальные почтовые ящики и редиректить их на ваш рабочий email.

Я пользуюсь это услугой уже несколько месяцев как Google G Suite отключил мой домен 🙁

Скрины приложены к письму.
👍2
Zaraz - менеджер тегов веб-аналитики нового поколения

Я уже использую эту систему вместо Google Tag Manager в своих проектах!

Какую проблему решает Zaraz
На сайтах сейчас установлено множество различных систем аналитики и рекламных пикселей. Например, Google Analytics, Amplitude, рекламные пиксели Facebook, Google, Twitter.
Мы привыкли использовать Google Tag Manager, который прописывает все эти системы, когда и как их запускать. Все они делают это в браузерах пользователей, и из этого вытекают три проблемы:
1. Чем больше различных пикселей установлено и различных событий запускается, тем больше браузер пользователя начинает тормозить.
2. Если рекламную или аналитическую систему взломают, или туда попадет небезопасный код, все это начнет работать в браузере пользователя. Вы уже читали в моей книге историю о том, как через внешний код внедряют всевозможные скрипты третьей стороны, которые начинают матчить пользователей для RTB рекламы.
3. Разработчики аналитических и рекламных систем не парятся и собирают все данные, какие только могут, вплоть до адресов электронной почты пользователей, которые они вводят в веб-формы на сайтах. Данных никогда не бывает много.
Заметим, что Google Tag Manager не решает все эти проблемы.

Что сделал Zaraz
Они изолировали все эти рекламные аналитические системы от браузера пользователя. Весь JavaScript выполняется на их серверах. Сами сервера находятся на инфраструктуре CloudFlare по всему миру. Они обмениваются данными с аналитическими и рекламными системами по принципу сервер-сервер. В интерфейсе zaraz вы имеете полный контроль над тем, какие данные отправляются во внешнюю систему.

Как подключиться к Zaraz
- Вы делаете все это в интерфейсе CloudFlare, если вы уже используете ее для кэширования собственных сайтов.
- Zaraz может быть интегрирован через вызовы Google Tag Manager.
- Он также может быть вызван через Java Script на вашем сайте, если вы не используете CloudFlare.

Мой личный опыт
Мой проект использует CloudFlare, поэтому мне было очень легко подключить систему через его интерфейс в два клика. Google Analytics я также подключил в один клик. В дальнейшем я буду использовать интерфейсы java script от zaraz для подключения пользовательских событий Google Analytics.
Итог - сейчас нет никаких вызовов Google Analytics в браузере, а GA продолжает все считать. Я даже специально стер все куки, после обновления страницы куки GA появились снова.

Ссылки:
1. Как создавался Zaraz, статья от основателя сервиса https://blog.cloudflare.com/zaraz-use-workers-to-make-third-party-tools-secure-and-fast/
2. Документация на zaraz https://developers.cloudflare.com/zaraz/

Update: читатели блога подсказали мне про Server Side GTM. Так вот я открыл руководство по его внедрению https://developers.google.com/tag-platform/tag-manager/server-side/script-user-guide Попробуйте прочитать инструкцию :) Во-первых вам придется самостоятельно разворачивать Docker контейнер в облаке Google, во-вторых платить за его использование, в третьих следить за его работоспособностью. Я понимаю, что это могут делать большие компании. Но сам лично в эту историю я бы не полез. В zaraz все работает из коробки.

#webanalytics
👍6🔥5
Как работает Zaraz, иллюстрация к посту выше.
🔥4