topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Пример неправильной разбивки данных при построении гистограмм. График с небольшими пиками каждые семь дней - неправильный, гладкая гистограмма - правильный. Их отличает только параметр - на сколько столбцов разбить гистограмму.
Новая картина Васи Ложкина касается и аналитики данных :)
Всем привет! 27 января на англоязычном вебинаре Toloka.ai я расскажу подробно про опыт использования ассессоров Толоки для рекомендательных систем. Контент уникальный, я такого даже на RecSys в Бостоне не видел. Я кратко писал об этом на 210 странице моей книги, здесь будут подробности. Ссылка на регистрацию здесь: https://toloka.ai/community/data-driven-ai-meetup
https://ojs.aaai.org/index.php/aimagazine/article/download/18140/18876

Вышла статья от Netflix об использовании Deep Learning для рекомендательных систем. (Английский язык). В DL для рекомендаций я не сильно верю, но возможно у Netflix получилось это сделать.
👍4
Прямо сейчас будет трансляция моего доклада про использование толоки для рекомендаций
Если вы интересуетесь рекомендательными системами, то есть интересная новость. Recsys выпустила видеозаписи своей последней конференции на youtube

https://m.youtube.com/playlist?list=PLaZufLfJumb-Zu0Rvuc0hroeqG3bdWTFr
Читая такую статью по большим возвратам в ecommerce - руки чешутся написать алгоритм определения таких клиентов/покупок и оформления его в стартап. В озоне я сталкивался с такими клиентами. Но моделей мы тогда не делали, решали проблемы через статистику https://e-pepper.ru/news/vozvraty-v-ecommerce-byut-rekordy.html
На мой взгляд индустрия онлайн образования деградирует в качестве. Уж очень много народу устремилось туда в погоней за хялявными деньгами, продавая несбыточные мечты таких же халявных денег учащимся. Здесь отслеживается четкая закономерность болезни роста - чем больше бизнеса становится, тем хуже качество. Меня постоянно догоняет реклама всяких курсов и марафонов как халявней, и с меньшими усилиями поучиться, и повысить свой доход.

Я потратил 35 лет своей осознанной жизни в поисках способа учиться быстрее и эфффективнее. Почти бился об стену, чтобы найти священный грааль. И знаете не нашел… Кроме адских усилий, мазолей на пальцах от исписанных листов бумаги. Чтобы поступить на Физтех из самой обычной провинциальной с обычными учителями школе пришлось набраться очень большого терпения, засучить рукава и решать в течение года олимпиадные задачи по физике и математике по 4 часа каждый день (без репетиторов). Аналогично было и с английским, со спортом (да, да, ничего не заменит тренировки, просто их нужнее сделать чуть умнее.) И с машинным обучением, c музыкой, и с рекомендательными системами. Ничто не заменит собственные умственные усилия для достижения чего-то. No pain, no gain.

За последние 12 месяцев я прошел две специализации на Coursera и еще один курс по Reinforcement learning. Плюс еще несколько у меня за плечами (Scala, и курс по алгоритмам). По ним я увидел несколько закономерностей. Лучшие курсы все-таки получаются у людей, кто много делали практику, но и очень много преподавали! Именно поэтому я не буду делать свой курс. Раньше я презирал теоретиков, и очень любил практиков. Но похоже без них нельзя сделать практику интересней - они все время сорвенуются и пытаются обогнать друг друга.
Второе - самый лучший критерий оценить собственное понимание - это решить задачу с нуля. Просто взять чистый листый бумаги и с минимум подсказок решить задачу хотя бы в первом приближению. Любую задачу, ну а если еще можете объянить ее решение - то это уже большой шаг вперед. То же самое касается музыки и языков. Музыка - можете сыграть что-то простое с листа? Можете на слух подобрать мелодию и сыграть, можете подыграть кому-то? Язык - можете объяснить кому-то что-то и т.д. И самое интересное про курсы - в большинстве случаев я уже через месяц начинал забывать, а что собственно там было. Это как после хорошей книги - книга понравилсь, но она всего лишь расширила ваш кругозор, ничего более. Но в следующий раз я знаю, куда мне пойти, чтобы быстро ответить на мой вопрос, который я встречу на практике.


PS:
-К сожалению, даже хорошим качественным курсам приходится использовать обычные “продажные” техники маркетинга, которые эксплуатируют нашу страсть к халяве, чтобы пробиться через шум всех остальных. По каждому курсу Coursera, который я прошел, я напишу мини-отчет в ТГ канале книги по каждому - буквально в несколько предложений.
⁃ Один мой хороший знакомый, который читал речь аудитории в 30000 человек на стадионе (конечно без презентации) сказал - относись к этому как к театральному представлению. Люди запомнят больше того, кто их развлек больше. [Это и есть маркетинг знаний]
🔥10👍2
Исследователи смогли по GPU в вашем компьютере/смартфоне получить ваш «цифровой отпечаток» с точность в 98 процентов за 150 миллисекунд

https://www.bleepingcomputer.com/news/security/researchers-use-gpu-fingerprinting-to-track-users-online/
😱2
Отзыв на специализацию веб разработки курса Coursera от Yandex и МФТИ

https://www.coursera.org/specializations/razrabotka-interfeysov (Разработка интерфейсов: вёрстка и JavaScript Specialization, )
Зачем мне понадобился этот курс.
Я начинаю делать свой проект, там много веб-программирования, до этого я только эпизодически вносил изменения в html и js файлы. А в CSS я вообще был полный ноль.
Понятно, что всего не изучишь, но мне даже чтобы нанять верстальщика нужно разбираться в его работе настолько, чтобы принимать его работу не на уровне «красиво сделано», а как это сделано внутри, на уровне кода.

Почему я выбрал этот курс.
Со времени основания Coursera я являюсь их преданным студентом. Поэтому решил поискать что-то там. Среди вариантов нашел специализацию по веб-разработке от МФТИ и Яндекса. В отличие от всех остальных пройденных мной курсов на курсере, это специализация на русском языке. Моя alma mater в списке создателей курса, это и склонило мое решение в ее пользу.

Цена вопроса
В специализацию входят пять отдельных курсов:
⁃ Html
⁃ Css
⁃ Java Script часть 1
⁃ Java script часть 2
⁃ Финальный проект
Цена в ….. списывается раз в месяц пока в не пройдете специализацию до конца. Если вы сделаете перерыв - деньги продолжат списываться, если вы явно не отключите подписку.
Финальный проект я не стал делать - у меня свой проект, применил знания там

Что я получил от этой специализации
⁃ HTML + CSS я наконец-то понял как оно работает и даже сделал анимацию на чистом CSS. Узнал про grid и flex в css, что было очень полезно.
⁃ JS мне было очень полезно увидеть «базу» языка, не касающуюся напрямую веба
⁃ После курсов я легко въехал в Typescript и React, и уже написал несложное приложение
⁃ Почти в каждой неделе есть краткие и полезные конспекты лекций. В js курсе я даже видео не смотрел, пользовался только этими конспектами

Что не понравилось
⁃ с нулевым опытом программирования будет тяжело. Вообще объясняют очень кратко по сравнению с англоязычными курсами, где все разжевывают. Похоже это наследие нашей отечественной системы обучения. Я бы сделал по-другому.
⁃ Мне очень не нравится подход peer-to-peer ревью, когда студенты должны были проверять друг друга. Из-за этого я не стал получать сертификаты по html и css. Я сделал только одно задание в финале второго курса JS. Для этого пришлось проверить работы 4-5 студентов и на форуме просить проверить мою работу. Выглядит это не совсем по деловому.
⁃ Java script стандарта ES5, когда сейчас распространен ES6.

#курсы
👍2
Государственный счетчик для популярных медиа сайтов
Я думаю вы уже слышали, что государство обязало поставить счетчик (mediascope) на популярные медиасайты (yandex, google, youtube, netflix…).

Какие данные будут собираться.
Об этом есть постановление правительства:
http://publication.pravo.gov.ru/Document/View/0001202111150038?index=4&rangeSize=1
Пункт 3 описывает какие данные пользователя будут собираться, пункт 4 информацию по контенту. В пункте 4б сказано фиксировать событие получения какого-то контента с точным временем.

Что это означает
Мои и ваши персональные идентификаторы (например, id клиента или email) будут сохраняться в логи, включая ссылки на просмотренный контент, под контролем нашего государства. Мне и многим мои коллегам кажется, что информация будет использоваться не совсем для оценки аудитории, а для политических целей. Были дела по репостам вконтакте, теперь их станет больше.
Второе - эти данные можно использовать для таргетирования аудитории во время выборов (хорошо показано в сериале карточный домик)
Поставит ли youtube гос счетчик на сайт?
Anonymous Poll
33%
Да
52%
Нет
15%
Не знаю
👍1
Друзья, ищу себе верстальщика-фриласера (html, css). Буду рад вашим рекомендациям.

Объем работы с моим приложением оказался большим, не тяну :(
Нашел шикарный датасет по отзывам на амазоне - May 1996 - Oct 2018 - 233 млн отзывов.
https://nijianmo.github.io/amazon/index.html

Кстати, для датасайнтиста важно владеть командами UNIX консоли. Благодаря этому можно обрабатывать на своем компьютере очень большие файлы, выбирая только нужное. Вот пример такой обработки, которую я сделал для очень большого датасета на основе Twitter.
cat tweets2009-06.txt | awk '{print $2}' | grep '2009\|http://twitter' |sed 's/^http:\/\/twitter.com\///' > tweets2009-06_parsed.txt

Грамотное использование таких инструментов сэкономит вам много времени.
👍4
Пишу для тех, у кого по разным причинам заблокировались коммерческие аналитические системы (tableau и т.д.). На самом деле есть хорошие BI системы, которые бесплатны. Я писал в своей книге про Metabase - она до сих пор бесплатна, если вы устанавливаете ее на свои сервера. Очень рекомендую. Я ее использовал в Retail Rocket поверх Clickhouse с терабайтами данных. Видел как использовали в проекте FridgeNoMore (недавно закрылся). И сейчас я ее внедряю в одном проекте, который я консультирую.
Документация по установке тут: https://www.metabase.com/start/oss/

Она лучше, чем Apache Superset
👍2
Если вы пользовались Airtable, который тоже похоже не работает. Есть альтернатива https://github.com/nocodb/nocodb

Сам я не пользовался, но количество звезд и форков в github вызывает доверие
👍4
Для развития своих навыков в области анализа поведения клиентов я бы рекомендовал посмотреть книгу "Mastering Retention" от Amplitude. Очень хорошо и профессионально написана, хотя и бесплатная. Сам сейчас ее смотрю для одного из своих проектов. Прочитал уже треть.
https://info.amplitude.com/rs/138-CDN-550/images/product-analytics-playbook-vol1-amplitude.pdf

Что в ней интересного:
- доступная методология, которую можно реализовать на коленках без Amplitude
- некоторые вещи про сегментацию без ухода в RFM
- есть интересные ключевые показатели

на английском!
👍8
Американский суд разрешил парсить публично доступную информацию с сайтов. Подробнее про дело LinkedIn тут https://techcrunch.com/2022/04/18/web-scraping-legal-court/
Хорошая новость, выше я публиковал ссылку на датасет с отзывами на амазоне, он был подготовлен с помощью парсинга
👍5🤔1