Пример неправильной разбивки данных при построении гистограмм. График с небольшими пиками каждые семь дней - неправильный, гладкая гистограмма - правильный. Их отличает только параметр - на сколько столбцов разбить гистограмму.
Всем привет! 27 января на англоязычном вебинаре Toloka.ai я расскажу подробно про опыт использования ассессоров Толоки для рекомендательных систем. Контент уникальный, я такого даже на RecSys в Бостоне не видел. Я кратко писал об этом на 210 странице моей книги, здесь будут подробности. Ссылка на регистрацию здесь: https://toloka.ai/community/data-driven-ai-meetup
https://ojs.aaai.org/index.php/aimagazine/article/download/18140/18876
Вышла статья от Netflix об использовании Deep Learning для рекомендательных систем. (Английский язык). В DL для рекомендаций я не сильно верю, но возможно у Netflix получилось это сделать.
Вышла статья от Netflix об использовании Deep Learning для рекомендательных систем. (Английский язык). В DL для рекомендаций я не сильно верю, но возможно у Netflix получилось это сделать.
Прямо сейчас будет трансляция моего доклада про использование толоки для рекомендаций
Если вы интересуетесь рекомендательными системами, то есть интересная новость. Recsys выпустила видеозаписи своей последней конференции на youtube
https://m.youtube.com/playlist?list=PLaZufLfJumb-Zu0Rvuc0hroeqG3bdWTFr
https://m.youtube.com/playlist?list=PLaZufLfJumb-Zu0Rvuc0hroeqG3bdWTFr
YouTube
RecSys2021 - YouTube
Читая такую статью по большим возвратам в ecommerce - руки чешутся написать алгоритм определения таких клиентов/покупок и оформления его в стартап. В озоне я сталкивался с такими клиентами. Но моделей мы тогда не делали, решали проблемы через статистику https://e-pepper.ru/news/vozvraty-v-ecommerce-byut-rekordy.html
E-PEPPER.
Возвраты в eCommerce бьют рекорды
В 2021 году американские покупатели возвратили купленных в онлайне товаров на рекордную сумму в $761 млрд, говорится в отчете Национальной федерации розничной торговли. 10,3% от этих возвратов были мошенническими.
На мой взгляд индустрия онлайн образования деградирует в качестве. Уж очень много народу устремилось туда в погоней за хялявными деньгами, продавая несбыточные мечты таких же халявных денег учащимся. Здесь отслеживается четкая закономерность болезни роста - чем больше бизнеса становится, тем хуже качество. Меня постоянно догоняет реклама всяких курсов и марафонов как халявней, и с меньшими усилиями поучиться, и повысить свой доход.
Я потратил 35 лет своей осознанной жизни в поисках способа учиться быстрее и эфффективнее. Почти бился об стену, чтобы найти священный грааль. И знаете не нашел… Кроме адских усилий, мазолей на пальцах от исписанных листов бумаги. Чтобы поступить на Физтех из самой обычной провинциальной с обычными учителями школе пришлось набраться очень большого терпения, засучить рукава и решать в течение года олимпиадные задачи по физике и математике по 4 часа каждый день (без репетиторов). Аналогично было и с английским, со спортом (да, да, ничего не заменит тренировки, просто их нужнее сделать чуть умнее.) И с машинным обучением, c музыкой, и с рекомендательными системами. Ничто не заменит собственные умственные усилия для достижения чего-то. No pain, no gain.
За последние 12 месяцев я прошел две специализации на Coursera и еще один курс по Reinforcement learning. Плюс еще несколько у меня за плечами (Scala, и курс по алгоритмам). По ним я увидел несколько закономерностей. Лучшие курсы все-таки получаются у людей, кто много делали практику, но и очень много преподавали! Именно поэтому я не буду делать свой курс. Раньше я презирал теоретиков, и очень любил практиков. Но похоже без них нельзя сделать практику интересней - они все время сорвенуются и пытаются обогнать друг друга.
Второе - самый лучший критерий оценить собственное понимание - это решить задачу с нуля. Просто взять чистый листый бумаги и с минимум подсказок решить задачу хотя бы в первом приближению. Любую задачу, ну а если еще можете объянить ее решение - то это уже большой шаг вперед. То же самое касается музыки и языков. Музыка - можете сыграть что-то простое с листа? Можете на слух подобрать мелодию и сыграть, можете подыграть кому-то? Язык - можете объяснить кому-то что-то и т.д. И самое интересное про курсы - в большинстве случаев я уже через месяц начинал забывать, а что собственно там было. Это как после хорошей книги - книга понравилсь, но она всего лишь расширила ваш кругозор, ничего более. Но в следующий раз я знаю, куда мне пойти, чтобы быстро ответить на мой вопрос, который я встречу на практике.
PS:
-К сожалению, даже хорошим качественным курсам приходится использовать обычные “продажные” техники маркетинга, которые эксплуатируют нашу страсть к халяве, чтобы пробиться через шум всех остальных. По каждому курсу Coursera, который я прошел, я напишу мини-отчет в ТГ канале книги по каждому - буквально в несколько предложений.
⁃ Один мой хороший знакомый, который читал речь аудитории в 30000 человек на стадионе (конечно без презентации) сказал - относись к этому как к театральному представлению. Люди запомнят больше того, кто их развлек больше. [Это и есть маркетинг знаний]
Я потратил 35 лет своей осознанной жизни в поисках способа учиться быстрее и эфффективнее. Почти бился об стену, чтобы найти священный грааль. И знаете не нашел… Кроме адских усилий, мазолей на пальцах от исписанных листов бумаги. Чтобы поступить на Физтех из самой обычной провинциальной с обычными учителями школе пришлось набраться очень большого терпения, засучить рукава и решать в течение года олимпиадные задачи по физике и математике по 4 часа каждый день (без репетиторов). Аналогично было и с английским, со спортом (да, да, ничего не заменит тренировки, просто их нужнее сделать чуть умнее.) И с машинным обучением, c музыкой, и с рекомендательными системами. Ничто не заменит собственные умственные усилия для достижения чего-то. No pain, no gain.
За последние 12 месяцев я прошел две специализации на Coursera и еще один курс по Reinforcement learning. Плюс еще несколько у меня за плечами (Scala, и курс по алгоритмам). По ним я увидел несколько закономерностей. Лучшие курсы все-таки получаются у людей, кто много делали практику, но и очень много преподавали! Именно поэтому я не буду делать свой курс. Раньше я презирал теоретиков, и очень любил практиков. Но похоже без них нельзя сделать практику интересней - они все время сорвенуются и пытаются обогнать друг друга.
Второе - самый лучший критерий оценить собственное понимание - это решить задачу с нуля. Просто взять чистый листый бумаги и с минимум подсказок решить задачу хотя бы в первом приближению. Любую задачу, ну а если еще можете объянить ее решение - то это уже большой шаг вперед. То же самое касается музыки и языков. Музыка - можете сыграть что-то простое с листа? Можете на слух подобрать мелодию и сыграть, можете подыграть кому-то? Язык - можете объяснить кому-то что-то и т.д. И самое интересное про курсы - в большинстве случаев я уже через месяц начинал забывать, а что собственно там было. Это как после хорошей книги - книга понравилсь, но она всего лишь расширила ваш кругозор, ничего более. Но в следующий раз я знаю, куда мне пойти, чтобы быстро ответить на мой вопрос, который я встречу на практике.
PS:
-К сожалению, даже хорошим качественным курсам приходится использовать обычные “продажные” техники маркетинга, которые эксплуатируют нашу страсть к халяве, чтобы пробиться через шум всех остальных. По каждому курсу Coursera, который я прошел, я напишу мини-отчет в ТГ канале книги по каждому - буквально в несколько предложений.
⁃ Один мой хороший знакомый, который читал речь аудитории в 30000 человек на стадионе (конечно без презентации) сказал - относись к этому как к театральному представлению. Люди запомнят больше того, кто их развлек больше. [Это и есть маркетинг знаний]
🔥10👍2
Исследователи смогли по GPU в вашем компьютере/смартфоне получить ваш «цифровой отпечаток» с точность в 98 процентов за 150 миллисекунд
https://www.bleepingcomputer.com/news/security/researchers-use-gpu-fingerprinting-to-track-users-online/
https://www.bleepingcomputer.com/news/security/researchers-use-gpu-fingerprinting-to-track-users-online/
BleepingComputer
Researchers use GPU fingerprinting to track users online
A team of researchers from French, Israeli, and Australian universities has explored the possibility of using people's GPUs to create unique fingerprints and use them for persistent web tracking.
😱2
Отзыв на специализацию веб разработки курса Coursera от Yandex и МФТИ
https://www.coursera.org/specializations/razrabotka-interfeysov (Разработка интерфейсов: вёрстка и JavaScript Specialization, )
Зачем мне понадобился этот курс.
Я начинаю делать свой проект, там много веб-программирования, до этого я только эпизодически вносил изменения в html и js файлы. А в CSS я вообще был полный ноль.
Понятно, что всего не изучишь, но мне даже чтобы нанять верстальщика нужно разбираться в его работе настолько, чтобы принимать его работу не на уровне «красиво сделано», а как это сделано внутри, на уровне кода.
Почему я выбрал этот курс.
Со времени основания Coursera я являюсь их преданным студентом. Поэтому решил поискать что-то там. Среди вариантов нашел специализацию по веб-разработке от МФТИ и Яндекса. В отличие от всех остальных пройденных мной курсов на курсере, это специализация на русском языке. Моя alma mater в списке создателей курса, это и склонило мое решение в ее пользу.
Цена вопроса
В специализацию входят пять отдельных курсов:
⁃ Html
⁃ Css
⁃ Java Script часть 1
⁃ Java script часть 2
⁃ Финальный проект
Цена в ….. списывается раз в месяц пока в не пройдете специализацию до конца. Если вы сделаете перерыв - деньги продолжат списываться, если вы явно не отключите подписку.
Финальный проект я не стал делать - у меня свой проект, применил знания там
Что я получил от этой специализации
⁃ HTML + CSS я наконец-то понял как оно работает и даже сделал анимацию на чистом CSS. Узнал про grid и flex в css, что было очень полезно.
⁃ JS мне было очень полезно увидеть «базу» языка, не касающуюся напрямую веба
⁃ После курсов я легко въехал в Typescript и React, и уже написал несложное приложение
⁃ Почти в каждой неделе есть краткие и полезные конспекты лекций. В js курсе я даже видео не смотрел, пользовался только этими конспектами
Что не понравилось
⁃ с нулевым опытом программирования будет тяжело. Вообще объясняют очень кратко по сравнению с англоязычными курсами, где все разжевывают. Похоже это наследие нашей отечественной системы обучения. Я бы сделал по-другому.
⁃ Мне очень не нравится подход peer-to-peer ревью, когда студенты должны были проверять друг друга. Из-за этого я не стал получать сертификаты по html и css. Я сделал только одно задание в финале второго курса JS. Для этого пришлось проверить работы 4-5 студентов и на форуме просить проверить мою работу. Выглядит это не совсем по деловому.
⁃ Java script стандарта ES5, когда сейчас распространен ES6.
#курсы
https://www.coursera.org/specializations/razrabotka-interfeysov (Разработка интерфейсов: вёрстка и JavaScript Specialization, )
Зачем мне понадобился этот курс.
Я начинаю делать свой проект, там много веб-программирования, до этого я только эпизодически вносил изменения в html и js файлы. А в CSS я вообще был полный ноль.
Понятно, что всего не изучишь, но мне даже чтобы нанять верстальщика нужно разбираться в его работе настолько, чтобы принимать его работу не на уровне «красиво сделано», а как это сделано внутри, на уровне кода.
Почему я выбрал этот курс.
Со времени основания Coursera я являюсь их преданным студентом. Поэтому решил поискать что-то там. Среди вариантов нашел специализацию по веб-разработке от МФТИ и Яндекса. В отличие от всех остальных пройденных мной курсов на курсере, это специализация на русском языке. Моя alma mater в списке создателей курса, это и склонило мое решение в ее пользу.
Цена вопроса
В специализацию входят пять отдельных курсов:
⁃ Html
⁃ Css
⁃ Java Script часть 1
⁃ Java script часть 2
⁃ Финальный проект
Цена в ….. списывается раз в месяц пока в не пройдете специализацию до конца. Если вы сделаете перерыв - деньги продолжат списываться, если вы явно не отключите подписку.
Финальный проект я не стал делать - у меня свой проект, применил знания там
Что я получил от этой специализации
⁃ HTML + CSS я наконец-то понял как оно работает и даже сделал анимацию на чистом CSS. Узнал про grid и flex в css, что было очень полезно.
⁃ JS мне было очень полезно увидеть «базу» языка, не касающуюся напрямую веба
⁃ После курсов я легко въехал в Typescript и React, и уже написал несложное приложение
⁃ Почти в каждой неделе есть краткие и полезные конспекты лекций. В js курсе я даже видео не смотрел, пользовался только этими конспектами
Что не понравилось
⁃ с нулевым опытом программирования будет тяжело. Вообще объясняют очень кратко по сравнению с англоязычными курсами, где все разжевывают. Похоже это наследие нашей отечественной системы обучения. Я бы сделал по-другому.
⁃ Мне очень не нравится подход peer-to-peer ревью, когда студенты должны были проверять друг друга. Из-за этого я не стал получать сертификаты по html и css. Я сделал только одно задание в финале второго курса JS. Для этого пришлось проверить работы 4-5 студентов и на форуме просить проверить мою работу. Выглядит это не совсем по деловому.
⁃ Java script стандарта ES5, когда сейчас распространен ES6.
#курсы
👍2
Государственный счетчик для популярных медиа сайтов
Я думаю вы уже слышали, что государство обязало поставить счетчик (mediascope) на популярные медиасайты (yandex, google, youtube, netflix…).
Какие данные будут собираться.
Об этом есть постановление правительства:
http://publication.pravo.gov.ru/Document/View/0001202111150038?index=4&rangeSize=1
Пункт 3 описывает какие данные пользователя будут собираться, пункт 4 информацию по контенту. В пункте 4б сказано фиксировать событие получения какого-то контента с точным временем.
Что это означает
Мои и ваши персональные идентификаторы (например, id клиента или email) будут сохраняться в логи, включая ссылки на просмотренный контент, под контролем нашего государства. Мне и многим мои коллегам кажется, что информация будет использоваться не совсем для оценки аудитории, а для политических целей. Были дела по репостам вконтакте, теперь их станет больше.
Второе - эти данные можно использовать для таргетирования аудитории во время выборов (хорошо показано в сериале карточный домик)
Я думаю вы уже слышали, что государство обязало поставить счетчик (mediascope) на популярные медиасайты (yandex, google, youtube, netflix…).
Какие данные будут собираться.
Об этом есть постановление правительства:
http://publication.pravo.gov.ru/Document/View/0001202111150038?index=4&rangeSize=1
Пункт 3 описывает какие данные пользователя будут собираться, пункт 4 информацию по контенту. В пункте 4б сказано фиксировать событие получения какого-то контента с точным временем.
Что это означает
Мои и ваши персональные идентификаторы (например, id клиента или email) будут сохраняться в логи, включая ссылки на просмотренный контент, под контролем нашего государства. Мне и многим мои коллегам кажется, что информация будет использоваться не совсем для оценки аудитории, а для политических целей. Были дела по репостам вконтакте, теперь их станет больше.
Второе - эти данные можно использовать для таргетирования аудитории во время выборов (хорошо показано в сериале карточный домик)
👍1
Друзья, ищу себе верстальщика-фриласера (html, css). Буду рад вашим рекомендациям.
Объем работы с моим приложением оказался большим, не тяну :(
Объем работы с моим приложением оказался большим, не тяну :(
Нашел шикарный датасет по отзывам на амазоне - May 1996 - Oct 2018 - 233 млн отзывов.
https://nijianmo.github.io/amazon/index.html
Кстати, для датасайнтиста важно владеть командами UNIX консоли. Благодаря этому можно обрабатывать на своем компьютере очень большие файлы, выбирая только нужное. Вот пример такой обработки, которую я сделал для очень большого датасета на основе Twitter.
cat tweets2009-06.txt | awk '{print $2}' | grep '2009\|http://twitter' |sed 's/^http:\/\/twitter.com\///' > tweets2009-06_parsed.txt
Грамотное использование таких инструментов сэкономит вам много времени.
https://nijianmo.github.io/amazon/index.html
Кстати, для датасайнтиста важно владеть командами UNIX консоли. Благодаря этому можно обрабатывать на своем компьютере очень большие файлы, выбирая только нужное. Вот пример такой обработки, которую я сделал для очень большого датасета на основе Twitter.
cat tweets2009-06.txt | awk '{print $2}' | grep '2009\|http://twitter' |sed 's/^http:\/\/twitter.com\///' > tweets2009-06_parsed.txt
Грамотное использование таких инструментов сэкономит вам много времени.
👍4
Пишу для тех, у кого по разным причинам заблокировались коммерческие аналитические системы (tableau и т.д.). На самом деле есть хорошие BI системы, которые бесплатны. Я писал в своей книге про Metabase - она до сих пор бесплатна, если вы устанавливаете ее на свои сервера. Очень рекомендую. Я ее использовал в Retail Rocket поверх Clickhouse с терабайтами данных. Видел как использовали в проекте FridgeNoMore (недавно закрылся). И сейчас я ее внедряю в одном проекте, который я консультирую.
Документация по установке тут: https://www.metabase.com/start/oss/
Она лучше, чем Apache Superset
Документация по установке тут: https://www.metabase.com/start/oss/
Она лучше, чем Apache Superset
👍2
Если вы пользовались Airtable, который тоже похоже не работает. Есть альтернатива https://github.com/nocodb/nocodb
Сам я не пользовался, но количество звезд и форков в github вызывает доверие
Сам я не пользовался, но количество звезд и форков в github вызывает доверие
👍4
Для развития своих навыков в области анализа поведения клиентов я бы рекомендовал посмотреть книгу "Mastering Retention" от Amplitude. Очень хорошо и профессионально написана, хотя и бесплатная. Сам сейчас ее смотрю для одного из своих проектов. Прочитал уже треть.
https://info.amplitude.com/rs/138-CDN-550/images/product-analytics-playbook-vol1-amplitude.pdf
Что в ней интересного:
- доступная методология, которую можно реализовать на коленках без Amplitude
- некоторые вещи про сегментацию без ухода в RFM
- есть интересные ключевые показатели
на английском!
https://info.amplitude.com/rs/138-CDN-550/images/product-analytics-playbook-vol1-amplitude.pdf
Что в ней интересного:
- доступная методология, которую можно реализовать на коленках без Amplitude
- некоторые вещи про сегментацию без ухода в RFM
- есть интересные ключевые показатели
на английском!
👍8
Американский суд разрешил парсить публично доступную информацию с сайтов. Подробнее про дело LinkedIn тут https://techcrunch.com/2022/04/18/web-scraping-legal-court/
Хорошая новость, выше я публиковал ссылку на датасет с отзывами на амазоне, он был подготовлен с помощью парсинга
Хорошая новость, выше я публиковал ссылку на датасет с отзывами на амазоне, он был подготовлен с помощью парсинга
TechCrunch
Web scraping is legal, US appeals court reaffirms
The landmark web scraping case was bounced back to the Ninth Circuit by the U.S. Supreme Court.
👍5🤔1