topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Продолжение
«Мои замечания, вопросы и дополнения:

1) Четвёртая глава показалась довольно сумбурной. Раздел про датасет внезапно появляется без всякой подводки и немного выбивает из контекста, потому что до этого обсуждали навыки и процессы.

2) [с.92] Вся книга до этого считает, что у читателя нет знаний статистики. И тут «нормальное распределение» и «гистограмма». На моем опыте, люди не в теме пугаются таких слов, а гистограммой могут считать вообще любой график. «Медиана – это значение, которое делит выборку пополам». Вообще не поймут, я проверял. А потом ещё и про расстояние перцентилей от медианы говорим, никак не объясняя, что такое перцентили. Абзац с определением я бы подвинул на место перед первым использованием термина. Экспоненциальное распределение тоже без предварительного определения. Вообще глава резко уходит в математику.

3) [с.94] В scatter plot же не обязательно зависимая и независимая переменные. И не всегда это про показ зависимости. Те же кластеры визуализировать. Например, возраст и вес, которые не зависят друг от друга (для взрослых людей).

4) [с.105] Просто комментарий. Мне нравится определение бигдаты через VVV: Volume, Velocity, Variety.

5) Про опыт работы с HR-агентствами. Да, крутые hr-агентства делают поиск топов или редких специалистов проще, т.к. у них хорошая база контактов наработана. Но есть риск красиво оформленного середнячка, хотя для кандидата это плюс. Несколько раз через Владимирскую искали и с New.HR сталкивался. Они вроде по России одни из самых известных.

6) [с.152] ETL. Extract transformation layer. Первый раз сталкиваюсь с такой расшифровкой. Extract-Transform-Load же. И в ELT, соответственно, меняются этапы, когда мы сначала сохраняем данные, а потом обрабатываем.

7) [с.152] "Визуализация гораздо лучше, чем у альтернативных инструментов (особенно у Tableau)". Я раза три перечитывал предложение. Читалось как "Визуализация гораздо лучше, особенно чем у Tableau.".

8) [с.153] "Несложный визуальный ETL как в Tableau". У табло все сложные штуки вынесли в отдельный софт Tableau Prep. Я с ним не работал, но они именно там предлагают обрабатывать данные перед загрузков в табло. Еще я слышал, что в последних версиях они что-то вроде модели данных все же добавили в само табло.

9) [с.155] Ещё один минус облаков в почти полном отсутствии кастомизации и сложности интеграции с другими системами. Я больше двух лет работал с Amazon Redshift и это довольно негативный опыт.

10) [с.166] Текст про звезду, а на картинке снежинка. У звезды только одна точка схождения лучей – единая таблица фактов. А вот у звезды могут быть измерения, которые сходятся в измерения, а в центральную таблицу фактов.

11) [с.218] Несколько раз опечатка в слове "приоритизируются".

12) [с.260] Просто любопытно. На СМИ наезжают за "отравление" Навального, мол не было никаких отравлений, вы все врете. Нет рисков у книжки, если кто-то идейный прочитает? Ну и местами политические темы проскакивают в тексте.

13) [с.280] В главе про стартапы круто было бы рассказать про аналитику: на что смотрят инвесторы, какие цифры им обычно нужны и все такое. А то в текущем виде глава как-то выбивается из темы аналитики.

14) Местами, особенно в районо 90-х страниц, совсем много упоминаний Retail Rocket становится. Временами совсем как реклама выглядит =)

15) Идея с QR классная, но не всегда удобная. На каких-то страницах очень хотелось посмотреть, на что именно ссылка (в тексте не было), но для этого пришлось бы брать телефон, открывать камеру, сканировать, открывать ссылку. И это просто для того, чтобы посмотреть, а что за источник.

16) Местами в книге, где речь шла про аналитику, чувствовался перекос в сторону ML. Страницы не записал, но кажется в контексте технологий. Описывались сценарии, которые ближе к ML, чем к обычной аналитике. Но, в принципе, в названии книги и написано "Data Science".

17) [с.285] Thomann классные =)

18) Книга очень легко и приятно читается! Чаще околотехническая литература выходит довольно нудной.»
В книжном магазине Республика 27 мая (четверг) c 19:00 до 21:00 на Маяковской я проведу автограф-сессию и дам бесплатные консультации. В самом магазине будет десяток экземпляров моих книг. Если вы еще не купили, то можно приобрести сразу там. Увы, тираж закончился. Не забудьте маски.

Адрес: Москва, м. Маяковская, ул. 1-я Тверская-Ямская, 10
Дата и время: 27 мая с 19:00 до 21:00
Читателей стало больше!
Доступность книги
1) Электронная версия https://www.piter.com/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye
2) Бумажная версия https://www.wildberries.ru/catalog/27782594/detail.aspx
В других магазинах почти не осталось. Есть просьба - прочитали книгу - напишите отзыв в магазине, даже критический.

Доп. тираж будет в июне
topdatalab pinned «Доступность книги 1) Электронная версия https://www.piter.com/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye 2) Бумажная версия https://www.wildberries.ru/catalog/27782594/detail.aspx В других магазинах почти не осталось. Есть просьба - прочитали…»
Книга заняла второе место по популярности в своей категории на labirint.ru
Если вы уже читали книгу, то обратили внимание на подзаголовок «Конфликт исследователя и бизнеса». Завтра 17 июня в 19:00 я буду обсуждать эту тему на вебинаре в рамках фестиваля Data Fest 2021. Ссылка на регистрацию тут: https://topdatalab.ru/taplink
Полезные мысли

На конференции в Москве Ральф Кимбалл (один из теоретиков хранилищ данных) сказал про юзабилити отчетных систем - посчитайте количество кликов, которые нужно сделать пользователю, чтобы получить требуемый отчет. Чем их меньше, тем лучше.

Я сам себя ловил на мысли, что некоторые вещи ленился делать, потому что нужно много времени потратить на получение нужных цифр. Мы должны думать о пользователях, чтобы им было удобно работать с данными. Самая лучшая аналитическая система будет работать со скоростью мысли.
Если я сделаю виртуальный семинар с разбором ваших кейсов по аналитике, придете?
Anonymous Poll
100%
Да
0%
Нет
Andrew Ng, которого я многократно упоминал в книге, написал статью для Harvard Business Review.
В ней он подчеркивает важность правильных данных, а не моделей, которые на этих данных строятся. https://hbr.org/2021/07/ai-doesnt-have-to-be-too-complicated-or-expensive-for-your-business

Дело в том, что обычно инженеры и исследователи в области ML пытаются на одних и тех же данных строить множество моделей, но гораздо важнее собрать чуть более подходящие данные (улучшить их качество), чтобы получить решение на более простых алгоритмах. Что удешевит всю конструкцию особенно, когда вы не являетесь крупной технологической компанией.
topdatalab
Если я сделаю виртуальный семинар с разбором ваших кейсов по аналитике, придете?
Напишите ваши вопросы для семинара мне на email - rzykov@topdatalab.ru
Тогда я смогу сделать несколько семинаров разбитых по темам.
С эффективностью нужно обращаться аккуратно :)