topdatalab

Продолжение
«Мои замечания, вопросы и дополнения:

1) Четвёртая глава показалась довольно сумбурной. Раздел про датасет внезапно появляется без всякой подводки и немного выбивает из контекста, потому что до этого обсуждали навыки и процессы.

2) [с.92] Вся книга до этого считает, что у читателя нет знаний статистики. И тут «нормальное распределение» и «гистограмма». На моем опыте, люди не в теме пугаются таких слов, а гистограммой могут считать вообще любой график. «Медиана – это значение, которое делит выборку пополам». Вообще не поймут, я проверял. А потом ещё и про расстояние перцентилей от медианы говорим, никак не объясняя, что такое перцентили. Абзац с определением я бы подвинул на место перед первым использованием термина. Экспоненциальное распределение тоже без предварительного определения. Вообще глава резко уходит в математику.

3) [с.94] В scatter plot же не обязательно зависимая и независимая переменные. И не всегда это про показ зависимости. Те же кластеры визуализировать. Например, возраст и вес, которые не зависят друг от друга (для взрослых людей).

4) [с.105] Просто комментарий. Мне нравится определение бигдаты через VVV: Volume, Velocity, Variety.

5) Про опыт работы с HR-агентствами. Да, крутые hr-агентства делают поиск топов или редких специалистов проще, т.к. у них хорошая база контактов наработана. Но есть риск красиво оформленного середнячка, хотя для кандидата это плюс. Несколько раз через Владимирскую искали и с New.HR сталкивался. Они вроде по России одни из самых известных.

6) [с.152] ETL. Extract transformation layer. Первый раз сталкиваюсь с такой расшифровкой. Extract-Transform-Load же. И в ELT, соответственно, меняются этапы, когда мы сначала сохраняем данные, а потом обрабатываем.

7) [с.152] "Визуализация гораздо лучше, чем у альтернативных инструментов (особенно у Tableau)". Я раза три перечитывал предложение. Читалось как "Визуализация гораздо лучше, особенно чем у Tableau.".

8) [с.153] "Несложный визуальный ETL как в Tableau". У табло все сложные штуки вынесли в отдельный софт Tableau Prep. Я с ним не работал, но они именно там предлагают обрабатывать данные перед загрузков в табло. Еще я слышал, что в последних версиях они что-то вроде модели данных все же добавили в само табло.

9) [с.155] Ещё один минус облаков в почти полном отсутствии кастомизации и сложности интеграции с другими системами. Я больше двух лет работал с Amazon Redshift и это довольно негативный опыт.

10) [с.166] Текст про звезду, а на картинке снежинка. У звезды только одна точка схождения лучей – единая таблица фактов. А вот у звезды могут быть измерения, которые сходятся в измерения, а в центральную таблицу фактов.

11) [с.218] Несколько раз опечатка в слове "приоритизируются".

12) [с.260] Просто любопытно. На СМИ наезжают за "отравление" Навального, мол не было никаких отравлений, вы все врете. Нет рисков у книжки, если кто-то идейный прочитает? Ну и местами политические темы проскакивают в тексте.

13) [с.280] В главе про стартапы круто было бы рассказать про аналитику: на что смотрят инвесторы, какие цифры им обычно нужны и все такое. А то в текущем виде глава как-то выбивается из темы аналитики.

14) Местами, особенно в районо 90-х страниц, совсем много упоминаний Retail Rocket становится. Временами совсем как реклама выглядит =)

15) Идея с QR классная, но не всегда удобная. На каких-то страницах очень хотелось посмотреть, на что именно ссылка (в тексте не было), но для этого пришлось бы брать телефон, открывать камеру, сканировать, открывать ссылку. И это просто для того, чтобы посмотреть, а что за источник.

16) Местами в книге, где речь шла про аналитику, чувствовался перекос в сторону ML. Страницы не записал, но кажется в контексте технологий. Описывались сценарии, которые ближе к ML, чем к обычной аналитике. Но, в принципе, в названии книги и написано "Data Science".

17) [с.285] Thomann классные =)

18) Книга очень легко и приятно читается! Чаще околотехническая литература выходит довольно нудной.»

210 views18:35