Продолжение
«Мои замечания, вопросы и дополнения:
1) Четвёртая глава показалась довольно сумбурной. Раздел про датасет внезапно появляется без всякой подводки и немного выбивает из контекста, потому что до этого обсуждали навыки и процессы.
2) [с.92] Вся книга до этого считает, что у читателя нет знаний статистики. И тут «нормальное распределение» и «гистограмма». На моем опыте, люди не в теме пугаются таких слов, а гистограммой могут считать вообще любой график. «Медиана – это значение, которое делит выборку пополам». Вообще не поймут, я проверял. А потом ещё и про расстояние перцентилей от медианы говорим, никак не объясняя, что такое перцентили. Абзац с определением я бы подвинул на место перед первым использованием термина. Экспоненциальное распределение тоже без предварительного определения. Вообще глава резко уходит в математику.
3) [с.94] В scatter plot же не обязательно зависимая и независимая переменные. И не всегда это про показ зависимости. Те же кластеры визуализировать. Например, возраст и вес, которые не зависят друг от друга (для взрослых людей).
4) [с.105] Просто комментарий. Мне нравится определение бигдаты через VVV: Volume, Velocity, Variety.
5) Про опыт работы с HR-агентствами. Да, крутые hr-агентства делают поиск топов или редких специалистов проще, т.к. у них хорошая база контактов наработана. Но есть риск красиво оформленного середнячка, хотя для кандидата это плюс. Несколько раз через Владимирскую искали и с New.HR сталкивался. Они вроде по России одни из самых известных.
6) [с.152] ETL. Extract transformation layer. Первый раз сталкиваюсь с такой расшифровкой. Extract-Transform-Load же. И в ELT, соответственно, меняются этапы, когда мы сначала сохраняем данные, а потом обрабатываем.
7) [с.152] "Визуализация гораздо лучше, чем у альтернативных инструментов (особенно у Tableau)". Я раза три перечитывал предложение. Читалось как "Визуализация гораздо лучше, особенно чем у Tableau.".
8) [с.153] "Несложный визуальный ETL как в Tableau". У табло все сложные штуки вынесли в отдельный софт Tableau Prep. Я с ним не работал, но они именно там предлагают обрабатывать данные перед загрузков в табло. Еще я слышал, что в последних версиях они что-то вроде модели данных все же добавили в само табло.
9) [с.155] Ещё один минус облаков в почти полном отсутствии кастомизации и сложности интеграции с другими системами. Я больше двух лет работал с Amazon Redshift и это довольно негативный опыт.
10) [с.166] Текст про звезду, а на картинке снежинка. У звезды только одна точка схождения лучей – единая таблица фактов. А вот у звезды могут быть измерения, которые сходятся в измерения, а в центральную таблицу фактов.
11) [с.218] Несколько раз опечатка в слове "приоритизируются".
12) [с.260] Просто любопытно. На СМИ наезжают за "отравление" Навального, мол не было никаких отравлений, вы все врете. Нет рисков у книжки, если кто-то идейный прочитает? Ну и местами политические темы проскакивают в тексте.
13) [с.280] В главе про стартапы круто было бы рассказать про аналитику: на что смотрят инвесторы, какие цифры им обычно нужны и все такое. А то в текущем виде глава как-то выбивается из темы аналитики.
14) Местами, особенно в районо 90-х страниц, совсем много упоминаний Retail Rocket становится. Временами совсем как реклама выглядит =)
15) Идея с QR классная, но не всегда удобная. На каких-то страницах очень хотелось посмотреть, на что именно ссылка (в тексте не было), но для этого пришлось бы брать телефон, открывать камеру, сканировать, открывать ссылку. И это просто для того, чтобы посмотреть, а что за источник.
16) Местами в книге, где речь шла про аналитику, чувствовался перекос в сторону ML. Страницы не записал, но кажется в контексте технологий. Описывались сценарии, которые ближе к ML, чем к обычной аналитике. Но, в принципе, в названии книги и написано "Data Science".
17) [с.285] Thomann классные =)
18) Книга очень легко и приятно читается! Чаще околотехническая литература выходит довольно нудной.»
«Мои замечания, вопросы и дополнения:
1) Четвёртая глава показалась довольно сумбурной. Раздел про датасет внезапно появляется без всякой подводки и немного выбивает из контекста, потому что до этого обсуждали навыки и процессы.
2) [с.92] Вся книга до этого считает, что у читателя нет знаний статистики. И тут «нормальное распределение» и «гистограмма». На моем опыте, люди не в теме пугаются таких слов, а гистограммой могут считать вообще любой график. «Медиана – это значение, которое делит выборку пополам». Вообще не поймут, я проверял. А потом ещё и про расстояние перцентилей от медианы говорим, никак не объясняя, что такое перцентили. Абзац с определением я бы подвинул на место перед первым использованием термина. Экспоненциальное распределение тоже без предварительного определения. Вообще глава резко уходит в математику.
3) [с.94] В scatter plot же не обязательно зависимая и независимая переменные. И не всегда это про показ зависимости. Те же кластеры визуализировать. Например, возраст и вес, которые не зависят друг от друга (для взрослых людей).
4) [с.105] Просто комментарий. Мне нравится определение бигдаты через VVV: Volume, Velocity, Variety.
5) Про опыт работы с HR-агентствами. Да, крутые hr-агентства делают поиск топов или редких специалистов проще, т.к. у них хорошая база контактов наработана. Но есть риск красиво оформленного середнячка, хотя для кандидата это плюс. Несколько раз через Владимирскую искали и с New.HR сталкивался. Они вроде по России одни из самых известных.
6) [с.152] ETL. Extract transformation layer. Первый раз сталкиваюсь с такой расшифровкой. Extract-Transform-Load же. И в ELT, соответственно, меняются этапы, когда мы сначала сохраняем данные, а потом обрабатываем.
7) [с.152] "Визуализация гораздо лучше, чем у альтернативных инструментов (особенно у Tableau)". Я раза три перечитывал предложение. Читалось как "Визуализация гораздо лучше, особенно чем у Tableau.".
8) [с.153] "Несложный визуальный ETL как в Tableau". У табло все сложные штуки вынесли в отдельный софт Tableau Prep. Я с ним не работал, но они именно там предлагают обрабатывать данные перед загрузков в табло. Еще я слышал, что в последних версиях они что-то вроде модели данных все же добавили в само табло.
9) [с.155] Ещё один минус облаков в почти полном отсутствии кастомизации и сложности интеграции с другими системами. Я больше двух лет работал с Amazon Redshift и это довольно негативный опыт.
10) [с.166] Текст про звезду, а на картинке снежинка. У звезды только одна точка схождения лучей – единая таблица фактов. А вот у звезды могут быть измерения, которые сходятся в измерения, а в центральную таблицу фактов.
11) [с.218] Несколько раз опечатка в слове "приоритизируются".
12) [с.260] Просто любопытно. На СМИ наезжают за "отравление" Навального, мол не было никаких отравлений, вы все врете. Нет рисков у книжки, если кто-то идейный прочитает? Ну и местами политические темы проскакивают в тексте.
13) [с.280] В главе про стартапы круто было бы рассказать про аналитику: на что смотрят инвесторы, какие цифры им обычно нужны и все такое. А то в текущем виде глава как-то выбивается из темы аналитики.
14) Местами, особенно в районо 90-х страниц, совсем много упоминаний Retail Rocket становится. Временами совсем как реклама выглядит =)
15) Идея с QR классная, но не всегда удобная. На каких-то страницах очень хотелось посмотреть, на что именно ссылка (в тексте не было), но для этого пришлось бы брать телефон, открывать камеру, сканировать, открывать ссылку. И это просто для того, чтобы посмотреть, а что за источник.
16) Местами в книге, где речь шла про аналитику, чувствовался перекос в сторону ML. Страницы не записал, но кажется в контексте технологий. Описывались сценарии, которые ближе к ML, чем к обычной аналитике. Но, в принципе, в названии книги и написано "Data Science".
17) [с.285] Thomann классные =)
18) Книга очень легко и приятно читается! Чаще околотехническая литература выходит довольно нудной.»
В книжном магазине Республика 27 мая (четверг) c 19:00 до 21:00 на Маяковской я проведу автограф-сессию и дам бесплатные консультации. В самом магазине будет десяток экземпляров моих книг. Если вы еще не купили, то можно приобрести сразу там. Увы, тираж закончился. Не забудьте маски.
Адрес: Москва, м. Маяковская, ул. 1-я Тверская-Ямская, 10
Дата и время: 27 мая с 19:00 до 21:00
Адрес: Москва, м. Маяковская, ул. 1-я Тверская-Ямская, 10
Дата и время: 27 мая с 19:00 до 21:00
Доступность книги
1) Электронная версия https://www.piter.com/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye
2) Бумажная версия https://www.wildberries.ru/catalog/27782594/detail.aspx
В других магазинах почти не осталось. Есть просьба - прочитали книгу - напишите отзыв в магазине, даже критический.
Доп. тираж будет в июне
1) Электронная версия https://www.piter.com/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye
2) Бумажная версия https://www.wildberries.ru/catalog/27782594/detail.aspx
В других магазинах почти не осталось. Есть просьба - прочитали книгу - напишите отзыв в магазине, даже критический.
Доп. тираж будет в июне
www.piter.com
Роман с Data Science. Как монетизировать большие данные
Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня
topdatalab pinned «Доступность книги 1) Электронная версия https://www.piter.com/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye 2) Бумажная версия https://www.wildberries.ru/catalog/27782594/detail.aspx В других магазинах почти не осталось. Есть просьба - прочитали…»
Хорошая новость про этику данных (глава 11 книги). Я надеюсь это улучшит ситуацию. https://www.forbes.ru/newsroom/tehnologii/431007-yandeks-pozvolil-polzovatelyam-udalyat-svoi-dannye?fbclid=IwAR099u86JWPunesqAq7i5nneaJgUitsixXvauzTd7b8av3QW94u27EUfTMc
Forbes.ru
«Яндекс» позволил пользователям удалять свои данные
Пользователи получили возможность изучить и удалить данные, которые собрали о них сервисы «Яндекса». Удалить можно, к примеру, историю запросов к «Алисе», просмотров страниц в «Дзене» или сведения о посещенных местах
Книга заняла второе место по популярности в своей категории на labirint.ru
Если вы уже читали книгу, то обратили внимание на подзаголовок «Конфликт исследователя и бизнеса». Завтра 17 июня в 19:00 я буду обсуждать эту тему на вебинаре в рамках фестиваля Data Fest 2021. Ссылка на регистрацию тут: https://topdatalab.ru/taplink
Полезные мысли
На конференции в Москве Ральф Кимбалл (один из теоретиков хранилищ данных) сказал про юзабилити отчетных систем - посчитайте количество кликов, которые нужно сделать пользователю, чтобы получить требуемый отчет. Чем их меньше, тем лучше.
Я сам себя ловил на мысли, что некоторые вещи ленился делать, потому что нужно много времени потратить на получение нужных цифр. Мы должны думать о пользователях, чтобы им было удобно работать с данными. Самая лучшая аналитическая система будет работать со скоростью мысли.
На конференции в Москве Ральф Кимбалл (один из теоретиков хранилищ данных) сказал про юзабилити отчетных систем - посчитайте количество кликов, которые нужно сделать пользователю, чтобы получить требуемый отчет. Чем их меньше, тем лучше.
Я сам себя ловил на мысли, что некоторые вещи ленился делать, потому что нужно много времени потратить на получение нужных цифр. Мы должны думать о пользователях, чтобы им было удобно работать с данными. Самая лучшая аналитическая система будет работать со скоростью мысли.
Отзыв на книгу из Токио https://www.linkedin.com/feed/update/activity:6813674890869121024
topdatalab
Если вы уже читали книгу, то обратили внимание на подзаголовок «Конфликт исследователя и бизнеса». Завтра 17 июня в 19:00 я буду обсуждать эту тему на вебинаре в рамках фестиваля Data Fest 2021. Ссылка на регистрацию тут: https://topdatalab.ru/taplink
Видео выложено тут: https://youtu.be/Rn-eWG5t-is
YouTube
Конфликт исследователя и бизнеса, Роман Зыков
Конфликт исследователя и бизнеса, Роман Зыков, Автор книги “Роман с Data Science”, сооснователь Retail Rocket
Исследователи хотят развиваться и делать крутые вещи (самореализация по пирамиде Маслоу). Бизнес хочет зарабатывать деньги - это написано в уставе…
Исследователи хотят развиваться и делать крутые вещи (самореализация по пирамиде Маслоу). Бизнес хочет зарабатывать деньги - это написано в уставе…
Если я сделаю виртуальный семинар с разбором ваших кейсов по аналитике, придете?
Anonymous Poll
100%
Да
0%
Нет
Все мы люди! Поэтому относится к конфиденциальной информации следует строже. Я уже писал про Love intelligence в 11 главе про этику данных. Продолжение пришло из Facebook: https://vc.ru/social/269862-dostup-k-dannym-polzovateley-facebook-byl-u-16-tysyach-sotrudnikov-nekotorye-ispolzovali-ih-dlya-slezhki-istochniki
vc.ru
Доступ к данным пользователей Facebook был у 16 тысяч сотрудников, некоторые использовали их для слежки — источники — Соцсети на…
Например, один хотел узнать, куда пошла его девушка после ссоры, другой — следил за новой знакомой, которая перестала выходить на связь.
Andrew Ng, которого я многократно упоминал в книге, написал статью для Harvard Business Review.
В ней он подчеркивает важность правильных данных, а не моделей, которые на этих данных строятся. https://hbr.org/2021/07/ai-doesnt-have-to-be-too-complicated-or-expensive-for-your-business
Дело в том, что обычно инженеры и исследователи в области ML пытаются на одних и тех же данных строить множество моделей, но гораздо важнее собрать чуть более подходящие данные (улучшить их качество), чтобы получить решение на более простых алгоритмах. Что удешевит всю конструкцию особенно, когда вы не являетесь крупной технологической компанией.
В ней он подчеркивает важность правильных данных, а не моделей, которые на этих данных строятся. https://hbr.org/2021/07/ai-doesnt-have-to-be-too-complicated-or-expensive-for-your-business
Дело в том, что обычно инженеры и исследователи в области ML пытаются на одних и тех же данных строить множество моделей, но гораздо важнее собрать чуть более подходящие данные (улучшить их качество), чтобы получить решение на более простых алгоритмах. Что удешевит всю конструкцию особенно, когда вы не являетесь крупной технологической компанией.
Harvard Business Review
AI Doesn’t Have to Be Too Complicated or Expensive for Your Business
For most companies that are interested in using AI, there isn’t a clear model to follow. The approach to building AI used by massive internet companies like Amazon and Google just doesn’t translate — most companies don’t have overflowing troves of data they…
topdatalab
Если я сделаю виртуальный семинар с разбором ваших кейсов по аналитике, придете?
Напишите ваши вопросы для семинара мне на email - rzykov@topdatalab.ru
Тогда я смогу сделать несколько семинаров разбитых по темам.
Тогда я смогу сделать несколько семинаров разбитых по темам.