Тем временем я углубляюсь в Python:
1) Прошёл несколько онлайн курсов. Что посоветую: coursera, datacamp
2) Сделал свой первый отчёт на Python. Он собирает данные из 6 экселек (отчёты из SAP BO), а на выходе выдаёт heatmaps, tables, графики и прочие приятности на 34 страницах pdf. У меня получилось 3200 строк года, по ощущениям его можно сократить очень сильно, если за дело возьмётся профи.
Сегодня показал шеффу - он остался очень доволен, особенно тем фактом, что теперь каждую неделю по дирекции будет очень чёткая аналитика без приминения ручного труда и ошибок.
1) Прошёл несколько онлайн курсов. Что посоветую: coursera, datacamp
2) Сделал свой первый отчёт на Python. Он собирает данные из 6 экселек (отчёты из SAP BO), а на выходе выдаёт heatmaps, tables, графики и прочие приятности на 34 страницах pdf. У меня получилось 3200 строк года, по ощущениям его можно сократить очень сильно, если за дело возьмётся профи.
Сегодня показал шеффу - он остался очень доволен, особенно тем фактом, что теперь каждую неделю по дирекции будет очень чёткая аналитика без приминения ручного труда и ошибок.
👍3
Ответы на базовые вопросы по Machine Learning, часть 3
Сложно ли делать тот самый machine learning?
Делать его максимально просто. Дело в том, что за машинным обучением стоят библиотеки, которые вы применяете во время своих вычислений. Эти самые библиотеки производят вычисления за вас, так что вам остаётся только понять где и какую библиотеку лучше применить. Например, чтобы решить классический кейс "Какой именно пассажир Титаника спасётся?" обычно применяют библиотеку scikit learn. Прикрепляю картинку как это работает (ниже)
Сложно ли делать тот самый machine learning?
Делать его максимально просто. Дело в том, что за машинным обучением стоят библиотеки, которые вы применяете во время своих вычислений. Эти самые библиотеки производят вычисления за вас, так что вам остаётся только понять где и какую библиотеку лучше применить. Например, чтобы решить классический кейс "Какой именно пассажир Титаника спасётся?" обычно применяют библиотеку scikit learn. Прикрепляю картинку как это работает (ниже)
Ещё немного про библиотеки Python.
Самой популярной библиотекой для анализа данных является pandas. С её помощью вы можете импортировать в Python .csv файлик и привести его в привычный для большинства вид таблицы типа Excel. Библиотека сравнительно новая: её разработка началась в 2012 году.
Самой популярной библиотекой для анализа данных является pandas. С её помощью вы можете импортировать в Python .csv файлик и привести его в привычный для большинства вид таблицы типа Excel. Библиотека сравнительно новая: её разработка началась в 2012 году.
За машинным обучением и аналитикой данных стоят реальные люди и принимаемые ими решения. Зачастую надо понимать не только цифры, но и устройство мира: экономика, политика, социология и другие ресурсы призваны в этом помочь. Лично я много читаю bloomberg, the economist, damodaran, business insider, zerohedge. Есть и другие ресурсы, которые помогут вам расширить свой кругозор. Недавно нашёл классную картинку про иностранные СМИ. Смотрите далее.
Советую всем начинать работу с Python именно с установки Jupyter Notebook. Причин на это несколько: (1) очень удобно (2) формат ноутбуков поддерживается многими программами (3) в него уже встроены основные библиотеки - значит не надо заморачиваться с установкой! 😉
Дамы и господа, хочу сообщить одну маленькую новость: я меняю место работы и ухожу заниматься старт-апом. Моими инвесторами выступают крупнейшие компании США, а штат моих работников - программистов уже укомплектован ребятами из Калифорнии, Лондона и Москвы. Мы будем создавать искуственный интеллект для банковского сектора. На мне полное управление компанией и доля в бизнесе. В связи с этим я обещаю писать больше и интереснее! Надеюсь, кроме кода вам будет интересно узнать про продажи и то, как мыслит российский топ-менеджмент. Поехали!
👍1
Айтишники - натуры хрупкие. Чем больше человек занимается кодом, тем слабее становятся его социальные скиллы (в лучшем случае остаются на том же уровне). Так вот гении-программисты - это обычно асоциальные люди, в разговоре с которыми надо максимально фильтровать свою речь, чтобы (1) их не обидеть (2) не заставить их сомневаться в целесообразности твоей бизнес-идеи (3) не демотивировать их. Обычно в компаниях существует прослойка между бизнесом и программистами, которая зовётся IT project management. Эти ребята умеют разговаривать с обеими сторонами процесса и имеют верхнеуровневое представление как о деятельности реального бизнеса, так и об основах программирования. Они приоритезируют задачки от бизнеса и следят за производительностью кодеров.
Откуда берутся данные?
Сканеры, кассы, мобильные, камеры безопасности и ERP системы постоянно посылают данные в компании, которые ими владеют. На входе эта информация сырая и неструктурированная. Чтобы привести её в порядок, в больших компаниях есть специальные люди, которые создают хранилище данных в виде таблиц и витрин. Части единого хранилища могут различаться по быстродействию и тематике: из-за этого на первый взгляд простой анализ может оказаться муторной работой по собиранию данных в течение месяца из разных источников. Всегда следите за тем, откуда у вас данные и чем вы кормите своё машинное обучение и нейросети.
Сканеры, кассы, мобильные, камеры безопасности и ERP системы постоянно посылают данные в компании, которые ими владеют. На входе эта информация сырая и неструктурированная. Чтобы привести её в порядок, в больших компаниях есть специальные люди, которые создают хранилище данных в виде таблиц и витрин. Части единого хранилища могут различаться по быстродействию и тематике: из-за этого на первый взгляд простой анализ может оказаться муторной работой по собиранию данных в течение месяца из разных источников. Всегда следите за тем, откуда у вас данные и чем вы кормите своё машинное обучение и нейросети.
Расскажу про первые дни в своей новой роли. У нас небольшая команда, я единственный человек который не понимает математического смысла нормализации с помощью натурального логарифма и экспоненты. Машинное обучение это чистая математика, причём сложная и недоступная пониманию обычного человека. Если ты не выпускник мехмата МГУ или Бауманки, то в лучшем случае ты просто понимаешь, что что-то можно посчитать с помощью каких-то факторов, но сделать это просто не можешь. Или делаешь с огромным количеством лишних действий.
У людей с математическим складом ума очень сложно с общением и верхнеуровневым мышлением. Я стал замечать это давно. Человек очень круто понимает суть какого-то предмета, но не видит всей картины, потому что мало общается с окружающими. Отсюда возникает огромное количество проблем, связанных с конечной производительностью труда. Математики очень нужны современному миру - они двигают его вперёд и их труд в бизнесе хорошо оплачивается, но бизнес расцветает, когда soft skills встречаются с hard skills и поэтому нужна синергия с гуманитарными и творческими науками.
👍2
Сегодня расскажу о Джини. Это такой показатель, с помощью которого меряют предсказательную силу модели или её отдельных факторов в задачах машинного обучения. Указывается в виде процента. Чем выше процент, тем лучше модель что-либо предсказывает. Вообще, этот коэффициент был изобретён экономистом Коррадо Джини в 1912 году, чтобы определять степень расслоения общества относительно их дохода.
Всё дело в выборке! Сегодня чтобы запустить сложный алгоритм machine learning достаточно просто написать одну строку кода. Всё остальное сделает библиотека, которую вы используете - напрягаться не надо, надо просто понимать где какую библиотеку использовать. Если всё так просто, почему дата саентисты получают большие деньги и так ценятся среди работодателей? Вся суть кроется в данных, на которых вы запускаете алгоритм. Если они кривые - будут кривые результаты машинного обучения, поэтому 90% времени дата саентисты проводят за очисткой и обработкой данных. Эта задача не всегда требует высоко интеллекта от своего исполнителя, от этого у дата саентистов (которые считают себя элитой среди людей здесь и сейчас) часто пригорает и они работают медленно и неохотно, мол "пусть кто-нибудь другой делает за меня это дерьмо, я слишком умён для этого": они ругаются, но делают.
Кандидаты разлетаются как горячие пирожки. Уже полтора месяца не могу найти себе Junior Data Scientist. Ребята, которые присылают резюме становятся не актуальными уже через неделю - так быстро находят работу! Не могу понять, что делать в такой ситуации: может быть, брать в штат без интервью и тестов? Просто смотреть на образование и хватать, пока есть? Это, конечно, шутка, но ситуация выглядит нездорово и напоминает крипто-бум два года назад, только сейчас вместо биткоина это датасаентисты.
👍1
Сегодня возвращается владелец нашего супер-стартапа. Отдыхал 2 недели в Испании, при этом первую неделю всегда был на связи и каждый день созванивался со мной на 15-30 минут, чтобы обсудить основные моменты. К чему я это? Когда ты создаёшь свой бизнес, ты должен быть готов, что твоё время не сможет чётко разделяться на работу и отдых. Ты всегда должен держать руку на пульсе. Построить своё дело на принципе "оно же автоматические работает, мне ничего не нужно делать", "это же код, всё работает, ничего не сломается" - это миф, как и сказки про "пассивный доход".
Разработка - процесс постоянный! Допустим, вы написали код, который классно работает и даёт высокий показатель Джини. Думаете на этом можно закончить? НЕТ. Модель требует постоянной поддержки и переобучения. Допустим, вы сделали ИИ, который принимает решение стоит ли выдавать кредит физическому лицу. Прошло два года: половина источников данных отвалилось, потому что теперь вместо 4 столбцов в привычной таблице на сайте ФНС их вдруг стало 6, а один из провайдеров данных по API вдруг решил изменить аттрибуты запросов. Кроме того, экономическая ситуация изменилась, и теперь потребителей надо судить не по их текущему балансу в рублях, а в евро (например).
Habr
Коэффициент Джини. Из экономики в машинное обучение
Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики....