Привет! Для начала стоит рассказать об этом канале и обо мне: я выпускник топ-5 российских ВУЗов, работал в стратегическом консалтинге, сейчас тружусь в немецкой IT-компании. Основная часть моей работы – анализ бизнес кейсов и решение проблем внутри компании (оптимизация бизнес-процессов, управление рисками, консультации топ-менеджменту). Примерно полгода назад я понял, что Excel банально не справляется с моими задачками: простейшие операции заставляют мой довольно-таки мощный ноутбук изрядно попотеть или вовсе зависнуть. Я решил, что настало время изучать data science и языки, связанные с этим явлением: Python, R, SQL. Вникнув в них, я понял, что они реально могут упростить мою жизнь. На этом канале я как новичок в мире machine learning буду писать про то, с чего стоит начать, на что обратить внимание и как применить машинное обучение. Помимо машинного обучения буду делиться рабочими моментами из своей жизни.
Моя (и наша общая цель): изучить machine learning, уметь писать простые нейросети, создать свой бизнес (или сгенерировать бизнес идею) на основе machine learning к декабрю 2018 года (у нас есть меньше года).
Погнали!
Моя (и наша общая цель): изучить machine learning, уметь писать простые нейросети, создать свой бизнес (или сгенерировать бизнес идею) на основе machine learning к декабрю 2018 года (у нас есть меньше года).
Погнали!
👍4
Сегодня зависаю на классном мастерклассе от одного чувака ex-Yandex, ex-Mail. Анализируем выборы и их результаты с помощью machine learning и Python. Какие можно сделать основные выводы? Выборы не очень честные. Хотите данные? Пожалуйста:
https://github.com/CommanderDuck/russian_elections_2018/blob/master/russian_elections_2018.ipynb
https://github.com/CommanderDuck/russian_elections_2018/blob/master/russian_elections_2018.ipynb
GitHub
russian_elections_2018/russian_elections_2018.ipynb at master · SlinkoIgor/russian_elections_2018
Contribute to SlinkoIgor/russian_elections_2018 development by creating an account on GitHub.
Ответы на базовые вопросы по Machine Learning, часть 1
Кому это нужно?
- вы офисный сотрудник, который часто анализирует данные;
- вы владелец бизнеса, вы data driven, поэтому хотите более-менее точные прогнозы;
- вы не анализируете данные, но чувствуете, что ваша сфера деятельности скоро перейдёт на big data, поэтому надо понимать что это такое и с чем её едят
Лично обычный офисный червь. В какой-то момент я понял, что в Экселе не смогу сделать анализ 20 миллионов строк и 20 столбцов.
Кому это нужно?
- вы офисный сотрудник, который часто анализирует данные;
- вы владелец бизнеса, вы data driven, поэтому хотите более-менее точные прогнозы;
- вы не анализируете данные, но чувствуете, что ваша сфера деятельности скоро перейдёт на big data, поэтому надо понимать что это такое и с чем её едят
Лично обычный офисный червь. В какой-то момент я понял, что в Экселе не смогу сделать анализ 20 миллионов строк и 20 столбцов.
Ответы на базовые вопросы по Machine Learning, часть 2
В каких программах делают этот самый machine learning?
Есть 2 основных языка программирования, где происходит сама магия чисел: R и Python. Оба языка предтавляют из себя обычные консоли, то есть вы по-настоящему программируете и кодите в условном чёрном окошке. Разницы в них немного. R более молодой, разработан data scientists для data scientists, в синтаксисе он более сложный и предназначен только для анализа данных. Python постарше, применяется он не только для анализа данных и machine learning (на нём, например, можно написать движок для сайта). По сути разницы между ними немного и только совсем углубившись в тему machine learning вы увидите разницу.
Красивая картинка ниже.
В каких программах делают этот самый machine learning?
Есть 2 основных языка программирования, где происходит сама магия чисел: R и Python. Оба языка предтавляют из себя обычные консоли, то есть вы по-настоящему программируете и кодите в условном чёрном окошке. Разницы в них немного. R более молодой, разработан data scientists для data scientists, в синтаксисе он более сложный и предназначен только для анализа данных. Python постарше, применяется он не только для анализа данных и machine learning (на нём, например, можно написать движок для сайта). По сути разницы между ними немного и только совсем углубившись в тему machine learning вы увидите разницу.
Красивая картинка ниже.
👍3
Что кроется за машинным обучением?
За машинным обучением стоит много сложной математики и статистики. В целом, машины могут учиться двумя способами: либо они получаются данные и понимают исход какого-то события, либо впитывают в себя знания экспертов. Первое - машинное обучение такое, каким его будем изучать мы. Второе - программирование алгоритмов, мы этого касаться не будем (в ближайшем будущем).
Вот вам данные:
0 0 0 = х
0 0 1 = у
0 1 1 = у
1 1 1 = у
1 0 0 = у
1 1 0 = у
1 0 1 = у
1 1 1 = у
Теперь вопрос: чему равняется 0 1 0 = ?
За машинным обучением стоит много сложной математики и статистики. В целом, машины могут учиться двумя способами: либо они получаются данные и понимают исход какого-то события, либо впитывают в себя знания экспертов. Первое - машинное обучение такое, каким его будем изучать мы. Второе - программирование алгоритмов, мы этого касаться не будем (в ближайшем будущем).
Вот вам данные:
0 0 0 = х
0 0 1 = у
0 1 1 = у
1 1 1 = у
1 0 0 = у
1 1 0 = у
1 0 1 = у
1 1 1 = у
Теперь вопрос: чему равняется 0 1 0 = ?
👍2
Чему равняется 0 1 0 = ?
anonymous poll
у – 31
👍👍👍👍👍👍👍 79%
х – 8
👍👍 21%
👥 39 people voted so far.
anonymous poll
у – 31
👍👍👍👍👍👍👍 79%
х – 8
👍👍 21%
👥 39 people voted so far.
Машины выносят суждение так же, как и люди. Различие в том, что в отличие от нас (мешков с мясом) машины могут анализировать по-настоящему большие объёмы данных и при этом не ошибаться (или чётко определять с какой вероятностью возможна ошибка). Когда я загнал пример выше в алгоритм машинного обучения, он выдал мне ответ = у, скорость ответа 0.00001 милисекунды. Признайтесь, сколько у вас секунд ушло на решение этой задачи? Этот простой пример даст вам представление о том, насколько машины могут быстрее делать выводы, чем люди.
👍2
Тем временем я углубляюсь в Python:
1) Прошёл несколько онлайн курсов. Что посоветую: coursera, datacamp
2) Сделал свой первый отчёт на Python. Он собирает данные из 6 экселек (отчёты из SAP BO), а на выходе выдаёт heatmaps, tables, графики и прочие приятности на 34 страницах pdf. У меня получилось 3200 строк года, по ощущениям его можно сократить очень сильно, если за дело возьмётся профи.
Сегодня показал шеффу - он остался очень доволен, особенно тем фактом, что теперь каждую неделю по дирекции будет очень чёткая аналитика без приминения ручного труда и ошибок.
1) Прошёл несколько онлайн курсов. Что посоветую: coursera, datacamp
2) Сделал свой первый отчёт на Python. Он собирает данные из 6 экселек (отчёты из SAP BO), а на выходе выдаёт heatmaps, tables, графики и прочие приятности на 34 страницах pdf. У меня получилось 3200 строк года, по ощущениям его можно сократить очень сильно, если за дело возьмётся профи.
Сегодня показал шеффу - он остался очень доволен, особенно тем фактом, что теперь каждую неделю по дирекции будет очень чёткая аналитика без приминения ручного труда и ошибок.
👍3
Ответы на базовые вопросы по Machine Learning, часть 3
Сложно ли делать тот самый machine learning?
Делать его максимально просто. Дело в том, что за машинным обучением стоят библиотеки, которые вы применяете во время своих вычислений. Эти самые библиотеки производят вычисления за вас, так что вам остаётся только понять где и какую библиотеку лучше применить. Например, чтобы решить классический кейс "Какой именно пассажир Титаника спасётся?" обычно применяют библиотеку scikit learn. Прикрепляю картинку как это работает (ниже)
Сложно ли делать тот самый machine learning?
Делать его максимально просто. Дело в том, что за машинным обучением стоят библиотеки, которые вы применяете во время своих вычислений. Эти самые библиотеки производят вычисления за вас, так что вам остаётся только понять где и какую библиотеку лучше применить. Например, чтобы решить классический кейс "Какой именно пассажир Титаника спасётся?" обычно применяют библиотеку scikit learn. Прикрепляю картинку как это работает (ниже)
Ещё немного про библиотеки Python.
Самой популярной библиотекой для анализа данных является pandas. С её помощью вы можете импортировать в Python .csv файлик и привести его в привычный для большинства вид таблицы типа Excel. Библиотека сравнительно новая: её разработка началась в 2012 году.
Самой популярной библиотекой для анализа данных является pandas. С её помощью вы можете импортировать в Python .csv файлик и привести его в привычный для большинства вид таблицы типа Excel. Библиотека сравнительно новая: её разработка началась в 2012 году.
За машинным обучением и аналитикой данных стоят реальные люди и принимаемые ими решения. Зачастую надо понимать не только цифры, но и устройство мира: экономика, политика, социология и другие ресурсы призваны в этом помочь. Лично я много читаю bloomberg, the economist, damodaran, business insider, zerohedge. Есть и другие ресурсы, которые помогут вам расширить свой кругозор. Недавно нашёл классную картинку про иностранные СМИ. Смотрите далее.
Советую всем начинать работу с Python именно с установки Jupyter Notebook. Причин на это несколько: (1) очень удобно (2) формат ноутбуков поддерживается многими программами (3) в него уже встроены основные библиотеки - значит не надо заморачиваться с установкой! 😉
Дамы и господа, хочу сообщить одну маленькую новость: я меняю место работы и ухожу заниматься старт-апом. Моими инвесторами выступают крупнейшие компании США, а штат моих работников - программистов уже укомплектован ребятами из Калифорнии, Лондона и Москвы. Мы будем создавать искуственный интеллект для банковского сектора. На мне полное управление компанией и доля в бизнесе. В связи с этим я обещаю писать больше и интереснее! Надеюсь, кроме кода вам будет интересно узнать про продажи и то, как мыслит российский топ-менеджмент. Поехали!
👍1