У людей с математическим складом ума очень сложно с общением и верхнеуровневым мышлением. Я стал замечать это давно. Человек очень круто понимает суть какого-то предмета, но не видит всей картины, потому что мало общается с окружающими. Отсюда возникает огромное количество проблем, связанных с конечной производительностью труда. Математики очень нужны современному миру - они двигают его вперёд и их труд в бизнесе хорошо оплачивается, но бизнес расцветает, когда soft skills встречаются с hard skills и поэтому нужна синергия с гуманитарными и творческими науками.
👍2
Сегодня расскажу о Джини. Это такой показатель, с помощью которого меряют предсказательную силу модели или её отдельных факторов в задачах машинного обучения. Указывается в виде процента. Чем выше процент, тем лучше модель что-либо предсказывает. Вообще, этот коэффициент был изобретён экономистом Коррадо Джини в 1912 году, чтобы определять степень расслоения общества относительно их дохода.
Всё дело в выборке! Сегодня чтобы запустить сложный алгоритм machine learning достаточно просто написать одну строку кода. Всё остальное сделает библиотека, которую вы используете - напрягаться не надо, надо просто понимать где какую библиотеку использовать. Если всё так просто, почему дата саентисты получают большие деньги и так ценятся среди работодателей? Вся суть кроется в данных, на которых вы запускаете алгоритм. Если они кривые - будут кривые результаты машинного обучения, поэтому 90% времени дата саентисты проводят за очисткой и обработкой данных. Эта задача не всегда требует высоко интеллекта от своего исполнителя, от этого у дата саентистов (которые считают себя элитой среди людей здесь и сейчас) часто пригорает и они работают медленно и неохотно, мол "пусть кто-нибудь другой делает за меня это дерьмо, я слишком умён для этого": они ругаются, но делают.
Кандидаты разлетаются как горячие пирожки. Уже полтора месяца не могу найти себе Junior Data Scientist. Ребята, которые присылают резюме становятся не актуальными уже через неделю - так быстро находят работу! Не могу понять, что делать в такой ситуации: может быть, брать в штат без интервью и тестов? Просто смотреть на образование и хватать, пока есть? Это, конечно, шутка, но ситуация выглядит нездорово и напоминает крипто-бум два года назад, только сейчас вместо биткоина это датасаентисты.
👍1
Сегодня возвращается владелец нашего супер-стартапа. Отдыхал 2 недели в Испании, при этом первую неделю всегда был на связи и каждый день созванивался со мной на 15-30 минут, чтобы обсудить основные моменты. К чему я это? Когда ты создаёшь свой бизнес, ты должен быть готов, что твоё время не сможет чётко разделяться на работу и отдых. Ты всегда должен держать руку на пульсе. Построить своё дело на принципе "оно же автоматические работает, мне ничего не нужно делать", "это же код, всё работает, ничего не сломается" - это миф, как и сказки про "пассивный доход".
Разработка - процесс постоянный! Допустим, вы написали код, который классно работает и даёт высокий показатель Джини. Думаете на этом можно закончить? НЕТ. Модель требует постоянной поддержки и переобучения. Допустим, вы сделали ИИ, который принимает решение стоит ли выдавать кредит физическому лицу. Прошло два года: половина источников данных отвалилось, потому что теперь вместо 4 столбцов в привычной таблице на сайте ФНС их вдруг стало 6, а один из провайдеров данных по API вдруг решил изменить аттрибуты запросов. Кроме того, экономическая ситуация изменилась, и теперь потребителей надо судить не по их текущему балансу в рублях, а в евро (например).
Habr
Коэффициент Джини. Из экономики в машинное обучение
Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики....
В общем, с машинным обучением и ИИ расслабляться нельзя! Надо держать руку на пульсе и заново разрабатывать модель раз в какой-то срок. У меня это два года.
Он позволяет определить, насколько пропорциональная изменчивость двух переменных. Грубо говоря, насколько вероятно, что если изменится А, то изменится и В. Объясняя картинку сверху: если коэффициент равен 1, значит данные А и В - это по сути одно и то же. Если 0, то признаки никак не зависят друг от друга. -1 значит отрицательное отношение: чем больше А, тем меньше В. Например, мы решили взять продолжительность жизни по годам и расходы на здравоохранение на душу населения за тот же период. Корреляция этих двух признаков равна 0,6 (или 60%), значит чем больше расходы - тем больше продолжительность жизни. Корреляция нужна в машинном обучении прежде всего, чтобы отсеивать дублирующие друг друга признаки.
Новая рубрика нейросеть дня: ИИ для обнаружения паразитов на голове лосося. Нейросеть будет сканировать головы рыб, составляя индивидуальные медицинские карточки каждой из них. Сумасшествие? Нет! Будущее!
Bloomberg.com
Salmon Farmers Are Scanning Fish Faces to Fight Killer Lice
New technology will use facial recognition to build individual medical records for millions of fish.
Без SQL не нужен Python / R. Сегодня хотел бы затронуть важную тему: с какого из вышеперечисленных языков лучше начинать? Здесь всё зависит от ситуации. Например, вы работаете в консалтинге и все данные вам приносят готовыми на блюдечке - в такой ситуации SQL и правда не нужен. Другое дело, если вы работаете "в индустрии" (то есть не в консалтинге), и чтобы получить данные вам приходится ждать очереди в BI по 2-3 недели - в такой ситуации проще запросить права доступа к базам данных и начать работать самому.
Без SQL не нужен Python / R. Part 2. Продолжая рассуждения по теме, скажу, что у SQL есть входные барьеры. Пример 1. У вашей организации 100500 баз данных, нету нормального описация таблиц - без главы BI хрен разберёшься что и где лежит. Пример 2. Вы можете получить доступ к базе Х, но не можете получить доступ к базам У и Й по каким-то политическим причинам, а без них у вас не получится провести нормальный анализ. Пример 3. Вы хорошо закорешились с аналитиком из BI, и он отвечает на ваши запросы в тот же день в телеграме. Пример 4. Вы не уверены, что правильно написали код. В таком случае вы можете просто нагрузить базу данных (она даже может перестать работать на время), вас отругают и лишат прав доступа.
👍2
Как выходят обновления. Так исторически сложилось, что каждое обновление IT продукта (в том числе созданное на машинном обучении) надо как следует протестировать перед тем, как "вывешивать" на основной сайт. Поэтому обычно есть три версии продукта (сайта / приложения):
Development - среда для разработки. Так сказать, черновик. Обычно он превращается в полный пипец через пару лет и его надо иногда удалять и ставить сюда Production или Staging версии.
Staging - место, в которое пропускают уже хорошо работающие фичи, но с правом всё похерить.
Production - то, чем пользуются клиенты. Чистовик - продукт - лицо компании.
Development - среда для разработки. Так сказать, черновик. Обычно он превращается в полный пипец через пару лет и его надо иногда удалять и ставить сюда Production или Staging версии.
Staging - место, в которое пропускают уже хорошо работающие фичи, но с правом всё похерить.
Production - то, чем пользуются клиенты. Чистовик - продукт - лицо компании.
Не переобучи! Модель на основе машинного обучения легко можно переобучить. Что это значит? Для примера приведу ситуацию с лабораторной мышкой, потому что искуственный интеллект работает примерно так же, как и самый настоящий (пусть и примитивный) интеллект живого существа. Допустим, мы поставим две кормушки в одной клетке. Когда мышка пьёт из правой кормушки - её немного ударяет током. Если пьёт из левой - всё хорошо. Со временем мышка будет пить только из левой кормушки, потому что когда тебя бьёт током - это не очень приятно. Теперь запустим эту мышку в другую клетку тоже с двумя кормушками, но теперь бить током будет только левая. Мышка, конечно, сразу кинется к ней и её ударит током, потому что раньше она не была в этой клетке, и поэтому её "машинное обучение" происходило на небольшой выборке клеток, и она переобучилась.
👍1
Переобучение происходит из-за того, что дата саентист неправильно составил выборку для разработки. Он не учёл, что возможны другие ситуации или у него просто не было источника данных, чтобы разнообразить выборку. Следите за своей выборкой!
Почему нам нужно машинное обучение? Ответ простой: только эти алгоритмы могут принимать решения на основе больших данных, когда человек просто может не выявить связи между отдельными элементами цифровой инфраструктуры. Но что такое больше данные? Понятие «Big Data» может подразумевать разные вещи в зависимости от отрасли или специфики деятельности конкретной организации, в целом под этим термином подразумевается информация, которую нельзя обработать с помощью традиционных процессов и инструментов.
Люди боятся. Я перестал говорить людям, которым продаю свои продукты, что они сделаны на основе искусственного интеллекта. И знаете почему? Людям становится страшно. Когда они видят результаты и сравнивают их со своими, то получается, что их работа, ещё недавно считавшаяся высоко интеллектуальной, может выполняться алгоритмом без человеческого вмешательства. Само словосочетание ИИ пугает, как когда-то человечество испытывало страх от внедрения первых станков, автоматизирующих ручной труд. Для людей сейчас продажа продукта на основе ИИ равносильна предложению уволить их и заменить роботом. Поэтому теперь я говорю, что это просто умный движок, и никогда не заикаюсь про искуственный интеллект и машинное обучение.
👍1
Object Detection for Dummies - серия постов от Lilian Weng (OpenAI), детально рассматривающих различные подходы к задаче детекции объектов.
Часть 1: https://vk.cc/9crkHs
Часть 2: https://vk.cc/9nnptr
Часть 3: https://vk.cc/8c2pqt
Часть 4: https://vk.cc/9nnpJI
Часть 1: https://vk.cc/9crkHs
Часть 2: https://vk.cc/9nnptr
Часть 3: https://vk.cc/8c2pqt
Часть 4: https://vk.cc/9nnpJI
Ребята, кто хочет работать в Google, Facebook или LinkedIn? Эта статья для вас, ведь сразу после томного интервью вас наверняка попросят сделать задачу с графами. Что это за штуки? Чаще всего это определение связей между людьми по их профилям в интернете, но графы также можно использовать для задачек, связанных с картами и связями между юридическими лицами. Читайте далее по ссылке.
freeCodeCamp.org
A Gentle Introduction to Data Structures: How Graphs Work
by Michael Olorunnisola A Gentle Introduction to Data Structures: How Graphs Work Source: TheNextWeb [http://thenextweb.com/facebook/2013/01/15/facebook-introduces-graph-search/]So who wants to work at Google, Facebook, or maybe LinkedIn? Beyond their grueling…
К какому типу вы отнесёте данный канал? (по мотивам картинки выше)
Anonymous Poll
24%
Как мы видим, тут всё очевидно!
45%
А-А-А-А-А-А-А-А-А-А-А-А-А-аааа!!!!! Датасаенс!!!
32%
А-А-А-А-аааа!!!!! Тут всё очевидно!