ГОРЬКАЯ ПРАВДА О РАБОТЕ В DATA SCIENCE
1. Данные никогда не бывают чистыми.
2. Большую часть времени вы потратите на очистку, разметку и подготовку данных.
3. 95% задач не требуют глубокого обучения.
4. В 90% случаев помогает обобщённая линейная регрессия.
5. Большие данные — это лишь инструмент.
6. Никого не волнует, как вы это сделали.
7. Академия и бизнес — два разных мира.
8. Презентация является архиважным моментом — станьте мастером Power Point.
9. Все модели ложны, но некоторые из них полезны.
10. Не существует полностью автоматизированной науки о данных. Вам нужно запачкать руки, работая с ней.
Желаете продолжить список?
Пишите номера, с которыми согласны/ не согласны👇
1. Данные никогда не бывают чистыми.
2. Большую часть времени вы потратите на очистку, разметку и подготовку данных.
3. 95% задач не требуют глубокого обучения.
4. В 90% случаев помогает обобщённая линейная регрессия.
5. Большие данные — это лишь инструмент.
6. Никого не волнует, как вы это сделали.
7. Академия и бизнес — два разных мира.
8. Презентация является архиважным моментом — станьте мастером Power Point.
9. Все модели ложны, но некоторые из них полезны.
10. Не существует полностью автоматизированной науки о данных. Вам нужно запачкать руки, работая с ней.
Желаете продолжить список?
Пишите номера, с которыми согласны/ не согласны👇
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ЭТО НЕ НАУЧНАЯ ФАНТАСТИКА
🖱Необходимо помнить о том, что ИИ – это технология.
❗️Ни одна технология не способна очень быстро и резко изменить нашу жизнь к лучшему.
Давайте разберемся, что в этой области реально, а что нет, что мы можем ожидать от ИИ и его практического применения.
❗️❗️Реально:❗️❗️
🌀Оптимизировать процессы, которые имеют историю. При этом оптимизация возможна только на 5–10%.
🌀Выявлять отличия и аномалии в «нормальном» потоке данных.
🌀Автоматизировать рутинную работу, выполняемую человеком.
❓❓Не реально:❓❓
🌀Предсказать то, чему не было аналогов в прошлом.
🌀Получать решения на малом объеме данных.
🌀Приобретать новые знания, улучшать понимание
🖱Необходимо помнить о том, что ИИ – это технология.
❗️Ни одна технология не способна очень быстро и резко изменить нашу жизнь к лучшему.
Давайте разберемся, что в этой области реально, а что нет, что мы можем ожидать от ИИ и его практического применения.
❗️❗️Реально:❗️❗️
🌀Оптимизировать процессы, которые имеют историю. При этом оптимизация возможна только на 5–10%.
🌀Выявлять отличия и аномалии в «нормальном» потоке данных.
🌀Автоматизировать рутинную работу, выполняемую человеком.
❓❓Не реально:❓❓
🌀Предсказать то, чему не было аналогов в прошлом.
🌀Получать решения на малом объеме данных.
🌀Приобретать новые знания, улучшать понимание
Где работать с данными с помощью Python?
Anaconda — дистрибутив Python, предоставляет все необходимое по анализу и обработке данных. Требует установки на ПК.
PyCharm — (Integrated Development Environment) - IDE для профессиональной разработки на Python. Входит в Anaconda.
Jupyter Notebook — это мощный инструмент для разработки и представления проектов DS в интерактивном виде. Он объединяет код и вывод все в виде одного документа, содержащего текст, математические уравнения и визуализации. Входит в Anaconda.
Kaggle Notebook — аналогично jupyter, но расположено на платформе Kaggle и доступно через браузер, ничего скачивать и устанавливать на ПК не нужно. Плюс предоставляются хорошие мощности для обучения моделей.
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook. Предоставляет всё необходимое для машинного обучения прямо в браузере, даёт бесплатный доступ к невероятно быстрым GPU и TPU.
Datalore — это онлайн-блокнот для Data Science c функциями умного редактора кода, доступна командная работа. Это что-то вроде Google colab + Pycharm.
Также есть в Anaconda с 2020.
Какими инструментами пользуетесь вы?
Anaconda — дистрибутив Python, предоставляет все необходимое по анализу и обработке данных. Требует установки на ПК.
PyCharm — (Integrated Development Environment) - IDE для профессиональной разработки на Python. Входит в Anaconda.
Jupyter Notebook — это мощный инструмент для разработки и представления проектов DS в интерактивном виде. Он объединяет код и вывод все в виде одного документа, содержащего текст, математические уравнения и визуализации. Входит в Anaconda.
Kaggle Notebook — аналогично jupyter, но расположено на платформе Kaggle и доступно через браузер, ничего скачивать и устанавливать на ПК не нужно. Плюс предоставляются хорошие мощности для обучения моделей.
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook. Предоставляет всё необходимое для машинного обучения прямо в браузере, даёт бесплатный доступ к невероятно быстрым GPU и TPU.
Datalore — это онлайн-блокнот для Data Science c функциями умного редактора кода, доступна командная работа. Это что-то вроде Google colab + Pycharm.
Также есть в Anaconda с 2020.
Какими инструментами пользуетесь вы?
ЗАЧЕМ РАЗРАБАТЫВАТЬ AI/ML/CV — ПРОДУКТЫ?
Для ответа на этот вопрос достаточно взглянуть на исследование, посвящённое использованию AI-технологий от McKinsey.
❓Верите сухим цифрам или думаете это все мыльный пузырь?🧼
Для ответа на этот вопрос достаточно взглянуть на исследование, посвящённое использованию AI-технологий от McKinsey.
•
Использование AI в стандартных бизнес-процессах выросло на 25% по сравнению с прошлым годом. Показатель применения AI в мире составил 58%. •
63% внедривших AI сообщили об увеличении выручки. Топ-области: маркетинг (ценообразование, прогнозирование вероятности покупки и анализ обслуживания клиентов) и продажи, разработка продуктов и услуг, логистика (прогнозирование продаж и спроса, анализ трат). •
44% заявили о снижении расходов. Топ-области: производство, логистика и сервис. •
74% респондентов, чьи компании внедрили или планируют внедрить AI, заявили, что их организации увеличат инвестиции в AI в течение следующих трёх лет (в среднем на 10–30%). •
Требования к специалистам также растут.❓Верите сухим цифрам или думаете это все мыльный пузырь?🧼
McKinsey & Company
Global AI Survey: AI proves its worth, but few scale impact
Most companies report measurable benefits from AI where it has been deployed; however, much work remains to scale impact, manage risks, and retrain the workforce. A group of high performers with AI capabilities show the way.
● Лекции специалистов Samsung Innovation Campus об искусственном интеллекте и машинном обучении
YouTube
Лекции по AI
Share your videos with friends, family, and the world
Forwarded from эйай ньюз
Тут один уважаемый член нашего сообщества Франсуа Холе, который изобрел Keras и XceptionNet, говорит, что через 10-20 лет каждая область науки будет подобластью Computer Science. Вычислительная физика, компьютерная химия, компьютерная биология, компьютерная медицина ... Даже компьютерная археология. Симуляции, анализ больших данных и машинное обучение будут повсюду.
Я частично с ним согласен. Смотря на темпы развития машинного обучения и компьютеризации всего и вся, нетрудно представить, что базовые умения в азы программирования и AI нужны будут почти любому интеллигентному человеку, а тем более ученому.
Из забавного, Франсуа говорит, что доменные знание будут так же релевантны как сейчас, скажем, релевантно знание лингвистики для чела, который занимается Neural Language Processing и обучает всякие Берты и GPT лол.
Такое предсказание может показаться диким, но ведь также мало кто мог представить в 2000 году, что почти все крупные компании к 2020 будут в той или иной степени IT-компаниями.
Я частично с ним согласен. Смотря на темпы развития машинного обучения и компьютеризации всего и вся, нетрудно представить, что базовые умения в азы программирования и AI нужны будут почти любому интеллигентному человеку, а тем более ученому.
Из забавного, Франсуа говорит, что доменные знание будут так же релевантны как сейчас, скажем, релевантно знание лингвистики для чела, который занимается Neural Language Processing и обучает всякие Берты и GPT лол.
Такое предсказание может показаться диким, но ведь также мало кто мог представить в 2000 году, что почти все крупные компании к 2020 будут в той или иной степени IT-компаниями.
Data Fest возвращается! 🎉 Data Fest Online 2021 откроется уже 22 мая 🤩
Как и прошлой осенью вас ждут:
🍿 Целый день премьер и прямых включений из зоопарка с топовыми ведущими из ODS, плюс ваши любимые мохнатые и пернатые соведущие. Специальный гость - маленький медведь Потап 🐻
🤝 Море нетворкинга в Spatial Chat: десятки комнат по интересам со всеми полюбившимися и принципиально новыми форматами
💣 Десятки треков от сообщества и партнёров феста с докладами топовых спикеров и практическими заданиями для всех зарегистрированных участников
🎁 Ещё куча новых крутых штук 😉
Регистрируйтесь, чтобы получить доступ ко всем активностям Data Fest. До встречи!
Как и прошлой осенью вас ждут:
🍿 Целый день премьер и прямых включений из зоопарка с топовыми ведущими из ODS, плюс ваши любимые мохнатые и пернатые соведущие. Специальный гость - маленький медведь Потап 🐻
🤝 Море нетворкинга в Spatial Chat: десятки комнат по интересам со всеми полюбившимися и принципиально новыми форматами
💣 Десятки треков от сообщества и партнёров феста с докладами топовых спикеров и практическими заданиями для всех зарегистрированных участников
🎁 Ещё куча новых крутых штук 😉
Регистрируйтесь, чтобы получить доступ ко всем активностям Data Fest. До встречи!
С ЧЕГО НАЧИНАЕТСЯ СОЗДАНИЕ AI/ML ПРОДУКТОВ
🦾Создание продуктов на основе искусственного интеллекта/ машинного обучения следует начинать с конца: необходимо описать всю картину в целом, и только потом углубляться и решать отдельные аспекты.
🗾Для этого создали специальную “таблицу” — Machine Learning Canvas — такой некий roadmap, чтобы ничего не забыть.
⁉️Для чего используется ML Canvas?
❗️ОПИСАНИЯ ИДЕИ В ЦЕЛОМ
Какую ML систему вы делаете, какую ценность это будет приносить конечным пользователям, на каких данных будите обучаться и как вы будете измерять результаты и работоспособность.
❗️ЕДИНСТВА ПОНИМАНИЯ У ВСЕЙ КОМАНДЫ
Создание высокопроизводительных систем ML, как правило, включает в себя различные роли: инжиниринг, продукт, бизнес, data science. Важно, чтобы все видели конечную цель и работали в одном направлении, а для этого ML Canvas лучший ориентир.
❗️ПОДГОТОВКИ РЕАЛИЗАЦИИ
ML Canvas позволяет прогнозировать затраты, выявлять узкие места, определять требования и создавать дорожную карту.
⁉️У кого есть опыт использования ML Canvas или кому кажется это полезным, жду вас в комментариях👇
🦾Создание продуктов на основе искусственного интеллекта/ машинного обучения следует начинать с конца: необходимо описать всю картину в целом, и только потом углубляться и решать отдельные аспекты.
🗾Для этого создали специальную “таблицу” — Machine Learning Canvas — такой некий roadmap, чтобы ничего не забыть.
⁉️Для чего используется ML Canvas?
❗️ОПИСАНИЯ ИДЕИ В ЦЕЛОМ
Какую ML систему вы делаете, какую ценность это будет приносить конечным пользователям, на каких данных будите обучаться и как вы будете измерять результаты и работоспособность.
❗️ЕДИНСТВА ПОНИМАНИЯ У ВСЕЙ КОМАНДЫ
Создание высокопроизводительных систем ML, как правило, включает в себя различные роли: инжиниринг, продукт, бизнес, data science. Важно, чтобы все видели конечную цель и работали в одном направлении, а для этого ML Canvas лучший ориентир.
❗️ПОДГОТОВКИ РЕАЛИЗАЦИИ
ML Canvas позволяет прогнозировать затраты, выявлять узкие места, определять требования и создавать дорожную карту.
⁉️У кого есть опыт использования ML Canvas или кому кажется это полезным, жду вас в комментариях👇
РОЛЬ ВИЗУАЛИЗАЦИИ В XXI
📊Визуальное мышление начинает брать верх во всех формах коммуникации. Мы все чаще пользуемся смартфонами как фотокамерами и предпочитаем делать фотографии, а не делиться описаниями.
🌍 Мы думаем, работаем, взаимодействуем с незнакомыми людьми по всему миру, а потому все больше полагаемся на технологии, позволяющие преодолеть языковые барьеры.
📈Благодаря сочетанию вербальных и графических средств, отражению мыслительного процесса, логического и творческого результата визуальные представления представляют собой идеальный инструмент мышления в условиях глобализированного XXI века.
Тони Бьюзен
⁉️Что предпочитаете вы: описать или показать что-либо ?
📊Визуальное мышление начинает брать верх во всех формах коммуникации. Мы все чаще пользуемся смартфонами как фотокамерами и предпочитаем делать фотографии, а не делиться описаниями.
🌍 Мы думаем, работаем, взаимодействуем с незнакомыми людьми по всему миру, а потому все больше полагаемся на технологии, позволяющие преодолеть языковые барьеры.
📈Благодаря сочетанию вербальных и графических средств, отражению мыслительного процесса, логического и творческого результата визуальные представления представляют собой идеальный инструмент мышления в условиях глобализированного XXI века.
Тони Бьюзен
⁉️Что предпочитаете вы: описать или показать что-либо ?
ИСТИННАЯ ЦЕННОСТЬ ДАННЫХ
🤯Чем больше работаю с машинным обучением/ искусственным интеллектом , изучаю data science в целом, тем более четко понимаю истинную ценность данных и технологий вокруг них.
🤖Большинство стремятся к оптимизации за счёт анализа данных, хотя иногда хороший менеджер с меньшими затратами может улучшить/ наладить бизнес процессы и привести к лучшим результатам.
🤑Другие пытаются продавать накопленные данные или модели, построенные на них — ещё один способ монетизации;
📈Я же вижу реальные результаты у тех компаний, которые не просто занимаются оптимизацией процессов за счёт данных, а которые на 100% завязаны на данные, становятся big data ориентированными, у которых информационные технологии в прерогативе.
🚕Такие компании могут вести как классический бизнес, так и информационный — Яндекс, айти компания, а ещё такси/ доставка и т.д; Сбербанк, уже не просто банк, а айти компания, а так же Тинькофф.
⁉️В будущем всем компаниям придётся стать айти направленными, что думаете?
🤯Чем больше работаю с машинным обучением/ искусственным интеллектом , изучаю data science в целом, тем более четко понимаю истинную ценность данных и технологий вокруг них.
🤖Большинство стремятся к оптимизации за счёт анализа данных, хотя иногда хороший менеджер с меньшими затратами может улучшить/ наладить бизнес процессы и привести к лучшим результатам.
🤑Другие пытаются продавать накопленные данные или модели, построенные на них — ещё один способ монетизации;
📈Я же вижу реальные результаты у тех компаний, которые не просто занимаются оптимизацией процессов за счёт данных, а которые на 100% завязаны на данные, становятся big data ориентированными, у которых информационные технологии в прерогативе.
🚕Такие компании могут вести как классический бизнес, так и информационный — Яндекс, айти компания, а ещё такси/ доставка и т.д; Сбербанк, уже не просто банк, а айти компания, а так же Тинькофф.
⁉️В будущем всем компаниям придётся стать айти направленными, что думаете?
ТИПИЧНЫЕ ОШИБКИ ПРИ ВНЕДРЕНИИ AI
⁉️Дополните список??
•
Неверная постановка задачи •
Плохо проведённое бета-тестирование •
Завышенные ожидания от новых технологий •
Несистемные, точечные внедрения •
Нежелание закрыть неудачный пилотный проект •
Нехватка компетенций и попытка справиться собственными силами •
Недостаточная коммуникация между заказчиком и исполнителем⁉️Дополните список??
ГДЕ ЕЩЁ НУЖЕН НАВЫК РАБОТЫ С ДАННЫМИ?
👩🏼🏫Еще одна достаточно новая профессия —ДАТА ЖУРНАЛИСТИКА.
📰Направление в журналистике, основанное на обработке открытых данных и их эффективном использовании — для раскрытия историй или создания медиаматериалов с нуля.
👨💼Подойдёт гуманитариями, которые хотят работать с данными.
👩🏼💻Но все-равно придётся изучать Python и Power BI, потому что парсить, извлекать данные надо, рисовать визуализации вообще must have.
🤯Иной раз мне кажется, что данные нас просто поглощают и скоро не будет ни одной профессии, где не будет требоваться навык работы с данными.
👩🔬Product / project менеджерам, медиа-менеджерам, PR-специалистам, журналистам, контент-маркетологам, блогерам - уже давно пара осваивать инструменты для работы с данными.
⁉️А вам часто приходится работать с данными?
👩🏼🏫Еще одна достаточно новая профессия —ДАТА ЖУРНАЛИСТИКА.
📰Направление в журналистике, основанное на обработке открытых данных и их эффективном использовании — для раскрытия историй или создания медиаматериалов с нуля.
👨💼Подойдёт гуманитариями, которые хотят работать с данными.
👩🏼💻Но все-равно придётся изучать Python и Power BI, потому что парсить, извлекать данные надо, рисовать визуализации вообще must have.
🤯Иной раз мне кажется, что данные нас просто поглощают и скоро не будет ни одной профессии, где не будет требоваться навык работы с данными.
👩🔬Product / project менеджерам, медиа-менеджерам, PR-специалистам, журналистам, контент-маркетологам, блогерам - уже давно пара осваивать инструменты для работы с данными.
⁉️А вам часто приходится работать с данными?