DataWorkshop - AI & ML
1.92K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Как решать реальные бизнес-проблемы с помощью ML/AI?Разберем сегодня на вебинаре на примере прогнозирования цен на энергию 😎

Начинаем через час - https://www.youtube.com/watch?v=yBP9nC7xly0

Вебинар останется в записи, но намного лучше быть с нами онлайн 🙂
👍52🔥2
К последнему видео-ответу - “Какой процент задач можно решить с помощью машинного обучения” поступил такой вопрос:

А в embed-разработке какие задачи с помощью машинного обучения можно решать?

Отвечаем:
Если речь идет о маленьких компьютерах, таких как встраиваемые системы (embedded systems), то машинное обучение также может быть использовано для решения различных задач. Вот некоторые из них:

✔️Классификация и распознавание: Машинное обучение может использоваться для классификации и распознавания объектов или образцов в реальном времени на встраиваемых системах. Например, система видеонаблюдения может использовать машинное обучение для распознавания лиц или обнаружения объектов.

✔️Прогнозирование и предсказание: Машинное обучение может помочь в создании моделей, которые могут анализировать данные и предсказывать будущие значения или события. Например, встраиваемая система умного дома может использовать машинное обучение для прогнозирования энергопотребления или оптимизации ресурсов.

✔️Оптимизация и управление: Машинное обучение может помочь в разработке алгоритмов оптимизации и управления встраиваемыми системами. Например, в автономных роботах машинное обучение может быть использовано для оптимизации маршрутов или адаптивного управления движением.

✔️Анализ сигналов и обработка данных: Машинное обучение может быть применено для анализа сигналов и обработки данных на встраиваемых системах. Например, в медицинском оборудовании машинное обучение может помочь в анализе сигналов ЭКГ или обработке изображений для диагностики.

✔️Определение аномалий: Машинное обучение может использоваться для обнаружения аномалий или необычных ситуаций в работе встраиваемых систем. Например, система мониторинга может использовать машинное обучение для обнаружения нештатных ситуаций или возможных сбоев.

Встраиваемые системы с машинным обучением могут быть полезны во многих областях, от медицины и промышленности до автомобильной промышленности и умного дома. Они позволяют создавать более интеллектуальные и автономные системы, способные принимать решения и адаптироваться к изменяющимся условиям.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1
🔥 Мир найма переживает быстрые изменения, поскольку искусственный интеллект широко внедряется в различные отрасли.

Согласно недавнему опросу, проведенному американской компанией Resume Builder и описанному в Fox Business, уже 10% компаний используют AI-собеседования при отборе кандидатов.

Однако, что еще более удивительно, ожидается, что к 2024 году этот показатель значительно вырастет и составит более 43% компаний.

🤖 Но прежде чем Ты подумаешь, что придется сталкиваться только с ботами на собеседованиях, стоит отметить, что компании не планируют полностью передать решение о приеме на плечи искусственного интеллекта.

Согласно тому же отчету, 80% AI-собеседований используются для предварительного отбора кандидатов, а всего 15% оказывают влияние на окончательное решение.


Цель использования AI-собеседований заключается в повышении эффективности и оптимизации всего процесса подбора персонала. Как известно всем, кто проходил через процесс собеседования, компании могут различаться по эффективности этапов отбора.

Еще одной причиной, почему искусственный интеллект не займет весь процесс, является опасение возможных предвзятостей.

А по ссылке ниже можно посмотреть ответ на вопрос - сколько нужно учиться на Data Scientist-a 🙂 https://youtu.be/MVPAt7I09U4

@data_work
🔥31👍1
Праздники закончились? Пора возвращаться к AI/LLM!

Закрытый тренинг уже провел, где постарался объяснить важные вещи, которые происходят сейчас, а также поделился ключевыми выводами. Отзывы были отличные!

А сегодня поделюсь с тобой свежим кейсом.

🔥 История из практики:
Вчера ко мне обратился опытный системный аналитик с вопросом: "Можно ли использовать LLM для работы с документацией?" В голосе слышался скепсис, но чувствовалась надежда.

Моя реакция? Ну конечно же! Это уже глупо не использовать...

Что сделали:
1️⃣ Четко сформулировали задачу (здесь аналитик — молодец, ну я подсказывал 😇)
2️⃣ Взяли конкретные примеры документов
3️⃣ Применили LLM (5 секунд ожидания — и вот результат)

Результат?
То, что обычно занимало 6–8 часов, мы сделали за 15 минут. Даже если добавить еще 15 минут на проверку, всё равно это невероятно круто!

💡 Ключевой момент:
Роль специалиста меняется (не только системного аналитика, вообще - роли в ИТ и других отраслях). Сегодня важно научиться использовать LLM профессионально:

- Уметь правильно ставить задачи, чтобы получать нужный результат.
- Разбираться в сильных и слабых сторонах разных моделей (на курсе будет доступ к 70+ моделям).


По большему счету выбор за Тобой что сделать с этой информацией:
Можно переживать, что рынок меняется (а он действительно меняется и это происходит быстро), и рисковать остаться за бортом. А можно возглавить изменения, добавив технологии к своему опыту.

Моя роль (и миссия DataWorkshop) — быть проводником в мир практического ML/AI. В DataWorkshop уже обучили более 3000 человек в разных странах, включая компании из списка Fortune 500. Важно, мы сразу учимся на практике, через свои внутрение проекты, потом сотрудничаем с Партнерами и потом передаю опыт того что работает. Это выжимка умноженная на мой более 10 летний практический опыт работы с ML.

🔥 Интересны такие истории?
Могу делиться кейсами подробнее (есть более сложные проекты, на прошлой неделе закончили проект для логистики - учили сдавать экзамен на специалиста - спойлер: экзамен сдан). Поставь 🔥, если хочешь больше примеров или даже вебинар на эту тему.

#llm #dataworkshop
@data_work
🔥23
Продукты LLM: чтобы работало + и еще вызывало доверие. Как это соединить? Работа с LLM — это не просто выполнение простых команд.

Я уже набил много шишек с LLM и хочу поделиться тем, что мы разработали в лаборатории DataWorkshop, а не тем, что можно найти в интернете. Это практические знания из первых рук. Хотя, на свои грабли всё равно придётся наступить.

Это первый из серии постов. Следи за новыми постами, комментируй (кстати добавил такую возможность), делись, чтобы не пропустить то, что действительно важно! Твоя энергия важна, чтобы поддерживать  у меня мотивацию делиться этим дальше. Если это важно для Тебя я буду еще больше стараться 😊

Начинаем!

Разговор с LLM начинается с простых инструкций:
--> Напиши стихотворение
--> Посоветуй 5 лучших книг о...

После простых промптов? Шаблоны. Давайте рассмотрим 5 самых популярных:

👉 R-I-S-E
Role: Ты создатель контента.
Input: Я собрал данные о нашей целевой аудитории, включая их интересы.
Steps: Предложи стратегию создания контента шаг за шагом.
Expectation: Увеличение трафика на 40% и укрепление бренда.

👉 R-T-F
Role: Маркетолог рекламы на Facebook.
Task: Разработай кампанию на Facebook для продвижения новой линии спортивной одежды.
Format: Создай сториборд с описанием последовательности рекламных креативов, включая тексты, визуализации и стратегию таргетинга.

👉 T-A-G
Task: Оценка эффективности членов команды.
Action: Выступи как непосредственный менеджер и проанализируй сильные и слабые стороны команды.
Goal: Повысить производительность команды, чтобы средний показатель удовлетворенности пользователей вырос с 6 до 7,5 в следующем квартале.

👉 B-A-B
Before: Наш сайт не отображается в результатах SEO.
After: Мы хотим попасть в топ-10 SEO в нашей нише за 90 дней.
Bridge: Разработай подробный план мониторинга действий и список из 20 ключевых слов.

👉 C-A-R-E
Context: Мы запускаем новую линию экологичной одежды.
Action: Создай целевую рекламную кампанию, подчеркивающую наше влияние на окружающую среду.
Result: Увеличение узнаваемости бренда и продаж.
Example: Кампания Patagonia "Don’t Buy This Jacket".

Да, эти шаблоны имеют свое место, особенно для быстрого мозгового штурма. Но достаточно ли этого для реального проекта?

Конечно, нет!

Компании часто начинают с наивных промптов и фреймворков (LangChain?). Этого недостаточно (или это антипаттерн). В DataWorkshop мы знаем, что важна точная структура + внедрение CoT и других, казалось бы, мелких, но критически важных нюансов.

P.S. Вчера DeepSeek R1 произвел впечатление! Тесты в нашей лаборатории на нашем leaderboard запущены. Подробнее об этом скоро...

@data_work
#llm #dataworkshop
🔥101👍1
👆👆👆

Буду рад встречи с людьми, которые разделяют этот практический, ориентированный на бизнес подход к ИИ. Если планируешь посетить мероприятие или будешь где-то рядом, давай встретимся, чтобы обменяться идеями или обсудить возможности сотрудничества.

Свяжитесь со мной, если хочешь встретится. Буду рад продуктивным обсуждениям и изучению последних достижений в сфере ИИ.

#AiEverything2025 #ArtificialIntelligence #DataWorkshop #PracticalAI #Innovation
👍6
В мире LLM происходит что-то... и это что-то грандиозное! 🔥 Гонка набирает обороты. Успеваешь следить? Расскажу кратко о самом важном.

1️⃣ Стартап DeepSeek, прозванный "убийцей" Nvidia (название преувеличенное, но мир инвестиций любит такие громкие заявления), вызвал падение её акций. Правда, модель r1 анонсировали 20 января, информация о результатах появилась 21 января, но реакция рынка последовала только 27 января. Кстати, в DataWorkshop LAB сразу стараемся запускать эксперименты и проверять потенциал на реальных примерах, и я сразу писал, что здесь происходит что-то важное. Вывод: стоит следить за моими публикациями :).

2️⃣ Китай объявил об инфраструктурном проекте ИИ "План развития новых отраслей ИИ", инвестируя около 140 миллиардов долларов, что в пересчёте на эффективность может соответствовать 500 миллиардам долларов в проекте Stargate. То есть битва только разворачивается.

3️⃣ И вчера DeepSeek снова удивил, опубликовав открытую модель Janus-Pro с мультимодальной авторегрессивной архитектурой, обрабатывающей текст, изображения и звук, которая показывает отличные результаты в бенчмарках, демо доступно на HF.

Конечно, появилось много мифов и искажённой информации. Поскольку DeepSeek стал мейнстримом, расскажу о некоторых из них.

Говорят, что DeepSeek - это "побочный" проект, кто-то на коленке получил супер-результат. Нет! Это неправда. DeepSeek поддерживается и управляется китайским хедж-фондом High-Flyer, который в 2020 году управлял активами стоимостью более 7 миллиардов долларов, а в команде работают олимпийские медалисты по математике, физике и информатике. У них есть оборудование, возможно меньше чем у OpenAI, Meta или Grok, но всё равно имеют 50k или больше H100 (или подобных карт), откуда они это взяли - другая история, но есть на чём тренировать модели LLM (это НЕ компания с 1-2 картами)... и ещё много интересного.

Расскажу ещё больше о DeepSeek, потому что этот чёрный лебедь наделал шума и меняет мир LLM и перспективу, прежде всего инвесторов. Ведь все эти громкие заявления от OpenAI были направлены в основном инвесторам, а тут такой шок.

Что думаешь по этому поводу?

Поделись как мнимум с одним человеком поставь реакцию 🙂


#llm #ai #deepseek #dataworkshop

@data_work
🔥18👍2
визуально, как это примерно выглядит 🤔

#llm #ai #deepseek #dataworkshop
@data_work
🤔41
На этой неделе было много встреч — 4 города, более 400 человек.

Говорил о практическом подходе к LLM: как строить системы с контролируемым качеством и управлять сложностями, которые неизбежно возникают при работе с LLM.

В DataWorkshop мы выработали 7 уровней погружения в LLM. Большинство людей находятся на первом и часто пытаются сразу прыгнуть на 4-й или 5-й. Это предсказуемо ведет к провалу. Важно идти по шагам.

За последние 2 года (и более 10 лет в ML) я провел сотни экспериментов, потратил тысячи часов работы и миллионы токенов, чтобы понять, что действительно работает. Большинство советов в интернете либо неэффективны, либо упускают важные детали.

Мы проверили все на реальных проектах, довели до практичности и на основе этого создали курс из 5 модулей, который показывает, как правильно работать с LLM.

🚀 Старт 24 февраля (понедельник). Присоединяйся!

#dataworkshop #llm #howto
🔥91
Закончился первый поток курса "Практический LLM". В нём прежде всего уделяется больше внимания тому, чтобы «держать качество под контролем» и фокусироваться на фундаменте, а не на поверхностных веяниях, которые всё равно меняются каждый день.

Почему это так важно? Вот пример того, как сейчас часто выглядит контроль качества диалогов чат-бота.

Всё это было бы смешно, если бы не было так грустно...

С одной стороны, так называемый AI быстро бежит вперёд. С другой -катастрофически не хватает здравого смысла и понимания, насколько важно поработать над фундаментом, вместо того чтобы ждать, что AI (да и любая другая технология) - это магия.

Всё равно нужно думать и грамотно планировать.

Хочешь научиться грамотно работать с LLM без всей этой маркетинговой шелухи?
Ставь реакцию 🔥 и напиши в комментарии, чему именно хочешь научиться - возможно, следующий поток будет как раз для тебя.

#course #llm #мысли #dataworkshop
🔥15
🚨 Вышла Llama 4 — проверил лично и делюсь впечатлениями! 🔥

TLDR: Давно ждал Llama 4 — и вот она внезапно вышла прямо в выходные (было чем заняться 😂). Могу точно сказать: модель мощная, быстрая, доступная по ресурсам (особенно по сравнению с альтернативами), а главное — стала гораздо лучше работать со структурированными задачами (structured output).

Первым делом проверил её именно на этом — справляется отлично. Очень рад, что развитие идёт именно в этом направлении, модель становится полезнее и применимее к реальным задачам. В общем, тот тренд, который я прогнозировал, продолжает реализовываться 💪

Теперь конкретно, по моделям:



#llama #llm #leaderboard #dataworkshop

@data_work

👇👇👇
🔥8👍1
👆👆👆 (часть 1)

Теперь конкретно, по моделям:

1️⃣ Llama 4 Scout: Это «младшая» версия с 109 млрд параметров, из которых активны одновременно только 17 млрд, благодаря новой архитектуре MoE (Mixture of Experts с 16 экспертами). Огромный плюс — супердлинный контекст до 10 миллионов токенов! Идеален для анализа больших документов, текстов или даже длинных видео. Scout мультимодален (текст + изображение), и при квантовании в int4 его реально запустить даже на одной видеокарте типа H100.

2️⃣ Llama 4 Maverick: Это уже версия посерьезнее — 400 млрд параметров (активны тоже 17 млрд, но уже целых 128 экспертов!). Контекст до 1 миллиона токенов, также мультимодален (текст + изображение). Показатели действительно топовые, смело может конкурировать с GPT-4o по ряду задач. Версия FP8 оптимизирована под запуск на одном серверном узле с 8xH100.

3️⃣ Llama 4 Behemoth (2 триллиона параметров) — пока ещё обучается, но уже ясно: это настоящая «пушка», ждём с нетерпением!


Что всё это значит на практике?
↳ Мультимодальность: работа не только с текстами, но и с картинками, а Scout при 10М токенах обрабатывает даже видео длительностью до 20 часов.

↳ Очень большой объём данных для обучения — теперь 30 триллионов токенов (в 2 раза больше, чем у Llama 3). Включает данные на 200 языках (из них официально поддерживаемых 12, но всегда можно адаптировать модель под нужный язык с помощью лицензии Llama 4 Community License).

↳ Новая архитектура MoE, впервые использованная в моделях Meta — позволяет системе задействовать только те части модели, которые нужны прямо сейчас, обеспечивая высокую скорость и эффективность.

↳ Пока это версии типа Instruct, поэтому для полноценного сравнения по reasoning-задачам (логика, рассуждения) лучше дождаться отдельных моделей Reasoning, о которых, скорее всего, подробнее расскажут на LLAMACon в конце апреля.

В общем, обновление действительно стоящее, я доволен и продолжаю тестировать. Всем рекомендую попробовать самим, это новый уровень! 🤓

P.S. Тут поднимается интересная волна что  Llama 4 всех обманула, хочешь знать больше и как я на это смотрю? Ставь реакцию 🔥

#llama #llm #leaderboard #dataworkshop

@data_work
🔥19👍2