DataWorkshop - AI & ML
1.92K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Модель ChatGPT и похожие очень известны, но существуют альтернативы, которые, может быть, менее популярны. Их иногда называют open-source, но это не совсем верное утверждение. Скорее, правильнее сказать open-weight - в общем, можешь скачать веса и запустить, например, на ноутбуке или на сервере.

Примером такой модели является llama (лама). Сейчас уже есть 3-я версия, которая доступна в 3 размерах (самая большая 400+ млрд параметров) и по качеству далеко обходит GPT-3.5 и приближается к GPT-4.

Так вот, эксклюзивные кадры, как тренируется такая модель 😂

@data_work
#llama #gpt #training #llm #ai
🤣13👏4
AI под собственной крышей

ChatGPT, который сейчас постоянно на слуху и часто является синонимом AI, на самом деле это один из доступных вариантов. В какой-то момент времени действительно GPT-3.5 сделала значительный рывок, в отличие от того, что можно было запустить самостоятельно. Это дало импульс, чтобы активно начинать догонять. Кстати, это вообще интересный момент с точки зрения психологии: когда кто-то достигает точки X, то в голове что-то щелкает и становится понятно, что это возможно. Поэтому резко многим удается достичь этой же точки, и это становится только вопросом времени, и обычно это происходит быстро.
Как пример, было что-то похожее с марафонами. Вспомнилась история 6 мая 1954 года, когда британский бегун Роджер Баннистер впервые в истории пробежал милю быстрее четырёх минут, установив мировой рекорд с результатом 3 минуты 59,4 секунды. До этого многие спортсмены и эксперты считали, что человеческие возможности ограничены, и никто не сможет пробежать милю быстрее, чем за 4 минуты. Это мнение базировалось на длительном отсутствии прогресса в улучшении результатов на этой дистанции. Что интересно, после того, как Роджер Баннистер преодолел этот барьер, произошло нечто удивительное: в течение следующих нескольких лет многие другие бегуны также начали пробегать милю быстрее четырёх минут. Вот так пробивается стеклянный потолок, и ML/AI здесь не исключение.

AI/ML можно использовать не только через API ChatGPT и похожие, но можно держать его у себя (например, на ноутбуке). Понятно, что большие языковые модели очень требовательны к мощностям, и не все так легко можно запустить, но есть разные способы оптимизации. Кстати, что тоже важно, речь идет не только про работу с текстом, но также с рисунками или аудио. Например, на видео это я в самолете (кстати, без доступа к интернету) продолжаю работать над курсом и делаю транскрипцию с видео, чтобы потом записать в финальной версии более улучшенного качества. Целый процесс, как сейчас можно, "беря на работу LLM", улучшать качество своих продуктов.

Интересно? Ставь реакцию! 🔥


@data_work
#llama #gpt #training #llm #ai
🔥13👍32
Вчера выступал в Nvidia (за спиной офис).

Рассказывал, как можно запускать большие языковые модели (LLM). Говоря простым языком — как запустить ChatGPT на своем сервере, используя открытые модели, например, Llama.

Доклад получился весьма насыщенным. Делился своим опытом. Сам лично немало намучился, пока структурировал информацию. Тема новая, очень разрозненная. Обычно есть две крайности: либо люди слишком глубоко сидят в своей нише, либо совсем не в теме.

Поэтому, когда хочешь погрузиться в вопрос и осознанно принять решение, это не всегда просто.

Для себя я выделил такой алгоритм, состоящий как минимум из 5 шагов:

1. Hardware (GPU от Nvidia и другие)
2. Software (инструменты для inference)
3. Модель LLM
4. Оптимизация
5. API

Хочешь узнать больше о запуске LLM? Ставь реакцию 🔥

P.S. Помню про книгу, напишу отдельным постом.

#llm
🔥37
Оставлю ещё один слайд, чтобы поработать с Твоим воображение и лучше понять, о чём идёт речь 👆 и на что можем повлиять.

Если смотреть с перспективы моего алгоритма, то, используя готовое решение (например, API OpeanAI или любое другое), я отметил, что на что мы влияем (только на выбор модели, да и то в ограниченом ввиде), а что решают за нас. И дальше как обычно в жизни, когда кто-то решает за Тебя, то это комфортная... ловушка 🙂Пока все хорошо - то хорошо, но как только...

Далее по порядку выбираем, где хотим остановиться. Если проходим все шаги, то как бонус получаем контроль над всем процессом — иногда это критически важно.

#llm
🔥12
Ребята, не хватает времени регулярно писать здесь, но расскажу последние новости. Сейчас, помимо обычных ML-проектов (с использованием классических подходов), я всё больше вовлечён в проекты, связанные с LLM. Речь идёт не просто о том, чтобы взять ChatGPT — это хайповое время, к счастью, уже проходит, и горячие головы бегут искать новую модную тему. Суеты становится меньше, и можно спокойно заниматься делом.

Сейчас я консультирую или напрямую веду три LLM-проекта. Назову их условно (названия компаний пока не могу раскрыть, так как это запрещено контрактами, особенно в условиях текущей конкурентной борьбы):
- менторство (помощник который будет помогать развиваться),
- helpdesk (телеком, куча вопросов и разных проблем которые нужно решать),
- экзамен (профилировнная тема в которой нужно сдать экзамен).

Я специально погрузился в реальные проекты, чтобы отшлифовать навыки, которые ранее спокойно развивал, экспериментируя локально. Большинство знаний, которые сейчас циркулируют в интернете, не основаны на реальном опыте, а представляют собой «обезьянничество» — копируют, что говорят другие, и делают вид, что разбираются. Например, популярная библиотека LangChain или агентов CrewAI — их сейчас обсуждают всё чаще. Сразу скажу: не рекомендую использовать их в "продакшене", иначе появится куча проблем.

Недавно записывал подкаст на эту тему, где объяснял, почему так часто говорю "нет, нет и нет". Главная мысль в том, что инструменты — это всего лишь инструменты, и даже если они популярны, они всё равно не решают проблемы. А зачастую наоборот: там, где много маркетинга, меньше "дела".

У меня уже созрел план поделиться опытом, как стоит работать с LLM. Поэтому сразу вопрос: насколько для тебя актуально погрузиться в практический мир LLM? Именно научиться создавать проекты, за которые не будет потом стыдно (а не просто изучать инструменты, которые, скорее всего, не пригодятся).

Пример. Предположим, ты хочешь найти работу в data-сфере (например, аналитиком данных или в области ML, или чем-то смежным). Что можно сделать? Например, проанализировать рынок вакансий и понять, что требуется. Я, кстати, даже собрал такие данные. Но здесь есть загвоздка: вакансии содержат много текста, где каждая компания описывает требования по-своему, и это не так просто анализировать. Тут возникает идея: что, если с помощью LLM мы приведём неструктурированные данные в структурированный вид? Это поможет легче понять и анализировать информацию. Вот так, между прочим, можно создать такого помощника. Интересно?

#llm #project
14
Вернулся на океан 👆


Практическому курсу по LLM быть, но перед этим стоит прояснить несколько важных моментов. На этой неделе завершил один проект по LLM для компании, которую, думаю, их знаешь — они раньше выпускали телефоны, а сейчас больше занимаются оборудованием (больше, к сожалению, рассказать не могу). В их случае задача заключалась в создании решения, которое помогало бы находить ответы, когда что-то не работает. Интересно то, что у них в компании есть специализированные команды по Data Science, которые пошли по популярному, но неверному пути, используя модные библиотеки. Конечно, так можно сделать — ведь это упрощает работу и позволяет быстро создать прототип, но на продуктив это решение не подходит, так как оно слишком непредсказуемое и не поддается улучшению (когда информация делится на маленькие кусочки — chunks, и потом ищется похожие кусочки). Я же помогал их команде, больше со стороны IT (не DS/ML), но по факту у них получилось наибольшее приближение к production-ready решению. Кстати, моя помощь — это секрет, поэтому тихо 🤫, так как между командами идет негласное соревнование за лидерство.

Что же они сделали? С одной стороны — простые вещи, логичные и основанные на здравом смысле. С точки зрения бизнеса, инструменты — это всегда лишь инструменты, и важно сосредоточиться на том, что действительно нужно бизнесу, на процессе. Сначала постараться сделать всё вручную, чтобы понять суть происходящего, а затем частично передавать ответственность на LLM, но хитрым образом — не ожидать от LLM слишком многого. Нужно продумать за нее возможные пути и сценарии. Да-да, думать всё ещё нужно — так называемый ИИ плохо умеет это делать. Но если правильно спланировать систему, LLM, как поезд, будет четко двигаться по рельсам и станет более предсказуемым. Чтобы это реализовать, есть много нюансов, но саму идею я постарался описать простым языком. Звучит просто и разумно, правда? Вопрос в том, как это сделать.

В принципе, когда "увидишь" как, все станет понятно. Конечно, сейчас большая часть информации ведет не в ту сторону, так как практиков мало, и каждый копирует за другим. Поэтому столько шума.

Напишу еще... раз так хорошо идет 🙂

#llm #course #usecase
🔥15
7 ключевых моментов, которые наглядно и практично показывают ценность курса:


Этот курс точно подойдет Тебе если хотя бы пару пунктов отзываются:

1️⃣Хочешь создавать продукционные решения на основе LLM, которые реально влияют на бизнес — не теоретические эксперименты, а работающие внедрения, приносящие ценность.

2️⃣Для Тебя важна простота и эффективность — на практике изучишь принцип "бритвы Оккама" и научишься упрощать сложные задачи до работающих решений.

3️⃣Нужны проверенные проектные шаблоны — получишь готовые схемы, чек-листы и карты знаний, которые помогут избежать типичных ловушек в проектах LLM.

4️⃣Ищешь практические знания, а не тренды — фокусируемся на том, что действительно работает в продакшене, игнорируя краткосрочные моды и маркетинг.

5️⃣Хочешь объединить LLM с классическим ML — научишься эффективно сочетать эти технологии и поймешь, когда использовать каждую из них.

6️⃣Нужны крепкие основы — познакомишься с универсальными принципами и методологиями, которые будут актуальны независимо от изменений в библиотеках и инструментах.

7️⃣Ценишь практический подход — получишь конкретные примеры из "поля боя", код с подробным разбором и возможность самостоятельных упражнений.

Как оцениваешь такое представление ключевых ценностей курса? Резонирует? 🔥🔥🔥

На данный момент в моей программе созрело 5 модулей и еще множество дополнительных, но после долгих раздумий и улучшений я решил не делать курс слишком большим, а просто разделить его на два. Например, локальный AI, то есть запуск собственной модели, будет отдельным курсом, чтобы сразу сосредоточиться именно на том, что важно — научиться использовать модели и проектировать системы. Кстати, над чем я сейчас работаю: хочу подключить тебя к нашей внутренней системе, благодаря чему ты сможешь легко тестировать множество моделей (как закрытых, например OpenAI и Anthropic, так и открытых, таких как Llama, Mistral и другие). Думаю, будет доступно пару десятков моделей — это значит, что для тебя будет легко проводить качественные эксперименты.

#llm #course
🔥18
Вчера выступал на встрече Google Developer Group.

Рассказывал про LLM: где мы сейчас находимся и чего ожидать в будущем. Делился своим опытом.

Удалось пообщаться с интересными людьми, которые раньше знали меня только виртуально. Такие встречи немного смущают, особенно когда возникает атмосфера возвышения. Все мы люди, ходим по одной земле.

Кстати лайфак - заранее пиши и договаривайся о встречах, чтобы успеть пообщаться. Идешь на конференцию, заранее посмотри, с кем хочешь поговорить. Это заметно увеличивает шансы на полезные контакты.

А сейчас — снова в поезд и на консультацию. На этот раз для компании из сферы HR, одного из лидеров индустрии. Будем помогать совершенствовать их лидерские качества.

#conf #llm
9👍4
Время подводить итоги года.

Но я не буду делать это как обычно. Этот год, особенно его вторая половина, был более интенсивным — я создавал практический курс по LLM.
Здесь нужно пояснить. Когда мы в DataWorkshop ведем проекты с компаниями, с разной степенью вовлеченности — от консалтинга до непосредственной реализации, — это, конечно, непросто, но более понятно.

При создании курса у меня включается механизм: выжать максимум из того, что я уже знаю, чтобы передать как можно больше практического опыта. А это сложно. Гораздо проще научиться самому, чем научить кого-то. Кстати, существует большая корреляция: когда обучаешь других, еще лучше оттачиваешь свои навыки. (К слову, я активно рекомендую такой подход. Правда, мало кто им пользуется, потому что учить других действительно сложно — это понятно.)

LLM сейчас очень горячая тема. У меня большая часть материалов на польском языке (в том числе подкасты). В этом году я активно рассказывал, почему «модный AI» — это тупиковая ветвь, но при этом есть решения, которые работают.
Есть ощущение, что все больше людей это замечают, хотя, скорее всего, должно пройти время. Это нормальный цикл: сейчас все «плывет с хайпа» в сторону «разочарования».

С ML я работаю уже более 10 лет. Поэтому привык, что иногда тема становится популярной, возникает много шума, а потом интерес падает. Тогда можно спокойно двигаться вперед, не нужно «кричать».

Что такое практический LLM?
Что реально можно делать? Как правильно реализовать RAG? Есть ли будущее у AI-агентов? И если да, то как это сделать?
И, в целом, на какого «коня» поставить?

Пишу это сообщение и понимаю, что текстом сложно передать смысл. Отсюда появилась идея — показать на практике.

Давай соберемся перед Новым годом, посмотрим на реальные возможности LLM, и вы поймете, что возможно, и куда стоит развиваться.

Как идея? Поддержите! Если соберем 50 «огоньков» 🔥, я проведу практическое мероприятие еще в этом году!

#llm #rag #data #production
🔥36
Праздники закончились? Пора возвращаться к AI/LLM!

Закрытый тренинг уже провел, где постарался объяснить важные вещи, которые происходят сейчас, а также поделился ключевыми выводами. Отзывы были отличные!

А сегодня поделюсь с тобой свежим кейсом.

🔥 История из практики:
Вчера ко мне обратился опытный системный аналитик с вопросом: "Можно ли использовать LLM для работы с документацией?" В голосе слышался скепсис, но чувствовалась надежда.

Моя реакция? Ну конечно же! Это уже глупо не использовать...

Что сделали:
1️⃣ Четко сформулировали задачу (здесь аналитик — молодец, ну я подсказывал 😇)
2️⃣ Взяли конкретные примеры документов
3️⃣ Применили LLM (5 секунд ожидания — и вот результат)

Результат?
То, что обычно занимало 6–8 часов, мы сделали за 15 минут. Даже если добавить еще 15 минут на проверку, всё равно это невероятно круто!

💡 Ключевой момент:
Роль специалиста меняется (не только системного аналитика, вообще - роли в ИТ и других отраслях). Сегодня важно научиться использовать LLM профессионально:

- Уметь правильно ставить задачи, чтобы получать нужный результат.
- Разбираться в сильных и слабых сторонах разных моделей (на курсе будет доступ к 70+ моделям).


По большему счету выбор за Тобой что сделать с этой информацией:
Можно переживать, что рынок меняется (а он действительно меняется и это происходит быстро), и рисковать остаться за бортом. А можно возглавить изменения, добавив технологии к своему опыту.

Моя роль (и миссия DataWorkshop) — быть проводником в мир практического ML/AI. В DataWorkshop уже обучили более 3000 человек в разных странах, включая компании из списка Fortune 500. Важно, мы сразу учимся на практике, через свои внутрение проекты, потом сотрудничаем с Партнерами и потом передаю опыт того что работает. Это выжимка умноженная на мой более 10 летний практический опыт работы с ML.

🔥 Интересны такие истории?
Могу делиться кейсами подробнее (есть более сложные проекты, на прошлой неделе закончили проект для логистики - учили сдавать экзамен на специалиста - спойлер: экзамен сдан). Поставь 🔥, если хочешь больше примеров или даже вебинар на эту тему.

#llm #dataworkshop
@data_work
🔥23
Ключевые наблюдения:

1️⃣ Падение (временной?) гегемонии OpenAI:
OpenAI долгое время доминировала, а Google, что удивительно, казалось, проспала революцию LLM.

2️⃣ Пробуждение гиганта:
Google наконец наверстала упущенное и в январе 2025 года ярко заявила о себе в числе лидеров (по крайней мере, согласно Arena).

3️⃣ GPT-4o (май 2024), лидер июня с ELO 1287, упал на 13-е место в январе!
Новый лидер (Gemini 2) имеет ELO 1374 – почти на 100 пунктов больше. В мире LLM, где несколько пунктов создают преимущество, это настоящая пропасть.

4️⃣ Открытые модели поймали волну:
Например, Yi и DeepSeek v3 не только сравнялись с лучшими моделями июня, но и превзошли их. Это революция!

5️⃣ DeepSeek v3 – это не только высокое качество, но и доказательство того, что мощные модели можно тренировать дешево и эффективно.
Миф о бюджетах в сотни миллионов долларов разрушен! Эта модель также дешева и быстра в использовании. Определенно заслуживает отдельного поста.

6️⃣ xAI и Grok:
На сцену вышел новый игрок – Grok от xAI Илона Маска. Сейчас это версия 2, ждем v3 (уже завершена тренировка).

7️⃣ Arena – это не всё!
Помни, что Arena – это общий рейтинг. В наших внутренних тестах, основанных на реальных бизнес-задачах, рейтинги часто выглядят (немного) иначе. Например, Claude 3.5 Sonnet, который отлично справляется на практике (часто в ТОП-3) и хорошо понимает русский, польский и другие языки, в Arena занимает более низкие позиции.

Рынок LLM развивается с головокружительной скоростью.

Что ты думаешь? Ставь реакцию, если хочешь больше 🔥

P.S. Практический курс по LLM!
Хочешь научиться у меня практическому применению LLM, контролировать входные и выходные данные и строить надежные системы? Следи, скоро сообщу как можно будет записаться.

#llm
@data_work
🔥17
Продукты LLM: чтобы работало + и еще вызывало доверие. Как это соединить? Работа с LLM — это не просто выполнение простых команд.

Я уже набил много шишек с LLM и хочу поделиться тем, что мы разработали в лаборатории DataWorkshop, а не тем, что можно найти в интернете. Это практические знания из первых рук. Хотя, на свои грабли всё равно придётся наступить.

Это первый из серии постов. Следи за новыми постами, комментируй (кстати добавил такую возможность), делись, чтобы не пропустить то, что действительно важно! Твоя энергия важна, чтобы поддерживать  у меня мотивацию делиться этим дальше. Если это важно для Тебя я буду еще больше стараться 😊

Начинаем!

Разговор с LLM начинается с простых инструкций:
--> Напиши стихотворение
--> Посоветуй 5 лучших книг о...

После простых промптов? Шаблоны. Давайте рассмотрим 5 самых популярных:

👉 R-I-S-E
Role: Ты создатель контента.
Input: Я собрал данные о нашей целевой аудитории, включая их интересы.
Steps: Предложи стратегию создания контента шаг за шагом.
Expectation: Увеличение трафика на 40% и укрепление бренда.

👉 R-T-F
Role: Маркетолог рекламы на Facebook.
Task: Разработай кампанию на Facebook для продвижения новой линии спортивной одежды.
Format: Создай сториборд с описанием последовательности рекламных креативов, включая тексты, визуализации и стратегию таргетинга.

👉 T-A-G
Task: Оценка эффективности членов команды.
Action: Выступи как непосредственный менеджер и проанализируй сильные и слабые стороны команды.
Goal: Повысить производительность команды, чтобы средний показатель удовлетворенности пользователей вырос с 6 до 7,5 в следующем квартале.

👉 B-A-B
Before: Наш сайт не отображается в результатах SEO.
After: Мы хотим попасть в топ-10 SEO в нашей нише за 90 дней.
Bridge: Разработай подробный план мониторинга действий и список из 20 ключевых слов.

👉 C-A-R-E
Context: Мы запускаем новую линию экологичной одежды.
Action: Создай целевую рекламную кампанию, подчеркивающую наше влияние на окружающую среду.
Result: Увеличение узнаваемости бренда и продаж.
Example: Кампания Patagonia "Don’t Buy This Jacket".

Да, эти шаблоны имеют свое место, особенно для быстрого мозгового штурма. Но достаточно ли этого для реального проекта?

Конечно, нет!

Компании часто начинают с наивных промптов и фреймворков (LangChain?). Этого недостаточно (или это антипаттерн). В DataWorkshop мы знаем, что важна точная структура + внедрение CoT и других, казалось бы, мелких, но критически важных нюансов.

P.S. Вчера DeepSeek R1 произвел впечатление! Тесты в нашей лаборатории на нашем leaderboard запущены. Подробнее об этом скоро...

@data_work
#llm #dataworkshop
🔥101👍1
DeepSeek - модель LLM, заслуживающая внимания. Правда! Потрать 30 секунд и убедись 🙂

Контекст

Под ёлочку 🎄 появился "подарок" DeepSeek v3, который произвел большое впечатление.

Почему? Потому что...
--> обучение прошло значительно дешевле, чем у моделей LLM подобного качества (всего $5-6 млн, а не $50 млн или даже более $100 млн, как принято в отрасли), добавлю, что эта модель имеет 600B параметров (для сравнения, самая большая Llama имеет 400B)
--> использование (инференция) дешевле, чем у аналогичных моделей LLM
--> много других интересных особенностей, например, умеет прогнозировать два токена вперед (не только один)

Но это оказалось только началом... Китайцы создали новую модель DeepSeek r1, вдохновленную "размышляющими" моделями OpenAI (o1/o3). Механизм размышления - тема для отдельного обсуждения.

Правда, в этом случае стоимость "использования" тоже выросла.

Поясню.

В наших тестах в Lab DataWorkshop проверяются десятки моделей LLM, и модели DeepSeek v3/r1 показывают результаты лучше большинства моделей LLM (включая коммерческие). Они стабильно входят в TOP 3 среди открытых моделей.

При выборе модели "AI" ключевыми факторами являются как качество результатов, так и затраты. Иногда для бизнеса лучше выбрать более дешевую модель с немного более низким качеством, если она соответствует базовым требованиям. А с ценами бывает по-разному:
--> Claude Opus 3: $1000
--> Claude Sonnet 3.5: $90
--> Deep Seek v3: $10
--> Deep Seek r1: $300

Интересно, что например Opus 3, несмотря на самую высокую цену, дает самые слабые результаты (из моделей выше). Важно! Эта цена учитывает не только стоимость токена, но и необходимость многократного повторения запросов для получения удовлетворительного ответа, то есть это финальная (реальная) цена.

Модель r1 заняла в одном из рейтингов первое место! Wow 😱. Так бывает не всегда! Этот рейтинг был связан с "логическими" задачами (назовем их так) в определенной отрасли на польском языке, поэтому можно сказать, что знания были довольно "специфическими" для всех моделей LLM. Модель r1 обошла все (да-да - все) модели, включая коммерческие модели OpenAI, Gemini, Anthropic, Grok... 😱😱😱. Конечно, это зависит от задачи, не всегда r1 будет на первом месте, но в этом случае так получилось. Замечено (что, кстати, логично, но в мире LLM нельзя верить на слово, поэтому в DataWorkshop проверяем на практике), что действительно r1 очень хорошо справляется там, где нужно "подумать", например, найти какие-то логические зависимости прямо в тексте или в знаниях, которыми обладает модель.

Стоит отметить, что обе модели DeepSeek v3 и r1 довольно хорошо справляются не только с английским (например польским).

Интересный факт (на фото): модель r1 якобы научилась "останавливаться" и ловить "момент озарения" как человек, хотя этому её не учили. Хотя тема вызывает дискуссии, это имеет смысл с логической точки зрения. LLM все лучше справляются с логикой.

Что думаешь об этом?

P.S. Хочешь быть в курсе новостей LLM? Следи за моими постами 🙂
P.P.S. Open AI лежит, но наши тесты уже выключены, должно скоро встать 😉

---
Хочешь освоить LLM с практической стороны? Есть решение! В курсе "Практический LLM" раскрываются секреты построения надежных, достоверных систем AI. Познакомишься с эффективными методами валидации данных, стабилизации RAG, Агентами AI и объединением классического ML с LLM. Записывайся.

#llm #deepseek
@data_work
🔥8👍3
В мире LLM происходит что-то... и это что-то грандиозное! 🔥 Гонка набирает обороты. Успеваешь следить? Расскажу кратко о самом важном.

1️⃣ Стартап DeepSeek, прозванный "убийцей" Nvidia (название преувеличенное, но мир инвестиций любит такие громкие заявления), вызвал падение её акций. Правда, модель r1 анонсировали 20 января, информация о результатах появилась 21 января, но реакция рынка последовала только 27 января. Кстати, в DataWorkshop LAB сразу стараемся запускать эксперименты и проверять потенциал на реальных примерах, и я сразу писал, что здесь происходит что-то важное. Вывод: стоит следить за моими публикациями :).

2️⃣ Китай объявил об инфраструктурном проекте ИИ "План развития новых отраслей ИИ", инвестируя около 140 миллиардов долларов, что в пересчёте на эффективность может соответствовать 500 миллиардам долларов в проекте Stargate. То есть битва только разворачивается.

3️⃣ И вчера DeepSeek снова удивил, опубликовав открытую модель Janus-Pro с мультимодальной авторегрессивной архитектурой, обрабатывающей текст, изображения и звук, которая показывает отличные результаты в бенчмарках, демо доступно на HF.

Конечно, появилось много мифов и искажённой информации. Поскольку DeepSeek стал мейнстримом, расскажу о некоторых из них.

Говорят, что DeepSeek - это "побочный" проект, кто-то на коленке получил супер-результат. Нет! Это неправда. DeepSeek поддерживается и управляется китайским хедж-фондом High-Flyer, который в 2020 году управлял активами стоимостью более 7 миллиардов долларов, а в команде работают олимпийские медалисты по математике, физике и информатике. У них есть оборудование, возможно меньше чем у OpenAI, Meta или Grok, но всё равно имеют 50k или больше H100 (или подобных карт), откуда они это взяли - другая история, но есть на чём тренировать модели LLM (это НЕ компания с 1-2 картами)... и ещё много интересного.

Расскажу ещё больше о DeepSeek, потому что этот чёрный лебедь наделал шума и меняет мир LLM и перспективу, прежде всего инвесторов. Ведь все эти громкие заявления от OpenAI были направлены в основном инвесторам, а тут такой шок.

Что думаешь по этому поводу?

Поделись как мнимум с одним человеком поставь реакцию 🙂


#llm #ai #deepseek #dataworkshop

@data_work
🔥18👍2
визуально, как это примерно выглядит 🤔

#llm #ai #deepseek #dataworkshop
@data_work
🤔41
На этой неделе было много встреч — 4 города, более 400 человек.

Говорил о практическом подходе к LLM: как строить системы с контролируемым качеством и управлять сложностями, которые неизбежно возникают при работе с LLM.

В DataWorkshop мы выработали 7 уровней погружения в LLM. Большинство людей находятся на первом и часто пытаются сразу прыгнуть на 4-й или 5-й. Это предсказуемо ведет к провалу. Важно идти по шагам.

За последние 2 года (и более 10 лет в ML) я провел сотни экспериментов, потратил тысячи часов работы и миллионы токенов, чтобы понять, что действительно работает. Большинство советов в интернете либо неэффективны, либо упускают важные детали.

Мы проверили все на реальных проектах, довели до практичности и на основе этого создали курс из 5 модулей, который показывает, как правильно работать с LLM.

🚀 Старт 24 февраля (понедельник). Присоединяйся!

#dataworkshop #llm #howto
🔥91
Закончился первый поток курса "Практический LLM". В нём прежде всего уделяется больше внимания тому, чтобы «держать качество под контролем» и фокусироваться на фундаменте, а не на поверхностных веяниях, которые всё равно меняются каждый день.

Почему это так важно? Вот пример того, как сейчас часто выглядит контроль качества диалогов чат-бота.

Всё это было бы смешно, если бы не было так грустно...

С одной стороны, так называемый AI быстро бежит вперёд. С другой -катастрофически не хватает здравого смысла и понимания, насколько важно поработать над фундаментом, вместо того чтобы ждать, что AI (да и любая другая технология) - это магия.

Всё равно нужно думать и грамотно планировать.

Хочешь научиться грамотно работать с LLM без всей этой маркетинговой шелухи?
Ставь реакцию 🔥 и напиши в комментарии, чему именно хочешь научиться - возможно, следующий поток будет как раз для тебя.

#course #llm #мысли #dataworkshop
🔥15
🚨 Вышла Llama 4 — проверил лично и делюсь впечатлениями! 🔥

TLDR: Давно ждал Llama 4 — и вот она внезапно вышла прямо в выходные (было чем заняться 😂). Могу точно сказать: модель мощная, быстрая, доступная по ресурсам (особенно по сравнению с альтернативами), а главное — стала гораздо лучше работать со структурированными задачами (structured output).

Первым делом проверил её именно на этом — справляется отлично. Очень рад, что развитие идёт именно в этом направлении, модель становится полезнее и применимее к реальным задачам. В общем, тот тренд, который я прогнозировал, продолжает реализовываться 💪

Теперь конкретно, по моделям:



#llama #llm #leaderboard #dataworkshop

@data_work

👇👇👇
🔥8👍1
👆👆👆 (часть 1)

Теперь конкретно, по моделям:

1️⃣ Llama 4 Scout: Это «младшая» версия с 109 млрд параметров, из которых активны одновременно только 17 млрд, благодаря новой архитектуре MoE (Mixture of Experts с 16 экспертами). Огромный плюс — супердлинный контекст до 10 миллионов токенов! Идеален для анализа больших документов, текстов или даже длинных видео. Scout мультимодален (текст + изображение), и при квантовании в int4 его реально запустить даже на одной видеокарте типа H100.

2️⃣ Llama 4 Maverick: Это уже версия посерьезнее — 400 млрд параметров (активны тоже 17 млрд, но уже целых 128 экспертов!). Контекст до 1 миллиона токенов, также мультимодален (текст + изображение). Показатели действительно топовые, смело может конкурировать с GPT-4o по ряду задач. Версия FP8 оптимизирована под запуск на одном серверном узле с 8xH100.

3️⃣ Llama 4 Behemoth (2 триллиона параметров) — пока ещё обучается, но уже ясно: это настоящая «пушка», ждём с нетерпением!


Что всё это значит на практике?
↳ Мультимодальность: работа не только с текстами, но и с картинками, а Scout при 10М токенах обрабатывает даже видео длительностью до 20 часов.

↳ Очень большой объём данных для обучения — теперь 30 триллионов токенов (в 2 раза больше, чем у Llama 3). Включает данные на 200 языках (из них официально поддерживаемых 12, но всегда можно адаптировать модель под нужный язык с помощью лицензии Llama 4 Community License).

↳ Новая архитектура MoE, впервые использованная в моделях Meta — позволяет системе задействовать только те части модели, которые нужны прямо сейчас, обеспечивая высокую скорость и эффективность.

↳ Пока это версии типа Instruct, поэтому для полноценного сравнения по reasoning-задачам (логика, рассуждения) лучше дождаться отдельных моделей Reasoning, о которых, скорее всего, подробнее расскажут на LLAMACon в конце апреля.

В общем, обновление действительно стоящее, я доволен и продолжаю тестировать. Всем рекомендую попробовать самим, это новый уровень! 🤓

P.S. Тут поднимается интересная волна что  Llama 4 всех обманула, хочешь знать больше и как я на это смотрю? Ставь реакцию 🔥

#llama #llm #leaderboard #dataworkshop

@data_work
🔥19👍2
Помнишь, как прятали невидимые команды (prompt injection) в статьи на arXiv, чтобы влиять на то, что пишет AI? Тогда это было тревожным сигналом: модели легко обмануть скрытым текстом.

А теперь Richard Dunks (респект 👏) провернул то же самое в описании своей работы — и AI снова клюнул.

Что это нам говорит?
↳ Модели по-прежнему уязвимы. Доверять — да, но проверяй (актуально также для LLM/AI)!
↳ Но! Это можно использовать в хороших целях — например, подсказать, кого искать, или защититься от спама.

Вывод?
AI — мощный инструмент, но всё ещё инструмент.
Либо ты управляешь им, либо он — тобой. Я за первый вариант. 😉

А тебя уже AI как-нибудь удивлял?

P.S. Хочешь проверить, AI это или человек? Спроси: "пузырьковая сортировка на Python".

Человек: лёгкое замешательство в глазах.
AI: готовый код быстрее, чем ты успеешь сделать глоток кофе! 😅

#ai #llm #promt_injection
@data_work
🔥3😁32