This media is not supported in your browser
VIEW IN TELEGRAM
Модель ChatGPT и похожие очень известны, но существуют альтернативы, которые, может быть, менее популярны. Их иногда называют open-source, но это не совсем верное утверждение. Скорее, правильнее сказать open-weight - в общем, можешь скачать веса и запустить, например, на ноутбуке или на сервере.
Примером такой модели является llama (лама). Сейчас уже есть 3-я версия, которая доступна в 3 размерах (самая большая 400+ млрд параметров) и по качеству далеко обходит GPT-3.5 и приближается к GPT-4.
Так вот, эксклюзивные кадры, как тренируется такая модель 😂
@data_work
#llama #gpt #training #llm #ai
Примером такой модели является llama (лама). Сейчас уже есть 3-я версия, которая доступна в 3 размерах (самая большая 400+ млрд параметров) и по качеству далеко обходит GPT-3.5 и приближается к GPT-4.
Так вот, эксклюзивные кадры, как тренируется такая модель 😂
@data_work
#llama #gpt #training #llm #ai
🤣13👏4
AI под собственной крышей
ChatGPT, который сейчас постоянно на слуху и часто является синонимом AI, на самом деле это один из доступных вариантов. В какой-то момент времени действительно GPT-3.5 сделала значительный рывок, в отличие от того, что можно было запустить самостоятельно. Это дало импульс, чтобы активно начинать догонять. Кстати, это вообще интересный момент с точки зрения психологии: когда кто-то достигает точки X, то в голове что-то щелкает и становится понятно, что это возможно. Поэтому резко многим удается достичь этой же точки, и это становится только вопросом времени, и обычно это происходит быстро.
Как пример, было что-то похожее с марафонами. Вспомнилась история 6 мая 1954 года, когда британский бегун Роджер Баннистер впервые в истории пробежал милю быстрее четырёх минут, установив мировой рекорд с результатом 3 минуты 59,4 секунды. До этого многие спортсмены и эксперты считали, что человеческие возможности ограничены, и никто не сможет пробежать милю быстрее, чем за 4 минуты. Это мнение базировалось на длительном отсутствии прогресса в улучшении результатов на этой дистанции. Что интересно, после того, как Роджер Баннистер преодолел этот барьер, произошло нечто удивительное: в течение следующих нескольких лет многие другие бегуны также начали пробегать милю быстрее четырёх минут. Вот так пробивается стеклянный потолок, и ML/AI здесь не исключение.
AI/ML можно использовать не только через API ChatGPT и похожие, но можно держать его у себя (например, на ноутбуке). Понятно, что большие языковые модели очень требовательны к мощностям, и не все так легко можно запустить, но есть разные способы оптимизации. Кстати, что тоже важно, речь идет не только про работу с текстом, но также с рисунками или аудио. Например, на видео это я в самолете (кстати, без доступа к интернету) продолжаю работать над курсом и делаю транскрипцию с видео, чтобы потом записать в финальной версии более улучшенного качества. Целый процесс, как сейчас можно, "беря на работу LLM", улучшать качество своих продуктов.
Интересно? Ставь реакцию! 🔥
@data_work
#llama #gpt #training #llm #ai
ChatGPT, который сейчас постоянно на слуху и часто является синонимом AI, на самом деле это один из доступных вариантов. В какой-то момент времени действительно GPT-3.5 сделала значительный рывок, в отличие от того, что можно было запустить самостоятельно. Это дало импульс, чтобы активно начинать догонять. Кстати, это вообще интересный момент с точки зрения психологии: когда кто-то достигает точки X, то в голове что-то щелкает и становится понятно, что это возможно. Поэтому резко многим удается достичь этой же точки, и это становится только вопросом времени, и обычно это происходит быстро.
Как пример, было что-то похожее с марафонами. Вспомнилась история 6 мая 1954 года, когда британский бегун Роджер Баннистер впервые в истории пробежал милю быстрее четырёх минут, установив мировой рекорд с результатом 3 минуты 59,4 секунды. До этого многие спортсмены и эксперты считали, что человеческие возможности ограничены, и никто не сможет пробежать милю быстрее, чем за 4 минуты. Это мнение базировалось на длительном отсутствии прогресса в улучшении результатов на этой дистанции. Что интересно, после того, как Роджер Баннистер преодолел этот барьер, произошло нечто удивительное: в течение следующих нескольких лет многие другие бегуны также начали пробегать милю быстрее четырёх минут. Вот так пробивается стеклянный потолок, и ML/AI здесь не исключение.
AI/ML можно использовать не только через API ChatGPT и похожие, но можно держать его у себя (например, на ноутбуке). Понятно, что большие языковые модели очень требовательны к мощностям, и не все так легко можно запустить, но есть разные способы оптимизации. Кстати, что тоже важно, речь идет не только про работу с текстом, но также с рисунками или аудио. Например, на видео это я в самолете (кстати, без доступа к интернету) продолжаю работать над курсом и делаю транскрипцию с видео, чтобы потом записать в финальной версии более улучшенного качества. Целый процесс, как сейчас можно, "беря на работу LLM", улучшать качество своих продуктов.
Интересно? Ставь реакцию! 🔥
@data_work
#llama #gpt #training #llm #ai
🔥13👍3❤2
🚨 Вышла Llama 4 — проверил лично и делюсь впечатлениями! 🔥
TLDR: Давно ждал Llama 4 — и вот она внезапно вышла прямо в выходные (было чем заняться 😂). Могу точно сказать: модель мощная, быстрая, доступная по ресурсам (особенно по сравнению с альтернативами), а главное — стала гораздо лучше работать со структурированными задачами (structured output).
Первым делом проверил её именно на этом — справляется отлично. Очень рад, что развитие идёт именно в этом направлении, модель становится полезнее и применимее к реальным задачам. В общем, тот тренд, который я прогнозировал, продолжает реализовываться 💪
Теперь конкретно, по моделям:
#llama #llm #leaderboard #dataworkshop
@data_work
👇👇👇
TLDR: Давно ждал Llama 4 — и вот она внезапно вышла прямо в выходные (было чем заняться 😂). Могу точно сказать: модель мощная, быстрая, доступная по ресурсам (особенно по сравнению с альтернативами), а главное — стала гораздо лучше работать со структурированными задачами (structured output).
Первым делом проверил её именно на этом — справляется отлично. Очень рад, что развитие идёт именно в этом направлении, модель становится полезнее и применимее к реальным задачам. В общем, тот тренд, который я прогнозировал, продолжает реализовываться 💪
Теперь конкретно, по моделям:
#llama #llm #leaderboard #dataworkshop
@data_work
👇👇👇
🔥8👍1
👆👆👆 (часть 1)
Теперь конкретно, по моделям:
1️⃣ Llama 4 Scout: Это «младшая» версия с 109 млрд параметров, из которых активны одновременно только 17 млрд, благодаря новой архитектуре MoE (Mixture of Experts с 16 экспертами). Огромный плюс — супердлинный контекст до 10 миллионов токенов! Идеален для анализа больших документов, текстов или даже длинных видео. Scout мультимодален (текст + изображение), и при квантовании в int4 его реально запустить даже на одной видеокарте типа H100.
2️⃣ Llama 4 Maverick: Это уже версия посерьезнее — 400 млрд параметров (активны тоже 17 млрд, но уже целых 128 экспертов!). Контекст до 1 миллиона токенов, также мультимодален (текст + изображение). Показатели действительно топовые, смело может конкурировать с GPT-4o по ряду задач. Версия FP8 оптимизирована под запуск на одном серверном узле с 8xH100.
3️⃣ Llama 4 Behemoth (2 триллиона параметров) — пока ещё обучается, но уже ясно: это настоящая «пушка», ждём с нетерпением!
Что всё это значит на практике?
↳ Мультимодальность: работа не только с текстами, но и с картинками, а Scout при 10М токенах обрабатывает даже видео длительностью до 20 часов.
↳ Очень большой объём данных для обучения — теперь 30 триллионов токенов (в 2 раза больше, чем у Llama 3). Включает данные на 200 языках (из них официально поддерживаемых 12, но всегда можно адаптировать модель под нужный язык с помощью лицензии Llama 4 Community License).
↳ Новая архитектура MoE, впервые использованная в моделях Meta — позволяет системе задействовать только те части модели, которые нужны прямо сейчас, обеспечивая высокую скорость и эффективность.
↳ Пока это версии типа Instruct, поэтому для полноценного сравнения по reasoning-задачам (логика, рассуждения) лучше дождаться отдельных моделей Reasoning, о которых, скорее всего, подробнее расскажут на LLAMACon в конце апреля.
В общем, обновление действительно стоящее, я доволен и продолжаю тестировать. Всем рекомендую попробовать самим, это новый уровень! 🤓
P.S. Тут поднимается интересная волна что Llama 4 всех обманула, хочешь знать больше и как я на это смотрю? Ставь реакцию 🔥
#llama #llm #leaderboard #dataworkshop
@data_work
Теперь конкретно, по моделям:
1️⃣ Llama 4 Scout: Это «младшая» версия с 109 млрд параметров, из которых активны одновременно только 17 млрд, благодаря новой архитектуре MoE (Mixture of Experts с 16 экспертами). Огромный плюс — супердлинный контекст до 10 миллионов токенов! Идеален для анализа больших документов, текстов или даже длинных видео. Scout мультимодален (текст + изображение), и при квантовании в int4 его реально запустить даже на одной видеокарте типа H100.
2️⃣ Llama 4 Maverick: Это уже версия посерьезнее — 400 млрд параметров (активны тоже 17 млрд, но уже целых 128 экспертов!). Контекст до 1 миллиона токенов, также мультимодален (текст + изображение). Показатели действительно топовые, смело может конкурировать с GPT-4o по ряду задач. Версия FP8 оптимизирована под запуск на одном серверном узле с 8xH100.
3️⃣ Llama 4 Behemoth (2 триллиона параметров) — пока ещё обучается, но уже ясно: это настоящая «пушка», ждём с нетерпением!
Что всё это значит на практике?
↳ Мультимодальность: работа не только с текстами, но и с картинками, а Scout при 10М токенах обрабатывает даже видео длительностью до 20 часов.
↳ Очень большой объём данных для обучения — теперь 30 триллионов токенов (в 2 раза больше, чем у Llama 3). Включает данные на 200 языках (из них официально поддерживаемых 12, но всегда можно адаптировать модель под нужный язык с помощью лицензии Llama 4 Community License).
↳ Новая архитектура MoE, впервые использованная в моделях Meta — позволяет системе задействовать только те части модели, которые нужны прямо сейчас, обеспечивая высокую скорость и эффективность.
↳ Пока это версии типа Instruct, поэтому для полноценного сравнения по reasoning-задачам (логика, рассуждения) лучше дождаться отдельных моделей Reasoning, о которых, скорее всего, подробнее расскажут на LLAMACon в конце апреля.
В общем, обновление действительно стоящее, я доволен и продолжаю тестировать. Всем рекомендую попробовать самим, это новый уровень! 🤓
P.S. Тут поднимается интересная волна что Llama 4 всех обманула, хочешь знать больше и как я на это смотрю? Ставь реакцию 🔥
#llama #llm #leaderboard #dataworkshop
@data_work
🔥19👍2