Похоже, что Andrej Karpathy готовит полноценный курс по LLM!  У него уже есть отличные видео на разные темы связанные с LLM. Этот курс будет не о промпт-инжиниринге, а о том, как разработать свою собственную LLM с нуля. Хотя для рядового пользователя не то, чтобы нужно, но курс кажется супер полезным если хотите разобраться в деталях. 
Ссылка https://github.com/karpathy/LLM101n.
Пока есть только план занятий, ждем
  
  Ссылка https://github.com/karpathy/LLM101n.
Пока есть только план занятий, ждем
Syllabus
Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)
GitHub
  
  GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller
  LLM101n: Let's build a Storyteller. Contribute to karpathy/LLM101n development by creating an account on GitHub.
🔥7👍1
  Что такое ИИ Агент?
ИИ-агенты — это очень горячая тема сегодня. Кто-то даёт абстрактные академические определения, а кто-то считает их просто классом в LangChain.
На wiki дается следующее определение:
С практической точки зрения программиста, агент — это просто программа, которая для решения задач использует LLM.
Но если у нас есть OpenAI API, и мы написали промпт и вызвали LLM — это уже агент? А если мы сделали цепочку вызовов? Нет, обычно такую программу агентом не называют. Так какую называют?
Как правило, если в вашей стратегии вызовов LLM есть циклы, то это можно назвать агентной системой.
1. Пример без агентов: Мы взяли задачу с LeetCode, применили все навыки промт-инженера и закинули в GPT, получив решение. Порядок выполнения линейный.
2. Пример с агентом: Мы сделали то же самое, что и в примере 1, но добавили шаг, позволяющий запустить код, получить обратную связь и, если задача не прошла тесты, собрать фидбек и улучшить решение. Таким образом, у нас появляется инструмент (запуск программы и анализ результатов) и цикл — если задача не решена, пробовать снова.
Почему агенты — это важная тема? Потому что для решения сложных задач всегда нужны инструменты и много шагов. Но главное, не стоит бояться слова “агент”. В первую очередь, это программа.
Мне понравился комментарий от Andrew Ng о том, что не нужно спорить, что является агентной системой, а что нет, а просто делать.
[1] Andrew Ng On AI Agentic Workflows
[2] LLM Powered Autonomous Agents
[3] LangChain: Custom agent
[4] Wiki: Intelligent agent
ИИ-агенты — это очень горячая тема сегодня. Кто-то даёт абстрактные академические определения, а кто-то считает их просто классом в LangChain.
На wiki дается следующее определение:
Агент — воспринимает свою среду, действует автономно для достижения целей и может улучшать свою производительность посредством обучения или приобретения знаний.С практической точки зрения программиста, агент — это просто программа, которая для решения задач использует LLM.
Но если у нас есть OpenAI API, и мы написали промпт и вызвали LLM — это уже агент? А если мы сделали цепочку вызовов? Нет, обычно такую программу агентом не называют. Так какую называют?
Как правило, если в вашей стратегии вызовов LLM есть циклы, то это можно назвать агентной системой.
1. Пример без агентов: Мы взяли задачу с LeetCode, применили все навыки промт-инженера и закинули в GPT, получив решение. Порядок выполнения линейный.
2. Пример с агентом: Мы сделали то же самое, что и в примере 1, но добавили шаг, позволяющий запустить код, получить обратную связь и, если задача не прошла тесты, собрать фидбек и улучшить решение. Таким образом, у нас появляется инструмент (запуск программы и анализ результатов) и цикл — если задача не решена, пробовать снова.
Почему агенты — это важная тема? Потому что для решения сложных задач всегда нужны инструменты и много шагов. Но главное, не стоит бояться слова “агент”. В первую очередь, это программа.
Мне понравился комментарий от Andrew Ng о том, что не нужно спорить, что является агентной системой, а что нет, а просто делать.
[1] Andrew Ng On AI Agentic Workflows
[2] LLM Powered Autonomous Agents
[3] LangChain: Custom agent
[4] Wiki: Intelligent agent
👍4❤3
  OCR скриштов.
Часто на звонках или при просмотре видео нам нужно скопировать текст с изображения. Я заметил, что это довольно частая потребность — извлекать текст из картинок. Раньше я написал небольшой скрипт на Python для этого.
На MacOS встроенная функция OCR работает хорошо, но её нужно немного настроить для удобства. В MacOS есть несколько способов автоматизации: Automator и Shortcuts. Shortcuts активно развивается и подходит для многих задач. С его помощью можно запускать скрипты и вызывать системные API простым перетаскиванием блоков.
Я долгое время пользовался быстро собранным пайплайном, который делал скриншот области экрана, запускал системный OCR и сохранял результат в буфер обмена. Недавно обновление MacOS сломало эту функцию, и я понял, насколько часто я её использовал. К счастью, решение оказалось простым: можно в Shortcuts заменить блок для скриншота области на вызов соответствующей системной команды из bash.
Если вам знакома эта проблема, но вы ещё не пробовали настраивать подобное, рекомендую попробовать: https://github.com/e-kotov/macos-shortcuts
Если вы windows пользователь и тоже решили проблему OCR скринов, поделитесь
Часто на звонках или при просмотре видео нам нужно скопировать текст с изображения. Я заметил, что это довольно частая потребность — извлекать текст из картинок. Раньше я написал небольшой скрипт на Python для этого.
На MacOS встроенная функция OCR работает хорошо, но её нужно немного настроить для удобства. В MacOS есть несколько способов автоматизации: Automator и Shortcuts. Shortcuts активно развивается и подходит для многих задач. С его помощью можно запускать скрипты и вызывать системные API простым перетаскиванием блоков.
Я долгое время пользовался быстро собранным пайплайном, который делал скриншот области экрана, запускал системный OCR и сохранял результат в буфер обмена. Недавно обновление MacOS сломало эту функцию, и я понял, насколько часто я её использовал. К счастью, решение оказалось простым: можно в Shortcuts заменить блок для скриншота области на вызов соответствующей системной команды из bash.
Если вам знакома эта проблема, но вы ещё не пробовали настраивать подобное, рекомендую попробовать: https://github.com/e-kotov/macos-shortcuts
Если вы windows пользователь и тоже решили проблему OCR скринов, поделитесь
👍2
  С текстовыми открытыми LLM всё неплохо, но с vision моделями пока все сильно хуже (по моим тестам). Недавно Microsoft выпустила Phi-3.5, в том числе и vision модель, которую можно найти https://huggingface.co/microsoft/Phi-3.5-vision-instruct. В Twitter много примеров, где демонстрируется, как хорошо эта модель распознаёт текст на изображениях. Решил проверить – с английским действительно справляется неплохо, но вот с другими языками пока не всё так гладко. Кириллицу не распознала, но выдумала текст. Немецкий частично распознало, литовский тоже мимо. 
Этот пример демонстрирует, почему использование таких моделей для распознавания текста пока не заменяет классический OCR – они подвержены галлюцинациям. Когда обычный OCR не справляется, мы получаем неверные символы. Здесь же можно получить совершенно вымышленную информацию.
В целом, демонстрация возможностей впечатляет, особенно учитывая, что это всего лишь 4B модель. Однако при выборе юзкейсов стоит быть осторожным и помнить, что это генеративная модель.
Для сравнения, GPT-4o справляется с этой задачей идеально, но стоит учитывать, что масштабы модели совсем другие и это все равно не отменяет, что на сложных изображениях мы можем получить что-то вымышленное.
Этот пример демонстрирует, почему использование таких моделей для распознавания текста пока не заменяет классический OCR – они подвержены галлюцинациям. Когда обычный OCR не справляется, мы получаем неверные символы. Здесь же можно получить совершенно вымышленную информацию.
В целом, демонстрация возможностей впечатляет, особенно учитывая, что это всего лишь 4B модель. Однако при выборе юзкейсов стоит быть осторожным и помнить, что это генеративная модель.
Для сравнения, GPT-4o справляется с этой задачей идеально, но стоит учитывать, что масштабы модели совсем другие и это все равно не отменяет, что на сложных изображениях мы можем получить что-то вымышленное.
❤2👍1
  Теперь advanced voice mode доступен в EU для плюс пользователей
Если еще не пробовали — это реально меняет игру. С сетью теперь можно говорить, и это ощущается очень естественно. Хотя ей, конечно, подкрутили ограничения: петь и имитировать звуки пока сложно.
Также стал доступен: доступен API в реальном времени, так что теперь можно строить свои приложения на базе этого. Вот пример видео, где как раз показывается, как это можно использовать.
Кстати, особенность его в том, что тут работает мультимодальная модель — она не просто переводит текст, а распознает интонацию, стиль речи и может генерировать свой ответ прямо на лету.
Рекомендую попробовать.
Если еще не пробовали — это реально меняет игру. С сетью теперь можно говорить, и это ощущается очень естественно. Хотя ей, конечно, подкрутили ограничения: петь и имитировать звуки пока сложно.
Также стал доступен: доступен API в реальном времени, так что теперь можно строить свои приложения на базе этого. Вот пример видео, где как раз показывается, как это можно использовать.
Кстати, особенность его в том, что тут работает мультимодальная модель — она не просто переводит текст, а распознает интонацию, стиль речи и может генерировать свой ответ прямо на лету.
Рекомендую попробовать.
❤3🔥3
  Раз в год у меня возвращается желание что-то написать сюда.
Тема у меня тут, как правило, одна - искусственный интеллект.
Но в последнее время информации стало столько, что добавлять еще не хотелось.
Следить за всеми апдейтами - это легко превратить в ловушку: читаешь, что нового появилось, и… ничего не делаешь.
Попытка угнаться за всем заканчивается потерей интереса делать что-то.
Долгое время я считал, что ИИ недооценён, а не переоценён.
Сейчас вижу - и то, и другое правда одновременно.
Магическая кнопка «решить все проблемы и заработать» - это про хайп.
За последний год я видел десятки прототипов, где всё выглядит просто: собери квадратики на диаграмме, и вот он - готовый продукт.
Но на практике это почти никогда не летит.
Хорошие продукты, которые я встречал, всегда отличались двумя вещами:
1. Чёткими метриками (eval).
2. Очень быстрыми итерациями.
Формула простая:
Не нужно быть самым умным, чтобы сделать лучший промпт или систему.
Нужно понять боль, разобраться, как измерять качество решения, и как можно быстрее проверять гипотезы.
Чем больше экспериментов - тем ближе ты к действительно хорошему продукту.
В целом мало отличается от обычной разработки продукта, правда?
сделаем еще один заход на телеграм, меньше новостей - больше наблюдений
Тема у меня тут, как правило, одна - искусственный интеллект.
Но в последнее время информации стало столько, что добавлять еще не хотелось.
Следить за всеми апдейтами - это легко превратить в ловушку: читаешь, что нового появилось, и… ничего не делаешь.
Попытка угнаться за всем заканчивается потерей интереса делать что-то.
Долгое время я считал, что ИИ недооценён, а не переоценён.
Сейчас вижу - и то, и другое правда одновременно.
Магическая кнопка «решить все проблемы и заработать» - это про хайп.
За последний год я видел десятки прототипов, где всё выглядит просто: собери квадратики на диаграмме, и вот он - готовый продукт.
Но на практике это почти никогда не летит.
Хорошие продукты, которые я встречал, всегда отличались двумя вещами:
1. Чёткими метриками (eval).
2. Очень быстрыми итерациями.
Формула простая:
Не нужно быть самым умным, чтобы сделать лучший промпт или систему.
Нужно понять боль, разобраться, как измерять качество решения, и как можно быстрее проверять гипотезы.
Чем больше экспериментов - тем ближе ты к действительно хорошему продукту.
В целом мало отличается от обычной разработки продукта, правда?
сделаем еще один заход на телеграм, меньше новостей - больше наблюдений
❤9