Bayesian Noise
62 subscribers
57 photos
235 links
Канал @nesterione.
Download Telegram
Посмотрел презентации OpenAI и Google на этой неделе.

OpenAI справились за 26 минут, вызвали вау-эффект и провели все демо вживую, хоть и не без подтормаживаний. Модель уже доступна через API и для пользователей ChatGPT Plus, правда, пока без аудио. Обещают выкатить все, что показали, в течение двух недель. Главное обновление — мультимодальная модель, которая на вход может принимать текст, аудио и изображения, а на выходе генерировать тоже текст, аудио и изображения. Ранее, если вы использовали голосовой интерфейс, ваша речь превращалась в текст и отправлялась в GPT, это были разные модели.

Советую посмотреть полную презентацию https://www.youtube.com/watch?v=DQacCB9tDaw и прочитать блог-пост https://openai.com/index/hello-gpt-4o/. В статье много коротких видео с разными юзкейсами. Особенно разлетелось по интернетам https://vimeo.com/945587286 — да, теперь чат умеет имитировать эмоции и считывать ваши эмоции.

На конференции Google было скучно. Главная фраза — “later this year”. Показали много всего, но непонятно, когда это зарелизят. Некоторые примеры очень похожи на OpenAI. О фичах даже говорить не хочу, потому что показали интересные штуки, но ничего потрогать нельзя, и непонятно, когда и как это будет интегрировано в продукты. Google также обновил свою Gemini — теперь она сможет держать 2M токенов в контексте. Прикольно, что так можно, но вот без штанов останешься, если использовать это, ведь за input токены тоже придется платить.

Видео не советую смотреть, но если очень хочется узнать что они показали, лучше посмотрите пост https://blog.google/intl/en-africa/products/explore-get-answers/google-io-2024-an-io-for-a-new-generation/
🔥4👍1
Как просто стало готовить картинки к презентациям: находишь в Google Slides -> Insert > Image > Search the web, бросаешь в GPT, чтобы подправить под стиль презентации, и готово. Еще бы интеграцию получше в редактор слайдов, чтобы не выходить из потока.
3
Если вам кажется, что внедрить RAG в продакшн просто: берем тексты, вызываем API для получения векторов, добавляем их в векторную базу, на каждый запрос находим ближайшие вектора и используем соответствующие документы для добавления в промт к LLM и рисуем ответы пользователю — вы абсолютно правы, это проще простого, и навыки в дата-сайнс вообще не нужны.

Только не удивляйтесь, когда ИИ в следующий раз даст вам надежный и проверенный совет есть камни.

https://www.perplexity.ai/page/Googles-AI-Overview-6ixf9QoPScqEzqpnbiBgJw
😁3👏2
Выступаю на местном митапе завтра https://www.linkedin.com/feed/update/urn:li:activity:7198249347925364737/

Я расскажу вам об особом виде прокрастинации — написании заметок. Конечно я добавил про локальные LLM. Потому что для заметок я бы не хотел зависеть от внешнего API.

Если вы в Вильнюсе, заходите.

пс: На картинке мои заметки в виде графа.
🔥3
Похоже, что Andrej Karpathy готовит полноценный курс по LLM! У него уже есть отличные видео на разные темы связанные с LLM. Этот курс будет не о промпт-инжиниринге, а о том, как разработать свою собственную LLM с нуля. Хотя для рядового пользователя не то, чтобы нужно, но курс кажется супер полезным если хотите разобраться в деталях.

Ссылка https://github.com/karpathy/LLM101n.

Пока есть только план занятий, ждем


Syllabus

Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)
🔥7👍1
Что такое ИИ Агент?

ИИ-агенты — это очень горячая тема сегодня. Кто-то даёт абстрактные академические определения, а кто-то считает их просто классом в LangChain.

На wiki дается следующее определение:
Агент — воспринимает свою среду, действует автономно для достижения целей и может улучшать свою производительность посредством обучения или приобретения знаний.

С практической точки зрения программиста, агент — это просто программа, которая для решения задач использует LLM.

Но если у нас есть OpenAI API, и мы написали промпт и вызвали LLM — это уже агент? А если мы сделали цепочку вызовов? Нет, обычно такую программу агентом не называют. Так какую называют?

Как правило, если в вашей стратегии вызовов LLM есть циклы, то это можно назвать агентной системой.

1. Пример без агентов: Мы взяли задачу с LeetCode, применили все навыки промт-инженера и закинули в GPT, получив решение. Порядок выполнения линейный.
2. Пример с агентом: Мы сделали то же самое, что и в примере 1, но добавили шаг, позволяющий запустить код, получить обратную связь и, если задача не прошла тесты, собрать фидбек и улучшить решение. Таким образом, у нас появляется инструмент (запуск программы и анализ результатов) и цикл — если задача не решена, пробовать снова.

Почему агенты — это важная тема? Потому что для решения сложных задач всегда нужны инструменты и много шагов. Но главное, не стоит бояться слова “агент”. В первую очередь, это программа.

Мне понравился комментарий от Andrew Ng о том, что не нужно спорить, что является агентной системой, а что нет, а просто делать.


[1] Andrew Ng On AI Agentic Workflows
[2] LLM Powered Autonomous Agents
[3] LangChain: Custom agent
[4] Wiki: Intelligent agent
👍43
OCR скриштов.

Часто на звонках или при просмотре видео нам нужно скопировать текст с изображения. Я заметил, что это довольно частая потребность — извлекать текст из картинок. Раньше я написал небольшой скрипт на Python для этого.

На MacOS встроенная функция OCR работает хорошо, но её нужно немного настроить для удобства. В MacOS есть несколько способов автоматизации: Automator и Shortcuts. Shortcuts активно развивается и подходит для многих задач. С его помощью можно запускать скрипты и вызывать системные API простым перетаскиванием блоков.

Я долгое время пользовался быстро собранным пайплайном, который делал скриншот области экрана, запускал системный OCR и сохранял результат в буфер обмена. Недавно обновление MacOS сломало эту функцию, и я понял, насколько часто я её использовал. К счастью, решение оказалось простым: можно в Shortcuts заменить блок для скриншота области на вызов соответствующей системной команды из bash.

Если вам знакома эта проблема, но вы ещё не пробовали настраивать подобное, рекомендую попробовать: https://github.com/e-kotov/macos-shortcuts

Если вы windows пользователь и тоже решили проблему OCR скринов, поделитесь
👍2
С текстовыми открытыми LLM всё неплохо, но с vision моделями пока все сильно хуже (по моим тестам). Недавно Microsoft выпустила Phi-3.5, в том числе и vision модель, которую можно найти https://huggingface.co/microsoft/Phi-3.5-vision-instruct. В Twitter много примеров, где демонстрируется, как хорошо эта модель распознаёт текст на изображениях. Решил проверить – с английским действительно справляется неплохо, но вот с другими языками пока не всё так гладко. Кириллицу не распознала, но выдумала текст. Немецкий частично распознало, литовский тоже мимо.

Этот пример демонстрирует, почему использование таких моделей для распознавания текста пока не заменяет классический OCR – они подвержены галлюцинациям. Когда обычный OCR не справляется, мы получаем неверные символы. Здесь же можно получить совершенно вымышленную информацию.

В целом, демонстрация возможностей впечатляет, особенно учитывая, что это всего лишь 4B модель. Однако при выборе юзкейсов стоит быть осторожным и помнить, что это генеративная модель.

Для сравнения, GPT-4o справляется с этой задачей идеально, но стоит учитывать, что масштабы модели совсем другие и это все равно не отменяет, что на сложных изображениях мы можем получить что-то вымышленное.
2👍1
Теперь advanced voice mode доступен в EU для плюс пользователей

Если еще не пробовали — это реально меняет игру. С сетью теперь можно говорить, и это ощущается очень естественно. Хотя ей, конечно, подкрутили ограничения: петь и имитировать звуки пока сложно.

Также стал доступен: доступен API в реальном времени, так что теперь можно строить свои приложения на базе этого. Вот пример видео, где как раз показывается, как это можно использовать.

Кстати, особенность его в том, что тут работает мультимодальная модель — она не просто переводит текст, а распознает интонацию, стиль речи и может генерировать свой ответ прямо на лету.

Рекомендую попробовать.
3🔥3
Раз в год у меня возвращается желание что-то написать сюда.
Тема у меня тут, как правило, одна - искусственный интеллект.
Но в последнее время информации стало столько, что добавлять еще не хотелось.

Следить за всеми апдейтами - это легко превратить в ловушку: читаешь, что нового появилось, и… ничего не делаешь.
Попытка угнаться за всем заканчивается потерей интереса делать что-то.

Долгое время я считал, что ИИ недооценён, а не переоценён.
Сейчас вижу - и то, и другое правда одновременно.
Магическая кнопка «решить все проблемы и заработать» - это про хайп.
За последний год я видел десятки прототипов, где всё выглядит просто: собери квадратики на диаграмме, и вот он - готовый продукт.

Но на практике это почти никогда не летит.

Хорошие продукты, которые я встречал, всегда отличались двумя вещами:
1. Чёткими метриками (eval).
2. Очень быстрыми итерациями.

Формула простая:
Не нужно быть самым умным, чтобы сделать лучший промпт или систему.
Нужно понять боль, разобраться, как измерять качество решения, и как можно быстрее проверять гипотезы.
Чем больше экспериментов - тем ближе ты к действительно хорошему продукту.
В целом мало отличается от обычной разработки продукта, правда?

сделаем еще один заход на телеграм, меньше новостей - больше наблюдений
9
как я перестал воевать со своими заметками

Когда информации становится слишком много, способ, как ты с ней работаешь, решает всё.

Я долго пытался построить идеальную систему в obsidian - делил всё на атомарные заметки, связывал, тэгал, линковал. Но на практике искать и вспоминать нужное было сложно: слишком много кусочков, слишком мало смысла.

С появлением LLM всё поменялось. Я стал смотреть на заметки не как на энциклопедию, а как на контекст, с которым может работать LLM. Теперь у меня меньше заметок, но они объёмнее - внутри целые темы с идеями, ссылками, конспектами и выводами, активно используются директории чтобы собрать связную информацию по разным сферам.

Claude Code стал для меня чем-то вроде менеджера заметок: он помогает планировать, искать, связывать, писать. Я просто объясняю задачу - и он сам находит нужные фрагменты, подсказки, старые мысли.

В целом claude code персональный выбор, но работает с любыми агентами - суть что обсидиан это некий подключаемый контекст, который пишется не только для меня, но для агентов.

Главное, что я понял: не существует универсальной системы. У всех разный стиль мышления, уровень внимания, подход к структуре.

Мои заметки - это не “чистая база знаний”, а немного структурированный хаос, мне не хватает дисциплины поддерживать строгие системы, но ИИ инструменты наконец позволяют с этим управляться
👍5
Bayesian Noise
как я перестал воевать со своими заметками Когда информации становится слишком много, способ, как ты с ней работаешь, решает всё. Я долго пытался построить идеальную систему в obsidian - делил всё на атомарные заметки, связывал, тэгал, линковал. Но на практике…
Раньше я писал, что Claude Code сильно помогает мне вести Obsidian. И, судя по твитерам, я не один такой. Даже автор Obsidian выложил набор скилов для Claude (и других агентов, которые их поддерживают): https://github.com/kepano/obsidian-skills

Мелочь, а приятно - новые версии Claude теперь пишут эти .base заметно лучше. (да, я почти полностью перешел с dataviw для новых юзкейсов)

Второй интересный тренд - CLI. Тот же Claude Code, Aider и похожие инструменты запустили тренд с CLI. Я люблю разные кли. гораздо проще интегрировать с разными агентами и пайплайнами.

И Obsidian тоже теперь есть собственный CLI:
https://help.obsidian.md/cli

Я как человек, когда-то измученный Окнами и «платформами для всего», очень люблю юникс вей, вместо монолитной экосистемы — маленькие инструменты, которые можно связать как хочешь.
👍4