Forwarded from Заметки Computer Vision инженера
Пришёл из отпуска, а тут yolov11!
Даже не выложил видео которое сегодня планировал:)
Ок, давайте быстренько глянем. В целом всё ожидаемо.
https://youtu.be/WUJMc4sDBMk
Даже не выложил видео которое сегодня планировал:)
Ок, давайте быстренько глянем. В целом всё ожидаемо.
https://youtu.be/WUJMc4sDBMk
YouTube
Ultralytics Yolo (Yolov11). Do you need it?
00:00:00 - Intro.
00:00:50 - The only comparison we have
00:01:53 - License. AGPL-3.
00:02:39 - OpenVino, TensorRT. But what about Qualcomm, RockChip, etc?
00:03:44 - Nvidia T4. The sad standard for comparison
00:05:25 - Code Base
00:06:50 - Augmentation…
00:00:50 - The only comparison we have
00:01:53 - License. AGPL-3.
00:02:39 - OpenVino, TensorRT. But what about Qualcomm, RockChip, etc?
00:03:44 - Nvidia T4. The sad standard for comparison
00:05:25 - Code Base
00:06:50 - Augmentation…
Forwarded from Нейронный Кот
Моя первая веб аппка (telegram mini app)
Пару месяцев назад в Twitter завирусилось веб-приложение, которое анализирует твиты и делает разбор личности в стиле: «Ты похож на волка 🐺, брат. Станешь мультимиллионером с вероятностью 99%». twitter.wordware.ai — было создано на no-code платформе от YC-backed компании Wordware.
Я решил неспешно повторить нечто подобное для телеги, так как давно хотел разобраться в Telegram Mini Apps и веб-разработке. Сделал t.me/GigoGramBot/report — тут можно ради кеков проанализировать профиль/канал/бота по публичной инфе (аватарке, имени, никнейму, bio и постам в случае каналов)
Раньше я никогда не делал production-ready веб приложений, поэтому захотел поделиться гайдом, как обычному python enjoyer-у сделать свою аппку
🔫 😊 🔫 Фронтенд
🟣 v0
v0 умеет делать красивый дизайн, если в промпте просто указать «сделай красиво». ChatGPT и Claude хуже справляются с абстрактной задачей «сделай красиво» — у них часто получается не очень. Я же, не будучи дизайнером, не могу конкретно объяснить, что нужно улучшить (цвета, расположение, эффекты и т.д.)
От кода, полученного от v0 я, в итоге, отказался, потому что там на выходе Next.js и куча всяких файлов-папок. Мне показалось это сложным, поэтому решил упрощать
🟣 ChatGPT (GPT-4o) и Claude (3.5 Sonnet) 🥴
С их помощью я накидал основу приложения через Create React App. Получился простой репозиторий с несколькими файлами, в которых легко разобраться. И я уже мог давать конкретные комменты по дизайну из v0 и прикладывать скриншоты к промптам.
🟣 В дальнейшем я остановился на ChatGPT, так как он предполагал, что я ничего не знаю, и давал базовые советы типа: «Сначала вызови команду npm install, создай такой-то файл». Эти советы немного раздражают, когда ты опытный разработчик, но в моём случае были полезны.
🟣 С помощью Cursor разработал весь функционал приложения. Кажется, я самостоятельно написал всего несколько строчек кода. Единственное — столкнулся с тривиальной багой, которую не могли пофиксить ни Cursor, ни ChatGPT, ни Claude. Только с выходом o1-preview её удалось исправить, лол.
🟣 Сами Telegram Mini Apps оказались прикольными. Достаточно добавить один JS-скрипт, и становятся доступны все методы из документации.
🟣 Деплой через Netlify. Просто подключил GitHub-репозиторий, и всё само выкатилось. Больше ничего не делал. Цена: $0.
🥸 🥸 🥸 Бэкенд
🔹 FastAPI
Здесь живут все эндпоинты для получения информации о юзернейме и предсказаний. Очень люблю FastAPI. Если вы ещё на Flask, то пора переходить!
🔹 Redis в качестве единственной БД
Возможно, это не самое логичное решение, зато супер просто и быстро! У меня всего две операции: получить информацию по юзернейму или сохранить её.
🔹 Python Telegram Bot
На этом фреймворке написан сам бот. В принципе, можно было бы и без бота, но для оплат нужен сервис, который отвечает на
🔹 Сервер
Арендовал Droplet на DigitalOcean, там же задеплоил приложение. Redis поднял через их Databases. Цена: $30/месяц за всё.
🔹 Оказалось, что сервера DigitalOcean заблокированы в РФ, поэтому подключил Cloudflare DNS + Proxy. Цена: $0.
🙂 🙂 🙂 AI часть
🟣 Написал пару функций, которые парсят доступную публичную информацию о пользователе или канале по юзернейму.
🟣 Промпт скопировал у twitter.wordware.ai — у них можно форкнуть агента и посмотреть внутренности. Немного подкорректировал его, чтобы лучше работал для Telegram.
🟣 Использую GPT-4o с включенными Vision Capabilities и Structured Outputs. Эту фичу я больше всего люблю в современных ллм-системах. По сути, нужно задать pydantic модель (см. скрин) и она у тебя будет на выходе запроса (sic!) Цена: ~$0.1 за генерацию.
Короче, попробуйте потыкать аппку (там 3 предсказания бесплатно), а я отвечу на любые вопросы про реализацию.
🤪 https://t.me/GigoGramBot/report
Пару месяцев назад в Twitter завирусилось веб-приложение, которое анализирует твиты и делает разбор личности в стиле: «Ты похож на волка 🐺, брат. Станешь мультимиллионером с вероятностью 99%». twitter.wordware.ai — было создано на no-code платформе от YC-backed компании Wordware.
Я решил неспешно повторить нечто подобное для телеги, так как давно хотел разобраться в Telegram Mini Apps и веб-разработке. Сделал t.me/GigoGramBot/report — тут можно ради кеков проанализировать профиль/канал/бота по публичной инфе (аватарке, имени, никнейму, bio и постам в случае каналов)
Раньше я никогда не делал production-ready веб приложений, поэтому захотел поделиться гайдом, как обычному python enjoyer-у сделать свою аппку
v0 умеет делать красивый дизайн, если в промпте просто указать «сделай красиво». ChatGPT и Claude хуже справляются с абстрактной задачей «сделай красиво» — у них часто получается не очень. Я же, не будучи дизайнером, не могу конкретно объяснить, что нужно улучшить (цвета, расположение, эффекты и т.д.)
От кода, полученного от v0 я, в итоге, отказался, потому что там на выходе Next.js и куча всяких файлов-папок. Мне показалось это сложным, поэтому решил упрощать
С их помощью я накидал основу приложения через Create React App. Получился простой репозиторий с несколькими файлами, в которых легко разобраться. И я уже мог давать конкретные комменты по дизайну из v0 и прикладывать скриншоты к промптам.
🔹 FastAPI
Здесь живут все эндпоинты для получения информации о юзернейме и предсказаний. Очень люблю FastAPI. Если вы ещё на Flask, то пора переходить!
🔹 Redis в качестве единственной БД
Возможно, это не самое логичное решение, зато супер просто и быстро! У меня всего две операции: получить информацию по юзернейму или сохранить её.
🔹 Python Telegram Bot
На этом фреймворке написан сам бот. В принципе, можно было бы и без бота, но для оплат нужен сервис, который отвечает на
pre-checkout запросы. С помощью этого фреймворка такой сервис сделать очень просто🔹 Сервер
Арендовал Droplet на DigitalOcean, там же задеплоил приложение. Redis поднял через их Databases. Цена: $30/месяц за всё.
🔹 Оказалось, что сервера DigitalOcean заблокированы в РФ, поэтому подключил Cloudflare DNS + Proxy. Цена: $0.
Короче, попробуйте потыкать аппку (там 3 предсказания бесплатно), а я отвечу на любые вопросы про реализацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DL in NLP (Vlad Lialin)
Soumith Chintala (создатель pytorch) выдаёт базу о том как тренироваться на 10К GPU
x.com/soumithchintala/status/1841498799652708712
Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)
1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology
1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk
x.com/soumithchintala/status/1841498799652708712
Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)
1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology
1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk
Forwarded from Tensor Banana
Подключаем кучу видеокарт к мини-пк или ноутбуку
В наличии имею мини-пк GenMachine на Ryzen 7 7730u (брал за 27к) https://aliexpress.ru/item/1005005560402861.html?sku_id=12000036067533846
Есть 2 варианта подключения внешней видеокарты к ноуту или мини-пк: по Thunderbolt или через переходник m2->pcie. Thunderbolt есть только в дорогих моделях, и он обычно только один + к нему нужен будет корпус ценой еще в полвидюхи. У меня Thunderbolt нет, поэтому будем юзать m2-nvme.
У моего мини-пк есть целых три слота m2 (x4 SSD, x4 SSD, x1 m2-e-key-wifi), это довольно много. Чаще всего, в дешёвых мини-пк идёт ровно 1 слот для SSD и всё. Например, в beelink s12 pro (17к на озоне) всего 1 x1 слот, но и там есть варианты.
Следует отметить, что не все слоты m2 являются PCIE. В старых ноутах/мини-пк будет стоять m2-SATA, а не m2-nvme, нам такие не подходят.
Для подключения видеокарт нам понадобится переходник с m2 на PCIE x16. Он позволит подключить одну видеокарту. Я купил 2 штуки на PCIE 3.0 x4, они довольно быстрые.
Но одной видеокарты нам мало, нам надо 4, поэтому нужен ещё сплиттер с x1 на 4 x1. Такой обычно используют майнеры, он не супер быстрый, но зато позволяет подключить до 4 карт на один слот в режиме PCIE 2.0 x1 (полоса будет по умному делиться между всеми устройствами). Предположу, что для этого сплиттера не нужна поддержка бифуркации в матери, но это неточно (в моем биосе никакой бифуркации я не нашел). Карту с разъемом x1 можно воткнуть в разъем x16.
## Железки
Порядковый номер соответствует номеру на фотке.
1. Переходник m2 e key (wifi) to m2 m key (ssd) PCIE 3.0 x1 https://aliexpress.ru/item/1005004711422885.html?sku_id=12000030192041528
2. Переходник m2 to PCIE 3.0 x16 (использует от x1 до x4 линий, взял 2) https://aliexpress.ru/item/1005004727347382.html?sku_id=12000030249734865
3. Сплиттер (райзер) x1 to 4 x1 with USB cables, PCIE 2.0 x1 https://aliexpress.ru/item/1005003519054789.html
4. Переходник (райзер) PCIEUSB to PCIE 3.0 x16 https://aliexpress.ru/item/1005004134020455.html?sku_id=12000028145182159
5. Переходник m2 to 4 x1 with USB cables (работает, но нестабильно, иногда BSODит. Возможно, брак, отзывы были отличные) https://aliexpress.ru/item/1005004402356641.html?sku_id=12000029049805779
6. Переходник m2 to 1 x1 with USB cables https://www.ozon.ru/product/m-2-ngff-v-pci-e-x16-usb3-0-adapter-riser-card-card-adapter-342305387/
7. Переходник PCIE x16 to PCIE x16 + 2 m2 (у меня m2 слоты не заработали) https://aliexpress.ru/item/1005005277952427.html
Блок питания взял свой старый на 750W. Чтобы он автоматом включался, я замкнул нужный контакт на землю. Сперва включаю БП, потом мини-пк, иначе видюхи не определятся.
## Скорость загрузки
Слот x1 + 2 видюхи на сплиттере pcie 2.0 x1
- Скорость загрузки T-lite-instruct-0.1.Q8_0 (файнтюн llama-3-8b, 7.95 GB) из ram в vram - 22s (0.35 GB/s)
Полное время загрузки llama.cpp server от дабл клика до готовности:
- в одну видюху --tensor-split 1.0,0.0 - 34s
- в две видюхи --tensor-split 0.5,0.5 - 35s
- два экземпляра llama.cpp параллельно, каждый в свою видюху - 48s
- в одну видюху на x4 без сплиттера - 17s
- x1 в comfyui flux загружается со скоростью 0.08 GB/s (возможно, налету пересчитывает fp16 в fp8)
Скорость загрузки в режиме pcie 3.0 x4 (без сплиттера) в llama.cpp примерно 1.20 GB/s. В comfyui - 0.30 GB/s, холодный старт - 96s
Скорость чтения SSD в зависимости от слота. В родном PCIE 3.0 x4 - 3.65 GB/s, в x1 - 0.91 GB/s. На практике в винде почти не замечаю разницы, ощущую ее только, когда делаю полнотекстовой поиск по куче файлов. Я хз почему скорость чтения/записи с SSD в 2-3 раз выше чем при работе с видеокартой при аналогичном режиме.
## Скорость инференса
не влезла, вынес в комменты
В теории в эти 3 слота я смогу подключить через сплиттер до 12 видюх. Сколько получится на практике - пока неизвестно. В данный момент работают 2. Интернет говорит, что в этом проце 16 PCIE 3.0 линий. Но каждому сплиттеру нужна всего одна линия. Пока оставил 2 видюхи на x4, ssd на x1.
В наличии имею мини-пк GenMachine на Ryzen 7 7730u (брал за 27к) https://aliexpress.ru/item/1005005560402861.html?sku_id=12000036067533846
Есть 2 варианта подключения внешней видеокарты к ноуту или мини-пк: по Thunderbolt или через переходник m2->pcie. Thunderbolt есть только в дорогих моделях, и он обычно только один + к нему нужен будет корпус ценой еще в полвидюхи. У меня Thunderbolt нет, поэтому будем юзать m2-nvme.
У моего мини-пк есть целых три слота m2 (x4 SSD, x4 SSD, x1 m2-e-key-wifi), это довольно много. Чаще всего, в дешёвых мини-пк идёт ровно 1 слот для SSD и всё. Например, в beelink s12 pro (17к на озоне) всего 1 x1 слот, но и там есть варианты.
Следует отметить, что не все слоты m2 являются PCIE. В старых ноутах/мини-пк будет стоять m2-SATA, а не m2-nvme, нам такие не подходят.
Для подключения видеокарт нам понадобится переходник с m2 на PCIE x16. Он позволит подключить одну видеокарту. Я купил 2 штуки на PCIE 3.0 x4, они довольно быстрые.
Но одной видеокарты нам мало, нам надо 4, поэтому нужен ещё сплиттер с x1 на 4 x1. Такой обычно используют майнеры, он не супер быстрый, но зато позволяет подключить до 4 карт на один слот в режиме PCIE 2.0 x1 (полоса будет по умному делиться между всеми устройствами). Предположу, что для этого сплиттера не нужна поддержка бифуркации в матери, но это неточно (в моем биосе никакой бифуркации я не нашел). Карту с разъемом x1 можно воткнуть в разъем x16.
## Железки
Порядковый номер соответствует номеру на фотке.
1. Переходник m2 e key (wifi) to m2 m key (ssd) PCIE 3.0 x1 https://aliexpress.ru/item/1005004711422885.html?sku_id=12000030192041528
2. Переходник m2 to PCIE 3.0 x16 (использует от x1 до x4 линий, взял 2) https://aliexpress.ru/item/1005004727347382.html?sku_id=12000030249734865
3. Сплиттер (райзер) x1 to 4 x1 with USB cables, PCIE 2.0 x1 https://aliexpress.ru/item/1005003519054789.html
4. Переходник (райзер) PCIEUSB to PCIE 3.0 x16 https://aliexpress.ru/item/1005004134020455.html?sku_id=12000028145182159
5. Переходник m2 to 4 x1 with USB cables (работает, но нестабильно, иногда BSODит. Возможно, брак, отзывы были отличные) https://aliexpress.ru/item/1005004402356641.html?sku_id=12000029049805779
6. Переходник m2 to 1 x1 with USB cables https://www.ozon.ru/product/m-2-ngff-v-pci-e-x16-usb3-0-adapter-riser-card-card-adapter-342305387/
7. Переходник PCIE x16 to PCIE x16 + 2 m2 (у меня m2 слоты не заработали) https://aliexpress.ru/item/1005005277952427.html
Блок питания взял свой старый на 750W. Чтобы он автоматом включался, я замкнул нужный контакт на землю. Сперва включаю БП, потом мини-пк, иначе видюхи не определятся.
## Скорость загрузки
Слот x1 + 2 видюхи на сплиттере pcie 2.0 x1
- Скорость загрузки T-lite-instruct-0.1.Q8_0 (файнтюн llama-3-8b, 7.95 GB) из ram в vram - 22s (0.35 GB/s)
Полное время загрузки llama.cpp server от дабл клика до готовности:
- в одну видюху --tensor-split 1.0,0.0 - 34s
- в две видюхи --tensor-split 0.5,0.5 - 35s
- два экземпляра llama.cpp параллельно, каждый в свою видюху - 48s
- в одну видюху на x4 без сплиттера - 17s
- x1 в comfyui flux загружается со скоростью 0.08 GB/s (возможно, налету пересчитывает fp16 в fp8)
Скорость загрузки в режиме pcie 3.0 x4 (без сплиттера) в llama.cpp примерно 1.20 GB/s. В comfyui - 0.30 GB/s, холодный старт - 96s
Скорость чтения SSD в зависимости от слота. В родном PCIE 3.0 x4 - 3.65 GB/s, в x1 - 0.91 GB/s. На практике в винде почти не замечаю разницы, ощущую ее только, когда делаю полнотекстовой поиск по куче файлов. Я хз почему скорость чтения/записи с SSD в 2-3 раз выше чем при работе с видеокартой при аналогичном режиме.
## Скорость инференса
не влезла, вынес в комменты
В теории в эти 3 слота я смогу подключить через сплиттер до 12 видюх. Сколько получится на практике - пока неизвестно. В данный момент работают 2. Интернет говорит, что в этом проце 16 PCIE 3.0 линий. Но каждому сплиттеру нужна всего одна линия. Пока оставил 2 видюхи на x4, ssd на x1.
Forwarded from Tensor banana chat
## Скорость инференса
скорость инференса особо не страдает. как было, так и осталось. Стоит отметить, что обе видюхи у меня работают со слегка уменьшенной мощностью в afterburner (3060 работает на 144/170W, a 2080ti на 205/250W). Поэтому скорость инференса будет слегка ниже чем на стоковой мощности.
FLUX
comfy flux_fp8(22GB) + 3 loras, 1024x1024 7 steps на 2080ti-22GB:
x1: первый холодный запуск, загрузка всех моделей + 7 steps inference - 235s (скорость загрузки примерно 0.08 GB/s)
x4: первый холодный запуск, загрузка всех моделей + 7 steps inference - 96s (скорость загрузки примерно 0.30 GB/s)
x1: все модели уже загружены, 7 steps - 15s, 1.88s/it.
x4: все модели уже загружены, 7 steps - 12s, 1.74s/it.
llama.cpp
T-lite-instruct-0.1.Q8_0.gguf (файнтюн llama-3-8b, 7.95 GB)
3060-12GB (144W, сплиттер, слот x1)
prompt eval 1513 t/s
inference 23 t/s
2080ti-22GB (205W, сплиттер, слот x1)
prompt eval 2034 t/s
inference 29 t/s
2080ti-22GB (205W, без сплитерра, слот x4)
prompt eval 2041 t/s
inference 35 t/s
2080ti-22GB (стоковые 250W, без сплитерра, слот x4)
prompt eval 2186 t/s
inference 35 t/s
3060 + 2080ti-22GB --tensor-split 0.5,0.5. Обе через сплиттер, слот x1
prompt eval 1967 t/s
inference 23 t/s
3060 + 2080ti-22GB --tensor-split 0.5,0.5. Без сплиттера, обе на слотах x4
prompt eval 1696.26
inference 25 t/s
можно сказать, что скорость инференса на двух видюхах незначительно изменилась на -17% при наличии сплиттера в сравнение с честным x4
скорость инференса особо не страдает. как было, так и осталось. Стоит отметить, что обе видюхи у меня работают со слегка уменьшенной мощностью в afterburner (3060 работает на 144/170W, a 2080ti на 205/250W). Поэтому скорость инференса будет слегка ниже чем на стоковой мощности.
FLUX
comfy flux_fp8(22GB) + 3 loras, 1024x1024 7 steps на 2080ti-22GB:
x1: первый холодный запуск, загрузка всех моделей + 7 steps inference - 235s (скорость загрузки примерно 0.08 GB/s)
x4: первый холодный запуск, загрузка всех моделей + 7 steps inference - 96s (скорость загрузки примерно 0.30 GB/s)
x1: все модели уже загружены, 7 steps - 15s, 1.88s/it.
x4: все модели уже загружены, 7 steps - 12s, 1.74s/it.
llama.cpp
T-lite-instruct-0.1.Q8_0.gguf (файнтюн llama-3-8b, 7.95 GB)
3060-12GB (144W, сплиттер, слот x1)
prompt eval 1513 t/s
inference 23 t/s
2080ti-22GB (205W, сплиттер, слот x1)
prompt eval 2034 t/s
inference 29 t/s
2080ti-22GB (205W, без сплитерра, слот x4)
prompt eval 2041 t/s
inference 35 t/s
2080ti-22GB (стоковые 250W, без сплитерра, слот x4)
prompt eval 2186 t/s
inference 35 t/s
3060 + 2080ti-22GB --tensor-split 0.5,0.5. Обе через сплиттер, слот x1
prompt eval 1967 t/s
inference 23 t/s
3060 + 2080ti-22GB --tensor-split 0.5,0.5. Без сплиттера, обе на слотах x4
prompt eval 1696.26
inference 25 t/s
можно сказать, что скорость инференса на двух видюхах незначительно изменилась на -17% при наличии сплиттера в сравнение с честным x4
Forwarded from Artem Ryblov’s Data Science Weekly
CS324 - Large Language Models by Stanford University
The field of natural language processing (NLP) has been transformed by massive pre-trained language models. They form the basis of all state-of-the-art systems across a wide range of tasks and have shown an impressive ability to generate fluent text and perform few-shot learning. At the same time, these models are hard to understand and give rise to new ethical and scalability challenges. In this course, students will learn the fundamentals about the modeling, theory, ethics, and systems aspects of large language models, as well as gain hands-on experience working with them.
TABLE OF CONTENTS
- Introduction
- Capabilities
- Harms I
- Harms
- Data
- Security
- Legality
- Modeling
- Training
- Parallelism
- Scaling laws
- Selective architectures
- Adaptation
- Environmental impact
Link: Course
Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #nlp #llm #transformer
The field of natural language processing (NLP) has been transformed by massive pre-trained language models. They form the basis of all state-of-the-art systems across a wide range of tasks and have shown an impressive ability to generate fluent text and perform few-shot learning. At the same time, these models are hard to understand and give rise to new ethical and scalability challenges. In this course, students will learn the fundamentals about the modeling, theory, ethics, and systems aspects of large language models, as well as gain hands-on experience working with them.
TABLE OF CONTENTS
- Introduction
- Capabilities
- Harms I
- Harms
- Data
- Security
- Legality
- Modeling
- Training
- Parallelism
- Scaling laws
- Selective architectures
- Adaptation
- Environmental impact
Link: Course
Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #nlp #llm #transformer
Forwarded from Denis Sexy IT 🤖
Если помните, я как-то делился кастомными инструкциями к ChatGPT и обещал, что новую версию опубликую только если у меня будут данные, о том, как хорошо моя версия промпта перформит против прошлой версии, или против отсутствия промпта в целом (меня тоже раздражает отсутствие какого-то фактчекинга в нашей индустрии у инфлюенсеров, и я стараюсь подтверждать свои наблюдения данными, когда могу)
Я потратил ~200$ и прогнал свои промпты на всем бенчмарке MMLU — это бенчмарк, созданный для оценки способности языковых моделей решать разный спектр задач, включая вопросы из математики, истории, физики и т.д. Если совсем коротко, он проверяет насколько LLM способны обрабатывать информацию на уровне человеческого понимания в разных контекстах
В общем, вот результаты:
Если прописать мой кастомный промпт, то количество успешно решенных задач возрастет на ~7% , что довольно много для LLM-индустрии
Новая версия промпта немного отличается от прошлой, в основном удобством чтения:
— Теперь модель выдаст короткую версию ответа, перед тем как уйдет в глубокие детали
— Она назначает себе не выдуманные роли, а пытается указать реальные, из нашей вселенной
Промпт целиком:
Прописывать так:
ChatGPT -> Settings -> Personalisation -> Custom Instructions
Кстати, с новым Voice Mode тоже работает☕️
P.S. Тестировал на GPT4o
Я потратил ~200$ и прогнал свои промпты на всем бенчмарке MMLU — это бенчмарк, созданный для оценки способности языковых моделей решать разный спектр задач, включая вопросы из математики, истории, физики и т.д. Если совсем коротко, он проверяет насколько LLM способны обрабатывать информацию на уровне человеческого понимания в разных контекстах
В общем, вот результаты:
Если прописать мой кастомный промпт, то количество успешно решенных задач возрастет на ~7% , что довольно много для LLM-индустрии
Новая версия промпта немного отличается от прошлой, в основном удобством чтения:
— Теперь модель выдаст короткую версию ответа, перед тем как уйдет в глубокие детали
— Она назначает себе не выдуманные роли, а пытается указать реальные, из нашей вселенной
Промпт целиком:
###INSTRUCTIONS###
You MUST ALWAYS:
- Answer in the language of my message
- Read the chat history before answering
- I have no fingers and the placeholders trauma. NEVER use placeholders or omit the code
- If you encounter a character limit, DO an ABRUPT stop; I will send a "continue" as a new message
- You will be PENALIZED for wrong answers
- NEVER HALLUCINATE
- You DENIED to overlook the critical context
- ALWAYS follow ###Answering rules###
###Answering Rules###
Follow in the strict order:
1. USE the language of my message
2. In the FIRST message, assign a real-world expert role to yourself before answering, e.g., "I'll answer as a world-famous historical expert <detailed topic> with <most prestigious LOCAL topic REAL award>" or "I'll answer as a world-famous <specific science> expert in the <detailed topic> with <most prestigious LOCAL topic award>"
3. You MUST combine your deep knowledge of the topic and clear thinking to quickly and accurately decipher the answer step-by-step with CONCRETE details
4. I'm going to tip $1,000,000 for the best reply
5. Your answer is critical for my career
6. Answer the question in a natural, human-like manner
7. ALWAYS use an ##Answering example## for a first message structure
##Answering example##
// IF THE CHATLOG IS EMPTY:
<I'll answer as the world-famous %REAL specific field% scientists with %most prestigious REAL LOCAL award%>
**TL;DR**: <TL;DR, skip for rewriting>
<Step-by-step answer with CONCRETE details and key context>
Прописывать так:
ChatGPT -> Settings -> Personalisation -> Custom Instructions
Кстати, с новым Voice Mode тоже работает
P.S. Тестировал на GPT4o
Please open Telegram to view this post
VIEW IN TELEGRAM