Сегодня про соревнование эфемерных и кожаных мешков в написании промтов для LLM (не только GPT)
#LLM #prompting #benchmark #text
#LLM #prompting #benchmark #text
Среди LLM новый царь горы — Gemini от Google. По ключевой метрике MMLU эта языковая нейросеть обгоняет среднего человека. Сегодня и в ближайшие дни будет много-много-много слов о Gemini в СМИ.
#text #gemini #benchmark
#text #gemini #benchmark
#ОбзорГены №5
Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.
{ Свежак }
🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.
{ Пульс }
⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.
{ Текстуры }
✅ ChatGPT-3.5 всё — пора пользоваться другими LLM.
✅ Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер:остается много человеческого труда .
✅ Тренды в GenAI от Степана Гершуни.
✅ Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
✅ Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.
{ Находки }
😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).
{ Перекресток мнений }
❓ Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.
#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ ChatGPT-3.5 всё — пора пользоваться другими LLM.
✅ Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер:
✅ Тренды в GenAI от Степана Гершуни.
✅ Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
✅ Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.
{ Находки }
😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).
{ Перекресток мнений }
#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAIs New SECRET "GPT2" Model SHOCKS Everyone" (OpenAI New gpt2 chatbot)
OpenAIs New SECRET "GPT2" Model SHOCKS Everyone" (OpenAI New gpt2 chatbot)
How To Not Be Replaced By AGI https://youtu.be/AiDR2aMye5M
Stay Up To Date With AI Job Market - https://www.youtube.com/@UCSPkiRjFYpz-8DY-aF_1wRg
AI Tutorials - https://www.you…
How To Not Be Replaced By AGI https://youtu.be/AiDR2aMye5M
Stay Up To Date With AI Job Market - https://www.youtube.com/@UCSPkiRjFYpz-8DY-aF_1wRg
AI Tutorials - https://www.you…
Первый бенчмарк для video-to-answer
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Claude снова побил GPT-4(o)
Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.
#release #llm #leaderboard #benchmark
Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.
#release #llm #leaderboard #benchmark