Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!
Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.
Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.
Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки
В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.
За наводку спасибо автору @epsiloncorrect
Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.
Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.
Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки
В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.
За наводку спасибо автору @epsiloncorrect
Forwarded from Сиолошная
Вернёмся на минутку ко вчерашнему посту про лидерборд Chatbot Arena
Вот написано, что рейтинг GPT-4-Turbo 1251, Claude 3 Opus 1233, а Mistral Large 1155. Такая разница — это много или мало? Как её интерпретировать?
Вообще система Эло рейтинга построена так, что сам рейтинг позволяет оценить вероятность победы одного игрока (или модели) над другим. Если рейтинг одинаковый, то шансы 50/50. Если разница 500 очков, то игрок с более низким рейтингом будет проигрывать 99.9%+ игр.
К сожалению, в расчёте есть маленькая техническая особенность — рейтинг оценивается относительно слабой модели LLAMA-2 (нужна ведь точка отсчёта), а не для каждой-с-каждой LLM. Однако мы можем посмотреть на попарные сравнения конкретных моделей, посчитать долю побед одной и второй, и в целом это должно биться с рейтингом. Так что ниже я оперирую именно процентами побед в «очных встречах», а не рейтингом, но они сильно связаны, и при большом количестве голосов должны быть идентичны.
Итак, давайте сравнивать:
1) GPT-4-Turbo VS Claude 3 Opus. Разница в рейтинге минорная. Но если задать моделям 100 вопросов, то в 54 более предпочтительным будем ответ модели OpenAI, а в 46 — Anthropic. 54/46, достаточно близко!
2) GPT-4-Turbo VS Google Bard: 57/43, уже грустнее
3) GPT-4-Turbo VS Mistral Large: 75/25 (!!! огромнейший разрыв). То есть если вы зададите моделям 100 вопросов, то в 75 из них вы прям заметите, что ответ GPT лучше — это существенная разница.
Ну а дальше всё еще грустнее:
4) GPT-4-Turbo VS ChatGPT (GPT 3.5): 77/23 (поэтому не нужно оценивать качество моделей по бесплатной версии)
5) Claude 3 Sonet (бесплатная в веб-версии) VS ChatGPT: 68/32 (-> не нужно использовать бесплатную модель от OpenAI)
То есть разница в 40-50+ рейтинга — это уже существенное и заметное на практике отличие одной модели от другой.
Остальные цифры можете найти тут или в первом комментарии.
Вот написано, что рейтинг GPT-4-Turbo 1251, Claude 3 Opus 1233, а Mistral Large 1155. Такая разница — это много или мало? Как её интерпретировать?
Вообще система Эло рейтинга построена так, что сам рейтинг позволяет оценить вероятность победы одного игрока (или модели) над другим. Если рейтинг одинаковый, то шансы 50/50. Если разница 500 очков, то игрок с более низким рейтингом будет проигрывать 99.9%+ игр.
К сожалению, в расчёте есть маленькая техническая особенность — рейтинг оценивается относительно слабой модели LLAMA-2 (нужна ведь точка отсчёта), а не для каждой-с-каждой LLM. Однако мы можем посмотреть на попарные сравнения конкретных моделей, посчитать долю побед одной и второй, и в целом это должно биться с рейтингом. Так что ниже я оперирую именно процентами побед в «очных встречах», а не рейтингом, но они сильно связаны, и при большом количестве голосов должны быть идентичны.
Итак, давайте сравнивать:
1) GPT-4-Turbo VS Claude 3 Opus. Разница в рейтинге минорная. Но если задать моделям 100 вопросов, то в 54 более предпочтительным будем ответ модели OpenAI, а в 46 — Anthropic. 54/46, достаточно близко!
2) GPT-4-Turbo VS Google Bard: 57/43, уже грустнее
3) GPT-4-Turbo VS Mistral Large: 75/25 (!!! огромнейший разрыв). То есть если вы зададите моделям 100 вопросов, то в 75 из них вы прям заметите, что ответ GPT лучше — это существенная разница.
Ну а дальше всё еще грустнее:
4) GPT-4-Turbo VS ChatGPT (GPT 3.5): 77/23 (поэтому не нужно оценивать качество моделей по бесплатной версии)
5) Claude 3 Sonet (бесплатная в веб-версии) VS ChatGPT: 68/32 (-> не нужно использовать бесплатную модель от OpenAI)
То есть разница в 40-50+ рейтинга — это уже существенное и заметное на практике отличие одной модели от другой.
Остальные цифры можете найти тут или в первом комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Маствотч
Редкая видео-рекомендация — интервью Яна ЛеКуна в подкасте у Лекса Фридмана. С множеством технических деталей, но четко обозначающее пределы архитектуры трансформера (текущей версии LLM) и предлагающее альтернативу в виде JEPA. Новая архитектура нацелена обучить машину понимать до-/вне-языковые представления, которые не извлекаемы из естественного языка или извлекаемы, но с избыточной тратой энергии.
#mustwatch #llm #jepa
Редкая видео-рекомендация — интервью Яна ЛеКуна в подкасте у Лекса Фридмана. С множеством технических деталей, но четко обозначающее пределы архитектуры трансформера (текущей версии LLM) и предлагающее альтернативу в виде JEPA. Новая архитектура нацелена обучить машину понимать до-/вне-языковые представления, которые не извлекаемы из естественного языка или извлекаемы, но с избыточной тратой энергии.
#mustwatch #llm #jepa
YouTube
Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416
Yann LeCun is the Chief AI Scientist at Meta, professor at NYU, Turing Award winner, and one of the most influential researchers in the history of AI. Please support this podcast by checking out our sponsors:
- HiddenLayer: https://hiddenlayer.com/lex
- LMNT:…
- HiddenLayer: https://hiddenlayer.com/lex
- LMNT:…
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Новая нейросеть с виральными видео 😃 Научились вмонтировать сторонние сущности в реальное видео. Качество низкое, но идея свежая.
Название — Viggle AI (доступна бесплатно в Discord).
#release #video
Название — Viggle AI (доступна бесплатно в Discord).
#release #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Воскресное.
Недавно OpenAI открыл доступ к SORA для избранных видеомейкеров. Одна из опубликованных в итоге короткометражек сделана полностью на AI-сгенерированном материале, но с понятной и яркой человеческой историей, без отвлекающих артефактов. Ребята из shy kids придумали как избежать случайность технологии и подчинить картинку придуманной истории, пост-продакшен естественно никуда не делся. На мой взгляд, это пример хорошего видео, в котором есть всё, кроме съемки реальной реальности.
#video #sora #weekend
Недавно OpenAI открыл доступ к SORA для избранных видеомейкеров. Одна из опубликованных в итоге короткометражек сделана полностью на AI-сгенерированном материале, но с понятной и яркой человеческой историей, без отвлекающих артефактов. Ребята из shy kids придумали как избежать случайность технологии и подчинить картинку придуманной истории, пост-продакшен естественно никуда не делся. На мой взгляд, это пример хорошего видео, в котором есть всё, кроме съемки реальной реальности.
#video #sora #weekend
YouTube
air head 🎈 a sora short
our first experiment with openai's text-to-video model, sora.
the challenge we set for ourselves was to achieve consistency from generation to generation and successfully paint a portrait of a single character using sora. this is the result of that experimentation.…
the challenge we set for ourselves was to achieve consistency from generation to generation and successfully paint a portrait of a single character using sora. this is the result of that experimentation.…
#ОбзорГены
Что не могло пройти мимо радаров на минувшей неделе, а также неожиданно нашло отклик? Возникла потребность еженедельно бросать якорь в области GenAI — оставлять на память ключевые события: релизы, новости, материалы и темы.
{ Свежак }
🔠 Adobe анонсировал ControlNet для Firefly под названием Structure reference. Можно сгенерировать изображение на основе структуры (depth и др.) input-изображения. Давно есть в Stable Diffusion, однако нет ни у DALL-E, ни у Midjourney.
🔠 Hume.ai выпустили голосового чатбота со способностью распознавать эмоции. Самобытная компания, названная по имени великого шотландского философа-эмпириста, обучает именно эмоциональные модели в разных модальностях (текст / изображение / речь / видео). Давно слежу за ними, использую их технологию в одном проекте.
{ Пульс }
⚡️ Claude 3 Opus опередил GPT-4 (последней версии) на Chatbot Arena Leaderboard, где пользователи вслепую голосуют за лучший ответ одной из двух моделей. А еще бесплатный Claude "на голову" лучше бесплатного ChatGPT, правда с более жесткими ограничениями на пользование.
⚡️ Модель YandexGPT 3 Pro можно дообучить под свои нужды в сервисе DataSphere. Яндекс стабильно отстает примерно на 1 год от OpenAI, зато они остаются лидерами для российских разработчиков, которые по тем или иным причинам не могут использовать зарубежные модели.
{ Текстуры }
✅ Знаменитый Andrew Ng рассказал об AI Agentic workflows — по его мнению, результатов GPT-5 в zero-shot версии можно добиться уже сейчас за счет правильного Agentic workflow (итеративная генерация + добавление внешних инструментов). Авто-планирование шагов и мульти-агентные фреймворки, по его мнению, пока недостаточно надежны.
✅ Ресерч по AI-детекторам — отличный разбор того, можно ли достоверно определить является ли текст ИИ-сгенерированным? Короткий ответ —нет .
✅ ChatGPT справляется с задачами на программирование с leetcode — пользовательский разбор.
{ Перекресток мнений }
❓ GPTs c кастомными функциями. Есть мнение, что GPT-store еще не успев полноценно заработать, уже превратился в помойку с тысячами не отличимых друг от друга GPT-ассистентами. Я соглашусь с этим мнением в том, что пока затраты на поиск и тестирование сторонних GPTs превышает выгоду. Однако всё меняет одна черта — наличие внешних (кастомных) функций, нереализованных внутри ChatGPT. В качестве примера Photo Realistic GPT, который под капотом использует Stable Diffusion вместо DALL-E.
#image #hume #text #claude #llm #finetuning #gpts #aiagent #coding
Что не могло пройти мимо радаров на минувшей неделе, а также неожиданно нашло отклик? Возникла потребность еженедельно бросать якорь в области GenAI — оставлять на память ключевые события: релизы, новости, материалы и темы.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Знаменитый Andrew Ng рассказал об AI Agentic workflows — по его мнению, результатов GPT-5 в zero-shot версии можно добиться уже сейчас за счет правильного Agentic workflow (итеративная генерация + добавление внешних инструментов). Авто-планирование шагов и мульти-агентные фреймворки, по его мнению, пока недостаточно надежны.
✅ Ресерч по AI-детекторам — отличный разбор того, можно ли достоверно определить является ли текст ИИ-сгенерированным? Короткий ответ —
✅ ChatGPT справляется с задачами на программирование с leetcode — пользовательский разбор.
{ Перекресток мнений }
#image #hume #text #claude #llm #finetuning #gpts #aiagent #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
Скриншоты из лекции Andrew Ng
{1} типы элементов AI Agentic workflows
{2} эффективность Reflection
{3} типы внешних инструментов
#aiagent
{1} типы элементов AI Agentic workflows
{2} эффективность Reflection
{3} типы внешних инструментов
#aiagent
2-ое место в AI Hackathon
Минувшую неделю провел в Кыргызстане. По приглашению Международного университета Центральной Азии выступил внешним экспертом в команде университета на AI Hackathon, организованном Парком высоких технологий в Бишкеке.
У нас в первый же день хакатона случилась нестыковка ожиданий и реальности. Мы готовились активно пилить прототип / MVP, а рамка хакатона оказалась не технической, а бизнесовой, и конечным результатом был 2-минутный (!!) питч перед жюри. Второй неожиданностью было то, что некоторые команды разрабатывали проект не с нуля (как это предполагает классический формат хакатона). Именно такой проект победил с крутой идеей "робота для настенной живописи" (типа настенного принтера), у них на руках уже был собранный прототип, который можно потрогать.
Мы же разрабатывали AI-сервис для развития креативности у студентов (наши pitchdeck, демо и собственно питч). Для прототипа взяли за основу 30 Circles Exercise — упражнение, где нужно дорисовать два исходных круга до узнаваемого объекта и так 30 раз. Креативность базово оценивается по количеству рисунков, разнообразию и оригинальности конкретных идей. AI в этом процессе дает подсказки (когда ступор) и оценивает конечные рисунки.
Мне было очевидно, что GPT-Vision здорово справится с задачей оценивания, приятным сюрпризом стало то, что текстовые AI-подсказки и оригинальные идеи от самого GPT тоже на уровне. Например, ChatGPT предложил нарисовать две стороны античной монеты. Ниже прикреплю несколько рисунков, которые нарисовали мы сами, когда устраивали внутренний контест.
P.s. картинка к посту, оказывается, стала реальностью даже в Кыргызстане.
#aihackathon #edu #image #vision
Минувшую неделю провел в Кыргызстане. По приглашению Международного университета Центральной Азии выступил внешним экспертом в команде университета на AI Hackathon, организованном Парком высоких технологий в Бишкеке.
У нас в первый же день хакатона случилась нестыковка ожиданий и реальности. Мы готовились активно пилить прототип / MVP, а рамка хакатона оказалась не технической, а бизнесовой, и конечным результатом был 2-минутный (!!) питч перед жюри. Второй неожиданностью было то, что некоторые команды разрабатывали проект не с нуля (как это предполагает классический формат хакатона). Именно такой проект победил с крутой идеей "робота для настенной живописи" (типа настенного принтера), у них на руках уже был собранный прототип, который можно потрогать.
Мы же разрабатывали AI-сервис для развития креативности у студентов (наши pitchdeck, демо и собственно питч). Для прототипа взяли за основу 30 Circles Exercise — упражнение, где нужно дорисовать два исходных круга до узнаваемого объекта и так 30 раз. Креативность базово оценивается по количеству рисунков, разнообразию и оригинальности конкретных идей. AI в этом процессе дает подсказки (когда ступор) и оценивает конечные рисунки.
Мне было очевидно, что GPT-Vision здорово справится с задачей оценивания, приятным сюрпризом стало то, что текстовые AI-подсказки и оригинальные идеи от самого GPT тоже на уровне. Например, ChatGPT предложил нарисовать две стороны античной монеты. Ниже прикреплю несколько рисунков, которые нарисовали мы сами, когда устраивали внутренний контест.
P.s. картинка к посту, оказывается, стала реальностью даже в Кыргызстане.
#aihackathon #edu #image #vision