Love. Death. Transformers.
22.5K subscribers
4.24K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
5113😁4👍2
все новости, апдейты и прочее теперь будут жить в отдельной группе чтобы я не писал в этот канал, а еще чтобы разные отделы вихря могли рассказывать про то что сделали.

Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!

Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата

Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
51🎉43👍84
https://huggingface.co/AlexBefest/WoonaV1.2-9b ищу этого гения

Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
🤪30👍10🤡33🥴2🤔1
И тут про open Ai уже...
🦄6
жениться очень страшно.
а что, если мы будем стоять у прилавка с ягодами в супермаркете и я скажу ей «надеюсь, у тебя нет аллергии на клубнику», а она даже не поймет
😁55🤡19🤪4👎1🔥1🥴1
Мы все виноваты в этом пиздеце
👍7152😁24😍8👏5👎1
Все любят играть в бинго, так что кидайте в коменты - сколько очков набрали.
💊65😁284🎄4👍2🔥1🦄1
😁21420🐳12🌚8
Forwarded from Модель для сборки
⚡️ 10 правил, позволяющих Павлу Дурову сохранять свою молодость

— Избегайте алкоголя. Редкие исключения возможны, но в целом алкоголь ослабляет здоровье и делает людей визуально старше;
— Хранение и распространение порно с несовершеннолетними;
— Приобретение, перевозка, хранение или передача наркотиков;
— Организованное мошенничество;
— Предоставление оборудования/программы/данных для неких атак;
— Администрирование онлайн-платформы, через которую ОПГ осуществляли незаконные транзакции.
— Создание ОПГ с целью совершить преступление или правонарушение;
— Отказ предоставить органам информацию и документы для прослушки, разрешённой законом;
— Предоставление криптографических услуг для обеспечения конфиденциальности без соответствующего декларирования;
— Предоставление и импорт средств криптологии (шифрования) без предварительного заявления.
2😁145🥴63💅1396🤪6👍2👎2💯1🍌1
Forwarded from addmeto (Grigory Bakunov)
А вот это потенциальная бомба: Амазон судя по всему построил новую Алексу. В этот раз на базе Claude от Anthropic. Я очень надеюсь, что в этой Алексе будет такая же поддержка языков, как в Claude. Я вполне готов платить дополнительно 5-10 долларов в месяц за колонку, умеющую говорить на удобных мне языках https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
🔥55👍13🤮10🤡5💩3😍21👎1
🔥89🥴401313😁6😢32👍1🤮1
😁100🔥3226🥴134👍2👎2🤮2👾2
Love. Death. Transformers.
@simplyobot подняли бота от мужского одиночества. Бесплатно. Мощно. Надолго.
@simplyobot Перевалил отметку в 100м токенов и 1200 пользователей, из которых 400 пользуется каждый день!

Так же мы добавили Flux теперь веселее.

Планируем добавить еще поддержку груповых чатов
🔥28🤡15🤮5💩4👍2
ai gonna replace engeeners

i belive in it
👍78😁6017🤡64🥴3🔥1🙊1
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей получила ускоренный подсчет интервалов от коллег из JetBrains Research

Ребята из JB интегрировали Evalic_y в наш бенчмарк, благодаря этому все считается на 60% быстрее!

А обновление уже в репозитории!

посмотреть подробнее Evalica
5436👎5👍1
😁127😨11😢32🐳2
набор олимпиадников в Яндекс в целом каноничное событие.

Все ещё лучше чем решать задачу оптимального транспорта
144😁73😢16👏6🤡3
Forwarded from Vikhr models
Хабр релиз статьи про Шлепа - большой русский бенчмарк

Рассказали про то как оно работает наш бенчмарк + пиаримся на хабре))


Авторы: Cергей, Константин , Артем, Илья, Коля, Саша следил чтобы все не развалилось


habr
52😁44❤‍🔥148🤡4👍2
ПингПонг V2

Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2

Все последние недели готовил новую версию ПингПонга.
Основные отличия от V1:
1) 3 роли вместо 2: игрок (player), опрашивающий (interrogator), судья (judge). Терминология, аналогичная сами знаете чему. Раньше опрашивающий и судья были одним промптом, теперь их несколько. Основные преимущества:
a) Их теперь могут отыгрывать разные модели, с разной ценой и параметрами.
b) Одну и ту же переписку можно оценивать разными моделями.
2) Опрашивающий = gpt-4o-mini вместо claude-3-5-sonnet. Так дешевле, а оправшивающему всё равно не обязательно быть очень хорошим.
3) Судья = ансамбль gpt-4o и claude-3-5-sonnet вместо только claude-3-5-sonnet. Это помогает избежать ситуаций, когда модели слишком высоко оценивают похожих на себя.
4) База в виде ручной разметки и 0.67 корреляции Спирмена с ней (по примерам, не по моделям).

Ну и пачка мелких интерфейсных улучшений, теперь можно читать вообще все диалоги, в том числе отказы.

Кидайте модели для оценки в комменты, добавлю в лидерборд.
👍37👎13