LLM Arena
довольно любопытно что за счет скейлинга рассуждений gpt5 nano дотягивается до gemeni2.5pro на нашем бенче
🔥37
Мне нравится что Hermes (читать как аноны из твиттера ) сделали ризонинг лламу раньше чем Мета и на оcнове llama3 (ноль идей почему так) + игнорят сравнения с llama4
hermes4.nousresearch.com
hermes4.nousresearch.com
👍28😁12🔥1
Forwarded from Denis Sexy IT 🤖
6 месяцев назад, CEO антропика говорил, что 90% кода будет писаться LLM уже через 6 месяцев
Кажется, не получилось, ждем новых предсказаний☕️
Источник
Кажется, не получилось, ждем новых предсказаний
Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁111😇12👍2😐1
Denis Sexy IT 🤖
6 месяцев назад, CEO антропика говорил, что 90% кода будет писаться LLM уже через 6 месяцев Кажется, не получилось, ждем новых предсказаний ☕️ Источник
Я тебе напиздел понимаешь напиздюнькал наебал тебя блять ты понимаешь я соврал нахуй я сказал тебе неправду
😁129❤🔥14💊5💯3👍1
хз с чего Секси Денис это взял, но бойлерплейт код действительно перестали писать руками
1💯66🥱5
есть еще несколько мест на MoscowAI митап 3го сентября https://moscowai.timepad.ru/event/3457820/ врывайтесь
moscowai.timepad.ru
MoscowAI #3 — встреча людей и нейросетей / События на TimePad.ru
MoscowAI — сообщество энтузиастов и профессионалов увлеченных ИИ. Меньше токенов, больше смысла
💩13👍9
Забавно что human in the loop агенты работают норм, а autonomous ai agents как года два назад работали только с понятной функцией так и сейчас.
1👍43 9🦄5 4🔥3🤷♂1💯1
On the Theoretical Limitations of
Embedding-Based Retrieval
- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
А еще LLMки нормально ретривят. LM task is all u need again
paper
Embedding-Based Retrieval
- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
We give Gemini all 46 documents and all 1000 queries at once, asking it to output
the relevant documents for each query with one generation. We find that it can successfully solve
(100%) all 1000 queries in one forward pass. This is in contrast to even the best embedding models
with a recall@2 of less than 60%
А еще LLMки нормально ретривят. LM task is all u need again
paper
2👍42🔥10
самая антисемтская шутка это вопрос почему в книжках по олимпиадной математики часто фигурирует суббота, 57, 239
😁108🔥18👍5