Language Models Use Trigonometry to Do Addition
https://www.lesswrong.com/posts/E7z89FKLsHk5DkmDL/language-models-use-trigonometry-to-do-addition-1
https://arxiv.org/abs/2502.00873
https://x.com/thesubhashk/status/1887138694546788556
Для сложения чисел LLM кодирует их на спирали с разным периодом (2, 5, 10, 100). Алгоритму дали название "Clock algorithm".
MLP первой половины трансформера кодируют сумму на спирали, MLP второй половины декодируют результат в токен.
Как и в других похожих исследованиях внимание здесь занимается тем, что копирует операнды (числа) в стрим токена '=', с которым уже MLP проводят операции.
https://www.lesswrong.com/posts/E7z89FKLsHk5DkmDL/language-models-use-trigonometry-to-do-addition-1
https://arxiv.org/abs/2502.00873
https://x.com/thesubhashk/status/1887138694546788556
Для сложения чисел LLM кодирует их на спирали с разным периодом (2, 5, 10, 100). Алгоритму дали название "Clock algorithm".
MLP первой половины трансформера кодируют сумму на спирали, MLP второй половины декодируют результат в токен.
Как и в других похожих исследованиях внимание здесь занимается тем, что копирует операнды (числа) в стрим токена '=', с которым уже MLP проводят операции.
🔥1
Better & Faster Large Language Models via Multi-token Prediction
https://arxiv.org/abs/2404.19737
Голова трансформера способна из стрима вытаскивать не только следующий токен, но и токены в k-ой позиции.
В работе к телу трансформера прикрутили ещё несколько голов, которые делают Multi-token Prediction.
https://arxiv.org/abs/2404.19737
Голова трансформера способна из стрима вытаскивать не только следующий токен, но и токены в k-ой позиции.
В работе к телу трансформера прикрутили ещё несколько голов, которые делают Multi-token Prediction.
❤2
Маск предложил совету директоров OpenAI продать компанию за $97,4 млрд
https://habr.com/ru/news/881262/
https://habr.com/ru/news/881262/
Хабр
Маск предложил совету директоров OpenAI продать компанию за $97,4 млрд
Илон Маск с группой инвесторов предложил совету директоров OpenAI продать ему компанию за $97,4 млрд. Маск был соучредителем OpenAI вместе с Сэмом Альтманом и ушёл из компании в 2018 году. Ранее Маск...
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree сделала апгрейд своему андроиду G1.
Можно сравнить с моделью H1, которая выступала на фестивале всего пару недель назад, и с самим G1 месяц назад.
Можно сравнить с моделью H1, которая выступала на фестивале всего пару недель назад, и с самим G1 месяц назад.
👍1🔥1
Media is too big
VIEW IN TELEGRAM
It's a collection of shots mostly using Midjourney Niji to Luma Ray 2, image to video. Audio from MMAudio and Suno.
X
This media is not supported in your browser
VIEW IN TELEGRAM
Protoclone
200 степеней свободы, более 1000 "Myofibers" (мускульных приводов) и 500 сенсоров.
https://www.clonerobotics.com/
https://x.com/clonerobotics
200 степеней свободы, более 1000 "Myofibers" (мускульных приводов) и 500 сенсоров.
https://www.clonerobotics.com/
https://x.com/clonerobotics
This media is not supported in your browser
VIEW IN TELEGRAM
Компания 1X Technologies представила NEO Gamma — гуманоидного робота нового поколения, предназначенного для домашнего использования.
Отличается походкой, похожей на человеческую, улучшенной манипуляцией объектами и мягкой, безопасной конструкцией. Собственная программа LLM от 1X обеспечивает естественное общение.
https://www.1x.tech/?=latest
X
Отличается походкой, похожей на человеческую, улучшенной манипуляцией объектами и мягкой, безопасной конструкцией. Собственная программа LLM от 1X обеспечивает естественное общение.
https://www.1x.tech/?=latest
X
Sparse Hash AI
Pika Additions https://x.com/pika_labs
This media is not supported in your browser
VIEW IN TELEGRAM
Новый инструмент от Pika - Pikaswaps.
Sparse Hash AI
SE01
This media is not supported in your browser
VIEW IN TELEGRAM
EngineAI, модель PM01
* всего через месяц после нашумевшей походки модели SE01
* всего через месяц после нашумевшей походки модели SE01
A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language
https://arxiv.org/abs/2408.12578
X
Обнаружено, что в динамике обучения модели есть фазы, где модель неожиданно приобретает способности, соответствующие более узким задачам.
В "точке эмерджентности" (фазовый переход) модель приобретает общие структуры, которые помогают в освоении конкретных, более узких способностей; приобретение таких структур приводит к внезапному повышению производительности при выполнении нескольких задач (часто с некоторой задержкой).
https://arxiv.org/abs/2408.12578
X
Обнаружено, что в динамике обучения модели есть фазы, где модель неожиданно приобретает способности, соответствующие более узким задачам.
В "точке эмерджентности" (фазовый переход) модель приобретает общие структуры, которые помогают в освоении конкретных, более узких способностей; приобретение таких структур приводит к внезапному повышению производительности при выполнении нескольких задач (часто с некоторой задержкой).