Sparse Hash AI
89 subscribers
115 photos
170 videos
3 files
211 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Интересно, через сколько лет эта генерация станет реальностью (про андроида, не Марс).
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
NOETIX's N2.

куда они столько клепают этих коротышек 👀
Media is too big
VIEW IN TELEGRAM
Unitree A2 Stellar Hunter
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Китайский гигант "электричек" BYD только что запустил «Lingyuan» — систему запуска дронов, устанавливаемую на крышу ("домик для дрона"). 😎

Одним нажатием кнопки крыша открывается, платформа поднимается, и дрон DJI взлетает, даже во время движения автомобиля.

Он может запускаться на скорости до 25 км/ч, следовать за автомобилем со скоростью 54 км/ч и автономно возвращаться с расстояния до 2 км. Дрон устанавливается в отсек на крыше автомобиля, где автоматически подзаряжается.

Полный пакет стоит около 16 000 иен (~2 200 долларов США) и включает в себя дрон, пусковую установку и сопутствующие приложения, в том числе инструменты для редактирования видео и распознавания на базе искусственного интеллекта, которые могут делать фотографии вокруг автомобиля.
🔥3
Cosine Local Learning Rule (CLLR)
https://gist.github.com/T-igra/3e875175ea9165e03931c0f8d349f7f4

Локальное правило обучения весовой матрицы слоя без градиента и явного вычисления ошибки рассогласования предсказания с требуемым выходом.

Выкладываю свой метод обучения линейного слоя с функцией активации sin. Открыл его где-то пару лет назад, теоретическую базу за это время подвести не удалось, публикую как есть.
👍3
Sparse Hash AI pinned «Cosine Local Learning Rule (CLLR) https://gist.github.com/T-igra/3e875175ea9165e03931c0f8d349f7f4 Локальное правило обучения весовой матрицы слоя без градиента и явного вычисления ошибки рассогласования предсказания с требуемым выходом. Выкладываю свой метод…»
This media is not supported in your browser
VIEW IN TELEGRAM
Зарядная станция Zipline для дронов доставки.
👍3
Energy-Based Transformers are Scalable Learners and Thinkers
https://www.alphaxiv.org/ru/overview/2507.02092v1

Трансформер Франкенштейна

С трансформера снимается голова и на её место ставится линейный слой с выходом в виде скаляра - линейная проекция (LP). Сама голова, усушенная до размера эмбеддинга токена, - "мост" - пришивается на вход к месту последнего токена. Весами моста является матрица эмбеддингов, что и для контекста. Таким образом на вход трансформера подаётся контекст и вектор логитов, сжатый в эмбеддинг.

Обучение специфическое, работает через динамический вычислительный граф.

Вначале вектор логитов инициализируется случайным образом - так называемый кандидат в предсказания. Случайные логиты и контекст подаются в трансформер. Делается прямой проход, и трансформер выдаёт число - условную энергию.

Обратным распространением ошибки от энергии обновляем логиты. Обновлённые логиты и контекст снова подаются в трансформер. Делается новый проход и апдейт логитов. Такие итерации производятся 2-3 раза, спуская кандидата в энергетическую яму.

Все эти операции запоминаются в вычислительном графе. Поэтому, даже с логитами на входе можно "развернуть" всю эту цепочку графа и обновить веса трансформера. Для этого вычисляется функция потерь (Cross-Entropy Loss) между финальным вектором логитов и правильным ответом, и эта ошибка распространяется обратно через всю модель, включая все шаги оптимизации, обновляя веса трансформера и линейного проектора.

Инференс. Логиты также инициализируются случайно и обновляются градиентным спуском от энергии. При этом можно делать разное число шагов оптимизации, пока энергия на выходе трансформера не упадёт достаточно. Предсказание следующего токена берётся из логитов.
🔥1
A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models
Обзор параллельной генерации текста: от параллельного декодирования до диффузионных языковых моделей
https://www.alphaxiv.org/ru/overview/2508.08712v2
What is Entropy?
https://www.arxiv.org/abs/2409.09232
https://www.alphaxiv.org/ru/overview/2409.09232v1

Математический физик Джон С. Бэез переопределяет энтропию как количество неизвестной информации о микроскопическом состоянии системы, разъясняя распространенные заблуждения. В статье количественно объясняется, почему водородный газ при комнатной температуре и давлении имеет энтропию, эквивалентную примерно 23 неизвестным битам информации на молекулу, путем интеграции теории информации с классической статистической механикой и включения необходимых квантовых поправок.
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
https://www.alphaxiv.org/ru/overview/2412.05265v3

Кевин П. Мерфи представляет всеобъемлющий и систематически организованный обзор обучения с подкреплением, тщательно агрегируя и объясняя его основные концепции, разнообразные алгоритмы от фундаментальных до глубокого ОП, а также новые приложения, такие как его интеграция с большими языковыми моделями. Работа призвана служить унифицированным образовательным и справочным ресурсом для этой области.
👍1