Sparse Hash AI – Telegram

Sparse Hash AI

135 subscribers

154 photos

263 videos

3 files

354 links

AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash

Download Telegram

About

Blog

Apps

Platform

135 subscribers

Forwarded from Data Secrets

Вау! Событие из красной книги: у OpenAI вышла статья с открытым кодом

В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).

Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.

Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.

34 views17:31

Прыжок нейрона из ямы локального минимума в глобальный. Сверху лучше видно, где самое дно.

Скорость обучения в этом эксперименте падала как

lr = 1 # НУ
lr = lr * 0.95

Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).

48 viewsedited 20:01

σ-GPT генерирует в произвольном порядке.

σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562

Demo: https://arnaudpannatier.ch/sigma-gpt/

we developed σ-GPT, capable of generating sequences in any order chosen dynamically at inference time.

112 viewsedited 13:00

This media is not supported in your browser

VIEW IN TELEGRAM

67 views13:00

image_2024-06-09_16-00-46.png

46 views13:00

Forwarded from То шо нейросети

Media is too big

VIEW IN TELEGRAM

Нейрокаверы которые мы заслужили.
P.S> Ставь огонь если тоже писал веб нас Си.

@toshoseti

👍1

36 views17:16

Forwarded from Data Secrets

Современные LLM не могут решить простейшую детскую загадку

Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".

Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.

Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.

Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.

Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."

40 views14:32

This media is not supported in your browser

VIEW IN TELEGRAM

Прогресс за один год.

43 views12:36

🔥 Scalable MatMul-free Language Modeling
https://arxiv.org/abs/2406.02528

Implementation for MatMul-free LM.
https://github.com/ridgerchu/matmulfreellm

Даёшь железную LLM в каждом утюге!

tweeprint

Утверждается, что операции MatMul можно полностью исключить из LLM, сохраняя при этом высокую производительность в масштабах с миллиардами параметров, а за счет использования оптимизированного ядра во время вывода потребление памяти их модели может быть уменьшено более чем в 10 раз по сравнению с неоптимизированными моделями.

Предлагаемый LLM без MatMul заменяет операции MatMul в плотных слоях тройными накоплениями с использованием весов, ограниченных {-1, 0, +1}. Это снижает вычислительные затраты и использование памяти, сохраняя при этом выразительность сети.

Чтобы удалить MatMul из внимания, Gated Recurrent Unit (GRU) оптимизирован для использования исключительно поэлементных произведений, создавая микшер токенов Linear GRU (MLGRU) без MatMul. MLGRU упрощает GRU, удаляя веса, связанные со скрытым состоянием, обеспечивая параллельные вычисления и заменяя оставшиеся веса троичными матрицами.

Специальный ускоритель FPGA создан для использования упрощенных операций LLM без MatMul. Ускоритель обрабатывает модели с миллиардом параметров с производительностью 13 Вт, превышающей удобочитаемую для человека производительность, демонстрируя потенциал эффективности, сравнимой с эффективностью мозга, в будущих легких LLM.

78 viewsedited 16:32

Простое объяснение умножения матриц.

👍1

64 views21:02

This media is not supported in your browser

VIEW IN TELEGRAM

трикотаж

🤔1

69 views13:34

This media is not supported in your browser

VIEW IN TELEGRAM

Seeing the World through Your Eyes
https://world-from-eyes.github.io/

👍1

62 views16:07

This media is not supported in your browser

VIEW IN TELEGRAM

https://github.com/kvfrans/jax-flow

Flow-matching implementation

Flow-matching is very similar to diffusion, but simplifies things. Noised images are linear interpolations between (data, noise) pairs, and the network predicts *velocity* of this trajectory.

54 views13:02

This media is not supported in your browser

VIEW IN TELEGRAM

Непись Character-1 от @hedra_labs

https://www.hedra.com/

64 viewsedited 12:08

Forwarded from То шо нейросети

Ускоряем Grokking до 50 раз
Grokfast - технология\подход для ускорения возникновения феномена grokking'а за счет усиления низкочастотных компонент градиентов параметров с помощью дополнительного механизма поверх используемого оптимизатора.

Буквально в пару строк:

from grokfast import gradfilter_ma, gradfilter_ema


# Insert the following line before the training loop.
grads = None

# Between loss.backward() and optimizer.step(), insert one of the following line. Make sure model is of type nn.Module and grads are initialized properly before the training loop:
# ... in the optimization loop.
loss.backwards() # Calculate the gradients.

### Option 1: Grokfast (has argument alpha, lamb)
grads = gradfilter_ema(model, grads=grads, alpha=alpha, lamb=lamb)
### Option 2: Grokfast-MA (has argument window_size, lamb)
# grads = gradfilter_ma(model, grads=grads, window_size=window_size, lamb=lamb)

optimizer.step() # Call the optimizer.
# ... logging & other codes.

Github
Paper

@toshoseti

56 views12:51

This media is not supported in your browser

VIEW IN TELEGRAM

👍2

57 views18:40

golf pattern 1 ( 214 chars )
https://www.shadertoy.com/view/XXtXWM

весь код

void mainImage(out vec4 O, vec2 u)
{
    u = 12.*(u+u - (O.xy=iResolution.xy)) /O.y;
    float a,r;                   
    for(int i; i++<132;O[i%4] = .5-.5*cos(a+a) )
         r = dot(u,u),
         r>1. ? u *= r = 1./r : u,         
         u *= mat2(cos(10.107+vec4(0,33,11,0))) * 5.662,
         u.y += 1.62,            
         a = a*.99+r;       
}

Build shaders, share them, and learn from the best community.

61 viewsedited 20:12

❤1

64 views20:13