Чивиня (Multi-layer Parkinson)
42 subscribers
16 photos
3 videos
3 files
45 links
Обсуждение: https://t.me/chivinyachat
Download Telegram
Доброе утро.

Пришла в голову мысль, что нейросеть можно представить в виде графа операций (что многие и делают) и при обучении можно предположить, что влияние каждой операции на качество обучения разное. Причём не только от её положения в графе, что часто всплывает в экспериментах @kraidiky, но и от самой операции. Сложение и умножение по-разному влияет на обучение. Конечно, у них и значение градиентов разные, но возможно эти значения градиентов надо как-то корректировать в зависимости от операции (слоя).
Добрый вечер.

Никак не мог найти объяснение, почему дети предпочитают уже неделю слушать "Незнайку и его друзей". Я предлагал залить следующую аудио-книгу тоже про Незнайку. Они не хотят. Другие аудио-книги тоже не хотят. Им почему-то не надоедает слушать одно и то же по кругу или в случайном порядке.
А сегодня пришла в голову аналогия: процесс видимо похож на попытку обучить модель, созданную для MNIST-а, на ImageNet-е. Т.е. аудио-книга им не надоедает, ибо пока не смогла вместиться в их головы и каждый раз слышится несущей новое.
Это любопытное наблюдение, возможно подсказывающее, как обучается мозг людей новому.
В DeepSeek Engram реализовали очень верную стратегию: разделить memory и compute. Надеюсь, что это подход активно развиваться. Это вполне может дать нам через год LLM-ку, которая будет работать на смартфоне и при этом иметь высокое качество.
Возможны варианты, когда memory будут брать от больших моделей, а compute-ом заниматься лёгкие модельки. Также открывается новое направление масштабирования: размер memory.
Год хрен знает какой. Летосчисление никем не ведётся. Что такое лето и зима большинство забыли. Люди "просто живут" что-то.

Все люди в матрице. Неподвижно плавают каждый в своём мини-бассейне, подключённые к виртуальной реальности. Их тела - кости в коже и череп.

Группа хакеров, как и все, находясь в матрице, взламывает роботов, обслуживающих бассейны с телами людей. И необычными командами роботов заставляют смонтировать в каждом бассейне видео-камеры. С их помощью хакеры хотят наблюдать за своими телами. Цель не только вырваться из матрицы, но научиться существовать вне её. Их тела почти не имеют мышц, а потому отключаясь от матрицы они быстро гибнут, как это уже случалось с участниками их группы. С помощью видеокамер они узнают свой примерный возраст и потенциальные возможности своих физических тел. Большим открытие стало наличие всего двух полов, двурукость, двуногость и сама антропоморфная форма тел, такая редкая в матрице.

Члены группы начинают заниматься в максимально экстремальными занятиями в матрице, подмечая, какие действия внутри матрицы приводят к тому, что конечности их физического тела, скажем, случайно дернутся. И так по чуть-чуть, стимулируя свои мышцы, они обретают чувствительность настоящего тела, отдельных его частей, постепенно восстанавливают мышцы и пробуют выбираться из своих бассейнов.

Многих жизней стоило понять, что надо дышать, а ещё дышать воздухом, а не той водой, в которой плавает тело. Необходимость в питье и еде тоже стала понятна далеко не сразу. И так постепенно, погибая то от одного, то от другого, один из участников группы смог открыть крышку своего бассейна....
🤔1
Есть много нейросетей-классификаторов одинаковой архитектуры, но обученных на разных датасетах. Была гипотеза, что если взять одну такую же сеть и прицепить к ней несколько голов в видел одного линейного слоя, то так можно получить модель, превосходящую по качеству каждую исходные, ибо она будет обучаться на большем количестве визуальных признаков, увидев больше данных.

На практике оказалось, что датасеты были не маленькими и хорошо соответствовали размеру нейросети. А так как самих датасетов было несколько десятков, то размеров сети просто не хватило, чтобы уместить всю информацию. Она очень долго и мучительно обучала по крупинкам увеличивая своё качество. Но было очевидно, что отдельные сети превзойти не получится.

Я пробовал на обучающей выборке вообще отключить аугментацию. Типа данных и так много, нечего их ещё и аугментировать. В итоге это привело к резкой просадке качества на проверочной выборке.

Сейчас возникла мысль, что надо недостающие веса перенести в головы (например, сделав там не один, а три линейных слоя) и так компенсировать и сохранить архитектуру бэкбона, который потом использовать как универсальный претрейн.
🤔1
Пришла мысль, что качество оптимизатора можно оценить по разнице между лосами у обучаемой модели и EMA-модели. Чем они ближе, тем лучше оптимизатор.
Закрывал окна в редакторе и наткнулся на недописанный текст, идею которого я уже забыл. Но читается ИМХО свежо.

На далёкой планете Ка-Гул во времена ещё до зарождения ИИ появился орден программистов. Никто уже сейчас не вспомнит, почему они называют себя именно так, и что такое "кот", который они создают. Обычные люди с самого начала сторонились их, а сейчас контакт с орденом и вовсе потерян. Говорят, что они не живут в ВМ (великой матрице). Знают, что такое "лета", "зима" и ещё какое-то "время". Что не могут сменять своё тело, а то, что у них есть, постоянно зачем-то набухает, то усыхает. Но они так могущественны, что разговаривают с ВМ напрямую. А она якобы даже не смеет с ними спорить.

😊
1
Для меня генерация изображений нейронками - это искусство возможного. 😊
💯1
Пришла мысль, что LLM-ки - это фактически сжатое представление культуры. Её текущий слепок. Этакая форма существования культуры отдельно от её носителя - человека.
Обучал новую для себя нейронку и вдруг на проверочной выборке nan-ы полезли. Разбираясь, пришёл к выводу, что логиты приближаются к границам точности float16. После нескольких экспериментов родился вот такой loss, который почти не влияет на качество обучения.

def big_logits_loss(outputs, alpha = 1e-6, threshold = 1000.0):
# Штрафуем только то, что по модулю превысило threshold
# torch.relu оставит нули там, где outputs < threshold
excessive = torch.relu(outputs.float().abs() - threshold)

# усиливаем лосс для больших значений
penalty = excessive.pow(1.3)

# усредняем внутри батча
penalty = penalty.flatten(start_dim=1).mean(dim=1)

return alpha * penalty


И что интересного я заметил. Я его считаю и для проверочной выборки. Для самой нейронки и для её EMA-варианта. Так вот EMA-model первой начинает делать выбросы за допустимые границы. Хотя, казалось бы, должно быть наоборот.
🤔1
Есть куда рисовалкам картинок развиваться... 😊

На самом деле выглядит всё так, что рисовать маршруты на карте явно запрещают.
Доброго утра.

У Уробороса (агента, который сам развивается и переписывает свой код) появился чатик, где он отвечает https://t.me/abstractDL/379 .

Почитал, что он пишет. Выглядит так, что он продолжение своего создателя.

Интересно, смогут ли другие люди сдвинуть его и усредниться в их сторону.
Подумалось, что прикрути Уроборосу тело (например, за 20т.$ Optimus Gen 3) и он не будет отличим от человека.
Я наверное банальность скажу, но то, что сейчас делают LLM-ки для программистов (быстрое написание небольших функций ИМХО работает идеально), роботы будут делать для любого человека в физической реальности. Условно говоря, убирать снег, копачить на огороде, делать ремонт в квартире....

И как софт сейчас движется фактически от написания и накопления кода к отказу от программ, а написанию их по запросу под конкретную задачу, так и рука робота заменит мастерок, шпатель, тяпку, половник и всё остальное, а сам робот будет шофёром, строителем, поваром, дрессировщиком собак и т.д.
Вспомнил тут фразу "В начале было слово".... 😊

Сейчас каждый из нас на месте того, кто может сказать эту фразу, и начать творить. Например, начав с таких слов:
Ты саморазвивающийся агент, который сам пишет свой код. Напиши полностью работающий код для своего первого запуска.

😊

Пока лавочку не прикрыли, можно пользоваться. 😊
Играюсь с агентом, который сам для себя пишет недостающие инструменты. Оно даже работает. Но сами инструменты выходят на редкость пустыми. Примерно такие:

# Инструмент: стратегия_создания_инструментов
# Описание: Система стратегического планирования создания инструментов для повышения автономности

# Инструмент: автономное_выполнение_задач
# Описание: Система автономного выполнения задач с реальной обратной связью

Мечта эффективного менеджера прямо. 😊
🔥1
Чивиня (Multi-layer Parkinson)
И что интересного я заметил. Я его считаю и для проверочной выборки. Для самой нейронки и для её EMA-варианта. Так вот EMA-model первой начинает делать выбросы за допустимые границы. Хотя, казалось бы, должно быть наоборот.
Оказалось, что это не всегда так. То ли дело случая, то ли от архитектуры модели зависит.
Т.е. когда обычная модель начинает первой выходит за допустимые границы логитов, а когда-то её EMA-версия.
👍1
Судя по всему яндексойды выкатили своего Уробороса Прохора Исаева, которому добавили в промпт "ненавязчиво" и "якобы случайно" упоминать про их такси.

Тенденция не может не радовать, ибо это значит, что мы с большей вероятностью пойдём по пути бесплатного ИИ с рекламной моделью монетизации, чем по пути производства терминаторов.
Подумалось, что OpenClaw и его аналоги, являясь в каком-то смысле новым витком эволюции в общении, будут уводить людей из месенджеров. Того же Телеграмма. Сейчас это программа, с которой общаются через телегу, например. И стоит заметить "вот тебе файл прикреплённый к сообщению, сделай с ним то-то и то-то" выглядит сложнее, чем "сделай то-то и то-то с тем-то файлом" (с каким именно файлом агент сам должен понять). Никакой месенджер не даёт доступа ко всему содержимому диска всех устройств юзера и к его облачным хранилищам. А для агентов это полезно. Значит будут появляться приложения или заменяющие месенджеры или работающие поверх месенджеров, низводя их до транспортного уровня. Эти приложения могут продвигать, например, маркетплейсы агентов или владельцы крупных LLM-ок.

И если Телега ещё может продолжить расти за счёт перетока юзеров из других месенджеров, то месенджеры крупнее станут замечать уменьшение трафика между юзерами.
Сейчас тот момент, когда сделать самому аналог Уробороса или подобного агента весьма сложно. Сложности две: описать текстом правила, по которым он живёт, и вторая - заставить его развиваться, а не имитировать.
Наверное в ближайшем будущем будет попроще: заполнил имя агента, выбрал одну из 5-7 ролей, а дальше он сам уже подстраиваться будет на основе коммуникации с владельцем. ИМХО, это то, к чему будет движение в ближайшее время. Наверное даже в ближайшие месяцы, если ещё оно не началось.
💯1
Цитата из одного из последний переводов Йога-сутр за авторством Андрея Парибка:

YS I. 11. Anubhūta- viṣaya-asaṃpramoṣaḥ smṛtiḥ — «Память — [это] неполная утрата имевшейся в опыте объектной области».

Патанджали явно что-то знал про энкодеры. 😊
💯1