Vol Building AGI
580 subscribers
116 photos
9 videos
12 files
199 links
Past topics: speech synthesis, transformers, LSTM, recurrence
Download Telegram
> Так а чого ти бертом тегатимеш слова в реченні, це ж просто енкодер. Енкодери то обмежена архітектура, нею AGI не зробиш
> Ллама то класна ллмка, і все тут сказано.
💯1
> Кажеш, BERT — то просто енкодер, але а як же тоді його топові результати у всяких бенчмарках? (this one is especially weird to me — it feels like it's addressing the point but it's actually diverting to another one!)
Leo has sent me a paper that talks about how neural networks learn fourier features to perform addition — a recurrent topic in NN literature. It's story time.

In a bar after my master's thesis defense, Professor Stefan Wolf wrote an equation on a napkin:

$ \pi/4 = \sum_n^\infty (-1)^n / (2n + 1) $

This was the shortest program to compute pi I've ever seen yet, so I was incredibly excited. If I spend more test time compute on it, I get a better approximation of pi. It's not the fastest program in terms of convergence speed, but definitely a one short enough that I can remember it. It was an approximation due to Leibniz.

Next morning I got interested in finding a linear RNN curcuit that encodes the Leibniz approximation. A linear RNN uses a cumulative sum operation at its heart, so given a stream of input ones it outputs a count of ones so far "for free" (by construction / inductive bias).

I can express the division as a nonlinearity, but how to express sign flipping (-1)^n as n goes up?

A natural way of encoding a flipping sign is using base 2 representation: if you encode n using binary then the least significant bit will be alternating.
In a neural network we can express each bit position using a separate dimension. Consider this linear feature map:

def binary(digits: int):
"Make a basis of powers of two of dimension digits, lowest bits first"
return 1 << np.arange(digits)

After mapping a sum into this high dimensional space you only need to read off the leading dimension, aka the highest frequency component.

What is a natural learnable approximation of representing numbers in base K? Well, it seems that it is somewhere in the basis of sinusoids of different frequencies.
4
If you're curious about what the final construction looks like, check out this program: https://gist.github.com/proger/ba147e3953a155d833aae084c1f0cd12
🔥1
Forwarded from AI HOUSE
🎧 Запрошуємо переглянути новий епізод AI HOUSE Podcast

В гостях — Володимир Кирилов, Member of Technical Staff в OpenAI. Разом із нашим ведучим Романом Кислим, вони заглибились у важливі теми розвитку ШІ, deep learning та шлях до роботи в одній із найвідоміших ШІ-лабораторій світу.

А саме:
— як українці винайшли Deep Learning;
— чому саме у Хінтона все вийшло;
— як працюють лабораторії машинного навчання за кордоном;
— як Володимир потрапив в OpenAI;
— про самоосвіту, навчання в УКУ та на ФІОТ, магістратуру з ШІ й пейпери.

Випуск вже можна подивитися на
ютуб-каналі або послухати на зручних для вас подкаст-платформах.

Ставте лайки та залишайте коментарі, <ми завжди їх читаємо>.

Приємного перегляду 👀

🏠 LinkedIn 🏠 Instagram 🏠 Podcast
Please open Telegram to view this post
VIEW IN TELEGRAM
10
8
Швайнокарась Петриківкою на екрані центру керування космічними місіями
😁6💅3
Археологічний артефакт — Джеремі Говард розповідає, що його загальна мовна лстмка ULMFiT (Universal Language Model Fine-tuning for Text Classification) була мотивацією будувати GPT-1. Під час адаптацііі на фінальну задачу замість лори тренували всю мережу з різними льорнінг рейтами на різні шари.

https://x.com/jeremyphoward/status/1906478657100755011
2
From Appendix E of Antonio Orvieto's paper on why Adam works better than SGD on transformers
👍3👏1
One of the first working algorithms for face detection was using a neural network representation, Rowley Baluja Kanade 1995, six years before the infamous Viola-Jones booster. They collected training data in two phases.
🔥3
Повідомлення від друзів:⚡️Java-мітап від Levi9: Java x AI — майбутнє твого коду

Як Java-інженеру вписатися в нову реальність, де AI змінює правила розробки?

Ми покажемо на живих прикладах, як інтегрувати AI у продакшн-код, розповімо про AI-агентів, інструменти та типові помилки.

Спікери:

Себастьян Дашнер — Java Champion, автор книги «Architecting Modern Java EE Applications», tech-евангеліст.
👉 AI Tools and Agents That Make You a More Efficient Developer (англійською, з live demo)

Поліна Сергієнко — Senior Java Engineer в Levi9, лідерка команди на проєкті.
👉 Як будувати AI-фічі в Java: кейс, інтеграція, граблі

Буде цікаво Java-розробникам, архітекторам, тімлідам і всім, хто хоче тримати руку пульсі розвитку AI.

🗓 25 червня, онлайн
🔗 Реєстрація вже відкрита: https://meetup.levi9.com.ua/java-event — до зустрічі!