Археологічний артефакт — Джеремі Говард розповідає, що його загальна мовна лстмка ULMFiT (Universal Language Model Fine-tuning for Text Classification) була мотивацією будувати GPT-1. Під час адаптацііі на фінальну задачу замість лори тренували всю мережу з різними льорнінг рейтами на різні шари.
https://x.com/jeremyphoward/status/1906478657100755011
https://x.com/jeremyphoward/status/1906478657100755011
❤2
Що додати в ллмку? https://t.co/XKB4XxjREV
Openai
Open model feedback
We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible.
Some very good MLP kernels https://github.com/triton-lang/triton/pull/6429
Яка архітектура краще? Та, що змінює експоненту ступеневого закону масштабування: https://x.com/_katieeverett/status/1926722325073801612
X (formerly Twitter)
Katie Everett (@_katieeverett) on X
There were so many great replies to this thread, let's do a Part 2!
For scaling laws between loss and compute, where loss = a * flops ^ b + c, which factors change primarily the constant (a) and which factors can actually change the exponent (b)?
https…
For scaling laws between loss and compute, where loss = a * flops ^ b + c, which factors change primarily the constant (a) and which factors can actually change the exponent (b)?
https…
👍5
Куда кернели замінюються куда віртуальними машинами https://x.com/bfspector/status/1927435524416958871
X (formerly Twitter)
Benjamin F Spector (@bfspector) on X
(1/5) We’ve never enjoyed watching people chop Llamas into tiny pieces.
So, we’re excited to be releasing our Low-Latency-Llama Megakernel! We run the whole forward pass in single kernel.
Megakernels are faster & more humane. Here’s how to treat your Llamas…
So, we’re excited to be releasing our Low-Latency-Llama Megakernel! We run the whole forward pass in single kernel.
Megakernels are faster & more humane. Here’s how to treat your Llamas…
🤯5
Повідомлення від друзів:⚡️Java-мітап від Levi9: Java x AI — майбутнє твого коду
Як Java-інженеру вписатися в нову реальність, де AI змінює правила розробки?
Ми покажемо на живих прикладах, як інтегрувати AI у продакшн-код, розповімо про AI-агентів, інструменти та типові помилки.
Спікери:
Себастьян Дашнер — Java Champion, автор книги «Architecting Modern Java EE Applications», tech-евангеліст.
👉 AI Tools and Agents That Make You a More Efficient Developer (англійською, з live demo)
Поліна Сергієнко — Senior Java Engineer в Levi9, лідерка команди на проєкті.
👉 Як будувати AI-фічі в Java: кейс, інтеграція, граблі
Буде цікаво Java-розробникам, архітекторам, тімлідам і всім, хто хоче тримати руку пульсі розвитку AI.
🗓 25 червня, онлайн
🔗 Реєстрація вже відкрита: https://meetup.levi9.com.ua/java-event — до зустрічі!
Як Java-інженеру вписатися в нову реальність, де AI змінює правила розробки?
Ми покажемо на живих прикладах, як інтегрувати AI у продакшн-код, розповімо про AI-агентів, інструменти та типові помилки.
Спікери:
Себастьян Дашнер — Java Champion, автор книги «Architecting Modern Java EE Applications», tech-евангеліст.
👉 AI Tools and Agents That Make You a More Efficient Developer (англійською, з live demo)
Поліна Сергієнко — Senior Java Engineer в Levi9, лідерка команди на проєкті.
👉 Як будувати AI-фічі в Java: кейс, інтеграція, граблі
Буде цікаво Java-розробникам, архітекторам, тімлідам і всім, хто хоче тримати руку пульсі розвитку AI.
🗓 25 червня, онлайн
🔗 Реєстрація вже відкрита: https://meetup.levi9.com.ua/java-event — до зустрічі!
meetup.levi9.com.ua
Java мітап від Levi9
Зустрічаємось онлайн спільнотою поговорити про Java технології, бо Java — is our thing! Участь в мітапі вільна. З нетерпінням чекаємо на зустріч!
привіт, дуже пишаюся поділитися нашою останньою роботою: gpt-oss-120b та gpt-oss-20b. ми запускаємо модель зі слідами міркування. вона найкраща на математиці, научних питаннях. може запускати інструменти та говорити українською, бути вашим агентом, доктором та кодером. велика модель зроблена для відеокарти H100, а маленька зроблена для домашніх карт типу 3090. ми підготували для вас код для запуску моделей на нашому гітхабі. не можу дочекатися ваших файнтюнів.
github.com/openai/gpt-oss
github.com/openai/gpt-oss
GitHub
GitHub - openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI
gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI - openai/gpt-oss
❤25