Forwarded from Ооо нейромережеве🐱
Кохана, прокидайся, у нас перша українська мультимодальна LLM ☕️
Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба💣
Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю параметрів. Що правда, коли справа доходить до чогось більшого, ніж просто текст (а ще й зображення/формули) Qwen все ще вище😞
Є дві версії: 4b та 12b. Квантизована версія 12b на диво шустра — на MacBook Pro з M3 з 16 ГБ RAM видає ~11 токенів на секунду.
Ви певно спитаєте мене: котику, ну й що робити з цією моделькою?😱 😱 😱
🪙 Ідеальний перекладач у парі англійська-українська і назад. Особливо враховуючи підтримку документів у LMStudio;
🪙 Якщо ви працюєте з текстом (о, це я): на наборі з 500 питань MamayLM перевершує Claude 3.7 і генерує десь на рівні з GPT-5-mini в плані лінгвістичної якості тексту. До речі, оцінював Gemini. ГЕМІНЬ!
🪙 Враховуючи, що модель мультимодальна, можна перетворювати зображення в текст (OCR) чи розшифровувати рукописи;
🪙 Ваш власний ШІ-бро, раджу оцей системний промт;
🪙 Якщо ваше прізвище починається на «Ф», а закінчується на «едоров» — то це файна заміна Gemini 2.0 Flash у чат-боті Дії, щоб не платити Google за API;
🪙 Ну і якщо ви просто фанат open source LLM, то це та ж Gemma 3, але трохи краще.
Ледь не забув посилання на моделі, у LMStudio просто вбийте☕️
ооо донат на збір (лишилося 60 498.25)
Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба
Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю параметрів. Що правда, коли справа доходить до чогось більшого, ніж просто текст (а ще й зображення/формули) Qwen все ще вище
Є дві версії: 4b та 12b. Квантизована версія 12b на диво шустра — на MacBook Pro з M3 з 16 ГБ RAM видає ~11 токенів на секунду.
Ви певно спитаєте мене: котику, ну й що робити з цією моделькою?
Ледь не забув посилання на моделі, у LMStudio просто вбийте
MamayLM-Gemma-3 ооо донат на збір (лишилося 60 498.25)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15
Прилетіло оновлення для Claude Sonnet 4.5 та Claude Code😌
Claude Sonnet 4.5🫶
Тепер у Anthropic знову SOTA модель для кодування. Модель впевнено обганяє GPT-5 на всіх бенчмарках з програмування, на інших йдуть майже нарівні.
Claude Code✌️
– Додали нове розширення для VS Code
– Оновили інтерфейс терміналу
– Додали команду для швидкого повернення до попереднього чекпоїнту, або на кілька кроків назад і команду для швидкого переходу до розширеного ризонінгу
– Тепер агент прямо в терміналі зможе створювати файли, таблиці та діаграми на основі ваших даних.
🔥3👍1
Відійдемо трохи від новин стосовно OpenAI Devday та розглянемо нобелівку з фізики 😜
Цього року присудили за відкриття в галузі квантових обчислень. Нагороду щойно отримали Джон Кларк, Мішель Деворет і Джон Мартініс. У 80-х вони вперше довели, що явища квантової механіки, які зазвичай спостерігаються тільки на мікроскопічному рівні, можуть проявлятися в повнорозмірних системах.
Вони встановили, що так зване квантово-механічне тунелювання можливе на макрорівні. У їхніх експериментах використовувався надпровідний електричний ланцюг, і вчені змогли довести, що він здатний перейти зі стану без напруги в стан з напругою, проходячи через бар'єр, що в принципі неможливо для класичних об'єктів у фізичному світі.
Це і є квантовий перехід тобто вся система поводиться як єдина квантова частинка, хоча містить величезну кількість електронів.
Саме з цього відкриття почався весь розвиток квантових комп'ютерів, квантових криптографічних систем тощо.
😍8
Розбиремо найгучнішу статтю останніх днів Less is More: Recursive Reasoning with Tiny Networks від Samsung
Головне питання, як це взагалі можливо, щоб модель в 10 000 разів менша була настільки розумнішою?) – Рекурсія😋. МодельTRM багаторазово обмірковує свою відповідь, переглядає її і виправляє, перш ніж видати остаточне рішення.
Процес виглядає приблизно так
○ Модель отримує умови завдання і відразу генерує якийсь грубий приклад рішення. Це не обов'язково повинна бути правильна відповідь, достатньо просто швидке припущення.
○ Далі система створює scratchpad. Туди вона записує все, що думає про завдання і свою чернетку, де помилки, що можна поліпшити, як перевірити гіпотезу. При цьому важливо розуміти, що scratchpad – це не потік токенів, як у звичайному ризонінгу. Це внутрішній прихований стан, тобто матриця або вектор, який поступово оновлюється. Іншими словами, TRM вміє думати мовчки.
○ Модель в кілька еткапів оновлює цей внутрішній стан, кожен раз звіряючись з завданням - А і вихідним прикладом - Б. Вона ніби думає, чи узгоджується поточна чернетка з умовою, де суперечності, що краще поліпшити. Після N-ої кількості ітерацій модель переписує вихідний чернеток, спираючись на свій сформований scratchpad. Але це не все. Цей процес спочатку подумай → потім виправ, повторюється кілька разів. І ось тільки після цього ми отримуємо остаточну відповідь.
Кінцеві результати, звичайно, вражають:
Метрики:
– ARC-AGI-1 / ARC-AGI-2 – 44,6% / 7,8%. Для порівняння, у o3-mini-high – 34,5% / 3,0%.
– Також модель відмінно вирішує судоку і лабіринти.
Тут треба відмітити, що це не мовна модель, вона призначена тільки для алгоритмів і текстом відповідати не вміє. Проте, ідея класна. Багато разів пройтися однією і тією ж крихітною сіткою по scratchpad – це буквально як емулювати глибину великої моделі без великої моделі.
👍3🔥2
Anthropic тихо випустили Claude Haiku 4.5
Anthropic тихо і без зайового шуму презентували міні-версію Claude нового покоління. Модель одразу додали в Claude Code, Claude для Chrome, в чаті та API.
На SWE-bench модель набирає 73,3%. Це більше, ніж у Claude Sonnet 4 (72,7%). Адже цю модель випустили всього півроку тому, і вона довго вважалася SOTA для кодування. Тепер таку ж якість можна отримати втричі дешевше і вдвічі швидше.
Модель перевершує Sonnet 4 в метриках на Computer Use. Загалом, це повноцінна заміна не тільки попереднього малюка Haiku 3.5, але і Sonnet 4 яка, імовірно, в кілька разів більша за кількістю параметрів.
🔥7👍2
Розбираємо цікаву статтю LLMs Can Get Brain Rot 😌
Стаття про те, що моделі теж деградують від думскролінгу. Дослідники з Техасу опублікували дуже цікаву роботу, яка викликала хвилю обговорень. Вони показали, що якщо LLM почати донавчати на низькоякісних даних із соцмереж коротких, популярних, клікабельних постах, то вона починає втрачати свої когнітивні здібності. Приблизно так само, як людина втрачає увагу і пам'ять, коли занадто багато думсерфіть.
Чому так:
Фактично, експеримент був наступним. Взяли Llama 3 8B Instruct і почали донавчати на коротких і дуже популярних постах, у яких багато лайків, ретвітів і реплаїв; і на контенті з низькою смисловою цінністю: клікбейт, конспірологія, все таке. Після цього заміряли метрики і порівняли з результатами до донавчання.
Що маємо?
– Якість ризонінгу впала з 74,9 до 57,2
– Розуміння довгого контексту – з 84,4 до 52,3
– На елаймент-тестах з'ясувалося, що у моделі розвинулися нарцисизм, макіавеллізм і психопатія
Навіть після додаткового тюнінгу на чистих даних деградація не зникла повністю. Але справа в тому, що ніякого глобального відкриття тут немає. Пояснюється все це простим зсувом розподілу. При донавчанні на коротких, популярних, емоційно забарвлених твітах модель бачить зовсім інший статистичний ландшафт, ніж під час вихідного претрейну на книжках, статтях тощо.
Це зміщує розподіл у просторі ембеддінгів і змінює attention-патерни. Модель постійно бачить короткі тексти без логічного ланцюжка, і, природно, маски уваги починають більше фокусуватися на останніх декількох токенах і втрачати довгострокові залежності, які раніше і забезпечували якісний CoT.
Градієнтна динаміка тут теж грає проти нас. Втрати просто мінімізуються за рахунок поверхневих кореляцій, а параметри, що відповідають за довгі причинно-наслідкові зв'язки, майже не отримують оновлень. Ось і виходить, що моделька втрачає здатність довго міркувати. Автори називають цей феномен thought-skipping.
🔥5
Дослідники зі Стенфорда і Цінхуа представили агента, який думає і діє одночасно 🧐
Підхід базується на основі прийняття рішень у реальному часі. У таких середовищах кожна дія має свій дедлайн: не встиг виконуєш безпечний хід за замовчуванням.
Головна ідея🙃
Поєднати миттєву реакцію і паралельне планування. Коли навколишне середовище постійно змінюється, чисто реактивні агенти діють швидко, але не зовсім логічно, а довгі планувальники більш йрозумні, але занадто повільно і часто спізнюються. Комбінація працює краще за обидва варіанти.
Новий метод називається AgileThinker🧐. Він запускає два потоки:
- швидкий — ґрунтується на часткових планах і свіжому спостереженні
- плануючий — постійно оновлює стратегію і доповнює план
Час вимірюється не секундами, а токенами, що майже ідеально корелює з реальним часом виконання.
Автори зібрали тестовий набір:Freeway, Snake і Overcooked.
Результати прості: під навантаженням і жорсткими таймінгами AgileThinker стабільно обганяє обидва базові підходи — і швидкий, і «довго думаючий».
Підсумок🙂
Це крок до агентів, які зберігають інтелект, не втрачаючи швидкість, і можуть діяти в динамічних середовищах, де зволікання дорівнює помилці.
🤔5❤1
Ось і під'їхала технічна карта Gemini 3.0 з бенчмарками😋
Чекаємо на офіційний реліз, має бути цікаво, а зараз деякі метрики з тех.карти:
– На багатьох бенчмарках істотно обходить GPT-5.1 і Sonnet 4.5. Особливо виділяється Humanity's Last Exam і ARC-AGI 2.
– Круті результати на бенчмарках, пов'язаних з усілякими агентськими здібностями, розумінням зображень, відео та інтерфейсів. Це багатообіцяюче.
– У кодуванні як Sonnet 4.5, щодо Gemini 2.5 Pro приріст гарний, але в цілому рівень Sonnet 4.5.
Чекаємо на офіційний реліз, має бути цікаво, а зараз деякі метрики з тех.карти:
– На багатьох бенчмарках істотно обходить GPT-5.1 і Sonnet 4.5. Особливо виділяється Humanity's Last Exam і ARC-AGI 2.
– Круті результати на бенчмарках, пов'язаних з усілякими агентськими здібностями, розумінням зображень, відео та інтерфейсів. Це багатообіцяюче.
– У кодуванні як Sonnet 4.5, щодо Gemini 2.5 Pro приріст гарний, але в цілому рівень Sonnet 4.5.
🔥4❤1👍1
Андрій Карпаті випустив цікавий влог по створенню LLM Council😍
LLM Council — це проста локальна веб-програма з інтерфейсом, як у ChatGPT, але з тією різницею, що запит надсилається через Openrouter декільком LLM. Отримані відповіді перехресно оцінюються і ранжуються, і, нарешті, «модель-голова ради» формує остаточну відповідь. Для використання потрібен API-ключ OpenRouter.
На ваші запити відповідає рада з мовних моделей. Ідея полягає в тому, що замість того, щоб задавати питання одній LLM, ви можете об'єднати їх в «Раду моделей». Більш детально процес виглядає так:
1. Збір думок
Запит надсилається всім моделям окремо, і їхні відповіді збираються. Відповіді кожної моделі відображаються в окремій вкладці, щоб можна було їх переглянути вручну.
2. Рецензування
Кожна модель отримує відповіді інших моделей. При цьому ідентифікатори анонімізовані, щоб виключити «гру в улюбленців» при оцінці чужих результатів. На цьому етапі відповіді ранжуються за точністю і глибиною аналізу.
3. Підсумовуємо відповідь
Головна модель приймає всі відповіді моделей і компілює їх в єдину остаточну відповідь.
🔥8👍3🫡2