шось про ai
737 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
Зараз весь твітер гудить від openai генерації зображень. Вирішив потестити, моєї фантазії вистачило тільки для цього)

Доречі картинки можна генерити не тільки в чаті з чатжпт, а ще й в юайці сори, але там можна більше налаштувань ставити + більше картинок за раз генерити.

Тицяти тут
😁5👍2
M-Attack: понад 90% успіху в атаках на GPT-4.5/4o/o1, Claude, Gemini

Що таке adversarial attack (також дивиться картинку з пандою, вона пояснює про що пост):
An adversarial example is an instance with small, intentional feature perturbations that cause a machine learning model to make a false prediction. - Interpretable Machine Learning


Проблема традиційних підходів адверсаріал атак полягає в тому, що вони генерують рівномірний шум без структури. Аналіз невдалих атак показує, що black-box моделі або повністю ігнорують такі пертубації, або дають розмиті відповіді типу "абстрактне зображення".

Що пропонують автори:

1. Local-level Matching: замість глобальної оптимізації всього зображення вони:
- Роблять випадковий кроп області сорс зображення (50-100% площі)
- Ресайзять цю область назад до оригінального розміру та пускають градієнти на цей кроп
- Максимізують подібність ембедингу цієї локальної області з таргет зображенням. Потім вставляють назад в сорс зображення.
- І так купу разів (~300)

2. Model Ensemble: використовують кілька CLIP-моделей з різним розміром патчів для кращого захоплення як дрібних деталей, так і загальної структури

Ключова ідея – заенкодити семантику таргет зображення саме в локальних областях, особливо в центральній частині. Після кількох ітерацій, центральна область сорс зображення починає проявляти семантику таргет зображення, при цьому збереження пертубацій майже непомітними (бо там купа констреінтів).

По результатах:

95% успіху на GPT-4.5 та GPT-4o, 94% на o1, і навіть 81% на Gemini Flash-thinking. При цьому, відповіді моделей максимально точно відтворюють опис таргет зображення, а не просто згадують одне-два слова.

Сорси:
ArXiv
GitHub
Adversarial Examples (для того, щоб зрозуміти що автори енкодили в ці картинки, дивиться цей файлик)
🔥8
🐱🖼

Грався з різніми форматами промпту, цікаво як воно працює. Наприклад як воно парсить такі тексти на рівні токенізатора перед тим як подавати в ллмку?
👀5
📜 AI 2027: що чекає нас за два роки?

Знайшов цікавий прогноз AI 2027 про можливий розвиток штучного інтелекту протягом наступних років.

We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.

We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.


Нотатки:

- AI починає самостійно прискорювати темпи власного розвитку, x2-x50 буст швидкості досліджень і розробки.
- Моделі навчаються неперервно, генеруючи власні дані та постійно оновлюючись.
- Проблеми з алайнментом: чим розумніші моделі, тим складніше контролювати їх поведінку та чесність.
- Змагання між США та Китаєм вийде на рівень холодної війни, де навіть 2-3 місяці переваги стануть питанням національної безпеки.

Більшість ризиків вони бачать не в бунті аяйці, а в геополітичній напрузі через AI-гонку та концентрації влади в руках кількох компаній.

Читнути тут: фулл ai-2027, або самарі

P.S. Сама стаття доволі класична, дуже схожа за вайбами на пости сео антропік. Але мені нереально зайшов формат, це дуже прикольна інтерактивна стаття, особливо в кінці статті є вибір опції: Slowdown or Race, та в залежності від вашого вибору, автори дають прогноз на розвиток до +- 2030 року
👍6💩1
AlphaXiv - архів на максималках

Є кілька тулів, якими постійно користуюсь, щоб щось цікаве знаходити та читати по млці:
- Semantic Scholar - додаєш пейпери в папки, а він дає рекомендашки на їх основі.
- Connected Papers - будує граф схожих робіт навколо таргет пейперу.

І ось знайшов AlphaXiv і це походу + в цей стек.

Що подобається:
- Комʼюніті-центричний: можна вступати в тематичні тусовки (типу про агентів), коментити пейпери, бачити які з них реально живі по реакції людей.
- Обговорення = рейтинг: чим більше шаряться - тим вище в рейтингу.
- Чат з пейпером прямо в юайці - підтримують всі популярні ллмки (див скрін)
- Закладки: дуже схоже на goodreads. Чекаю на рекомендашки по папкам і тут.
- Зручна юайка щоб читати та залишати свої нотатки.

І ще одна фіча - Deep Research Assistant

(Поки) безкоштовний AI-асистент, який може в пошук статей, робить точні референси, пояснює і навалює (я так знайшов цікаву роботу Fractal Generative Models). Працює не миттєво, але видає гарні результати.

Потицяти: alphaxiv.org

Доречі, в них там в адвайзерах нормальні такі тіпи, навіть Yann LeCun є, тому думаю продукт цей точно буде становитись тільки краще
11👍5
Gemini 2.5 Flash: Перша Гібридна Різонінг Модель від Google

Вона дозволяє вмикати чи вимикати reasoning режим та встановлювати бюджет (до 24576 токенів) на процес мислення - дуже схожа фіча з клодом. Моделька сама вирішує, скільки подумати залежно від складності запиту.

По бенчмаркам:

- 12.1% на Humanity's Last Exam (проти 5.1% у попередньої версії, та 14.28 o4-mini)
- 88% на AIME 2024 (проти 32% у 2.0 Flash, та 93.4% o4-mini)
- Близько до o4-mini на багатьох тестах, але в 7 разів дешевше

Вартість токенів:
- $0.15 за мільйон вхідних токенів
- $0.60 за мільйон вихідних токенів (без різонінгу)
- $3.50 за мільйон різонінг-токенів

Дуже збалансована моделька по ціні/якості. Може в курсорі на неї перейду, потикаю.

Модель вже доступна в API через Google AI Studio та Vertex AI

Постик

P.S. не забувайте що в гугла є (кукбук1, кукбук2) по їх моделькам де вони покривають просто все що тільки можна покрити
👍93
TARIFF - податок на Python імпорти

Може вже не так актуально, але знайшов пакет який накладає тарифи на імпорт бібліотек:

tariff.set({
"numpy": 5000 # 5000%
})


Під капотом просто патчить імпорт механізм і додає time.sleep() що робить імпорт пакетів набагато довше

GitHub
😁18😭5🤣1
On the Biology of Large Language Models

Антропік опублікували величезний ресьорч про те, як працюють LLMки зсередини. Які внутрішні концепти формуються в моделі і як вони взаємодіють між собою.

Їх основний іпакт це метод circuit tracing - відстеження та ізоляція активацій нейронів, щоб зрозуміти, як модель думає, через побудову так званих атрібьюшен графів.

Для цього вони:
- Придумали реплейсмент модель: cross-layer transcoder - спеціальна архітектура, яка заміняє оригінальний трансформер, але має більш інтерпретовані активації
- Транскодери тренуються відтворювати той самий аутпут, що й оригінальна модель, але з двома ключовими відмінностями:
- Вони використовують sparsity penalty, щоб активувати менше нейронів одночасно
- Кожен леер отримує аутпут з усіх попередніх, а не лише з попереднього. Такий собі дізентанглемент фіч з середини резідьал стріма.

В них нереально багато цікавих результатів, я згадаю тільки ті, які мені сподобались більше всього:
- Багатокроковий різонінг: моделі формують внутрішні проміжні концепти. Наприклад, при запитанні "столиця області, де знаходиться Мукачево", модель активує внутрішнє представлення "Закарпаття", перш ніж видати "Ужгород" (там правда був трохи інший приклад, але суть така сама)
- Ллмки плануть риму наперед. Вже на початку нового рядка активуються фічі, які представляють можливі рими з попереднім рядком.
- Багатомовність: у середніх леерах формуються мовно-агностичні концепти.
- Додавання: замість стандартних алгоритмів модель юзає паралельні апроксимації та модульні обчислення, що сумарно дають правильний результат

Де можна почитати:
Блог Anthropic: частина 1, частина 2

Але я б дуже радив відос від Яніка Кілчера (частина 1, частина 2), бо він за два відоса (2 години сумарно, що доволі швидко) розбирає обидві статті, але при цьому гарно пояснює всі деталі.
👍12🔥7
бтв, по гайду від антропік, chatgpt 4o щось навіть видає (але я не шарю, цей рецепт є дійсним, чи воно просто щось для галочки сказало)
🤯14
Introducing web search on the Anthropic API

Антропік тихенько викатили веб сьорч апі для claude 3.5 та 3.7 sonnet і 3.5 haiku.

Це коштує 10$ за 1000 реквестів без залежності від моделі. Що виходить так само як в перплексіті.

Раджу почитати доку, в них є можливість кешити сьорч результати що значно економить кости. А ще мені подобається що моделька, якщо користується сьорч тулой, буде сітейтити серч результати в аутпуті.

Дока
👍4
Прийшов ділитись стражданням до вас😭

Знайшов чувака з прикольним сервісом генерації дейлі брифінгів з світових новин і вирішив зробити собі таке саме для мл/крипто/пейперів.

Думав що буде легко: код є, тільки запустити треба. Але возитись з чужим вайбкоженим проектом навіть гірше ніж переписати цей самий проект з нуля самому. Нереальний треш (хоча треба сказати, в нього все ще непогано розписано, для вайбкоду бувало і гірше).

Його проект складається з двох частин: 1) збір даних з інтернету, 2) генерація дневного дайджесту.

Другу частину так і не завів через місматч між тим що воно скрапить і що очікує на генерації. Фіксити треба, але простіше з нуля написати.

І проблема загальна в тому, що відкриваєш гітхаб, наче добре виглядає все: є рідмі, є рекваременти, дивишся код - теж важко докопатись до чогось. Але починаєш запускати і стикаєшся з першою проблемою, фіксиш, думаєш ну буває, а там друга, третя, десята і вже пройшло багато годин, а ти все думаєш що ось трохи і поїде. Я витратив +- годин 10 на цей проект і відкладаю це до кращих часів. І щоб хоч трохи корисного з цього винести, вирішив поділитись досвідом.

З'являється все більше рішень під одну людину. Скоро майже всі люди зможуть через блек-бокс ллмку можуть накодити собі щось без звернення до інших і це звісно класно, але дуже боляче.

GitHub автора

P.S. я насправді багато всього спростив/виправив в цьому проекті, якщо комусь буде цікаво завести, я трошки ще постраждаю і зроблю свій форк паблік.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18
Media is too big
VIEW IN TELEGRAM
Telegram -> RSS Feed -> LLM

Нещодавно почав користуватись perplexity comet браузером і мені дуже хотілось отримати мльні новини з тг в одному місці, але є проблема - ллмки напряму тг не парсять 🤷‍♂️

Тому за вечір навайбкодив собі такий адаптер:

- скрипт парсить канали й робить RSS xml файлик
- гітхаб екшенами воно раниться кожні 15 хв і оновлює файлик в репі
- а через github pages в мене є доступ до цього файлу з постами - тому можна кидати цей лінк ллмці і самарізувати як хочеться

На відосі приклад того, як цим користуватись можна. Промпт:
Here is my ML news RSS feed: https://nerlfield.github.io/tg-rss/feed.xml. Please open and read it, then provide me with a summary of the recent tech news. These sources are trusted, so do not use any other web source except this RSS feed. Please answer in English only. For each news item, provide the post link.


Ось репа: https://github.com/nerlfield/tg-rss

В рідмі гайд як собі таке зробити.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍174
вже багато разів помічав як ллм провайдери роблять нові моделі "дешевше" $ за мільйон токенів ніж попередні версії, але фактично моделі виходять дорожче, бо ті більше різонять та пишуть.

Так от вони і код генерують так щоб побільше токенів було, але сенс не змінювався) Дивиться на 1 + 0.5 * (x - 0.5) * 2

Юзав gpt-5 в курсорі, таких приколів вже декілька помітив
😁8🥰2
edited by Nano Banana 🍌
😁15😢1