шось про ai
737 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
The Anthropic Economic Index

Anthropic проаналізували понад 4 мільйони розмов з Claude, щоб зрозуміти, як AI використовується в різних професійних сферах.

Комп'ютерні та математичні професії домінують у використанні AIшки - 37.2% всіх запитів.

На другому місці - мистецтво, дизайн та медіа з 10.3% запитів. Це переважно контент кріейшн, копірайтінг та маркетинг.

Цікаво, що використання AI має чіткий патерн по зарплатам - пік використання в професіях з середньо-високими зарплатами ($50,000-125,000), а на обох кінцях спектру (низькооплачувані та дуже високооплачувані посади) використання помітно нижче.

З прикольного:
- Лише ~4% професій використовують AI для 75%+ своїх задач
- ~36% професій використовують AI хоча б для чверті задач
- 57% взаємодій з AI є аугментативними (покращують людські здібності), а 43% - автоматизаційними (замінюють людську роботу)

Короче, поки що AI здебільшого доповнює роботу людей, а не повністю замінює її. Масштабна автоматизація цілих професій - поки що не реальність, але певні задачі в багатьох сферах вже зараз можуть виконуватись AI.

Почитати можна тут:
ArXiv
Їх постик

Взагалі старенький пост (вже місяць пройшов), але щось останні дні мало чого несеться, тому вирішив почитати щось з минулого
👍15
New tools for building agents

OpenAI дуже не хочуть відставати від антропік по агентах, тому релізнули величезне оновлення свого апі.

Що цікавого:
- Responses API - новий апі-примітив, який поєднав Chat Completions із можливостями використання тулів від Assistants API. Короче тепер за один запит можна і тули виконати і комлпішен зробити (раніше було за два). Assistants API буде депрікейтнут десь в середині 2026.

Додали тули:
- Web search - пошук з цитатами та посиланнями. На бенчмарку SimpleQA дає 90% точності для GPT-4o і 88% для GPT-4o mini.
- File search - тул для пошуку в документах з підтримкою різних форматів, метаданих та фільтрації.
- Computer use - aka OPERATOR, aka CUA, почитати можна тут. Але тут вони дали саме апі, то можна буде через код дьоргати браузер та шукати інфу.

Також вони оновили свій фреймворк для створення та оркестрації агентів і назвали її Agents SDK: додали прикольні моніторінг тули, прості інтерфейси для створення тулів, меморі, ноледжу і всього цього агентського.

По костах:

- Web search: $35 за тисячу запитів для GPT-4o і $27.5 для GPT-4o mini
- File search: $2.50 за тисячу запитів + $0.10 ГБ/день за зберігання (перший ГБ безкоштовно)
- Computer use: $3/1M інпут токенів і $12/1M аутпут токенів

Бтв, якщо хтось не знав, но вони ще підтримують Code Interpreter тул, він дозволяє агенту ранити код за $0.03/сесію.

Почитати/подивитись можна тут:
Blog Post
YouTube
👍4
PORTAL

PORTAL (Policy Optimization and Reasoning for Tactical Artificial Learning) - це метод від Tencent, який дозволяє AI-агентам грати в тисячі різних ігор без класичного RL тренування.

Як воно працює: замість тренування нейронок безпосередньо у грі llm-ки заздалегідь генерують "дерева поведінки" (behavior trees) у спеціальній мові (DSL). Ці дерева потім запускаються в іграх і покращуються на основі фідбек лупа (числові метрики гри + Vision-Language аналіз)

Прикол методу в тому, що грає вже не сама ллмка, а створені нею behavior trees - по суті набори правил і умов, що значно зменшує обчислювальні витрати та робить систему zero-latency. Але повністю без нейронок теж не обійшлось - вони є в окремих вузлах дерева (наприклад, прості fully-connected або convolutional нейронки для руху між перешкодами чи стрільби). Вони тренуються заздалегідь на вузьких задачах.

Цікава гібридна історія: поєднує силу LLM для стратегічного планування з ефективністю rule-based дерев та мікро нейронок.

Це ж вони в ігри грали, а шо якщо робити те саме, тільки з роботікс? Думаю тут буде прикольний інтерсекшн

Коду нема, є тільки пейпр =(

Дивитись тут:
Project Page
Paper
👍15
Thera: Super-resolution with Neural Heat Fields

Коли я працював в рефейсі, ми багато всього робили в computer vision: намагались зробити 3д портрети, різні рієнактменти, рефейси і т.д. А ще ми робили супер резолюшен, це дуже цікава задача насправді, якщо треба отримати: а) маленьку модель здатну до ріал тайм інференсу, б) в вас не великий датасет.

Дослідники з ETH Zurich запропонували Thera - перший метод для arbitrary-scale супер-резолюшена, який розв'язує проблему аліасінгу елегантним способом.

Що цікавого:
- Замість стандартних нейронних мереж, Thera використовує спеціальну архітектуру neural heat fields, яка представляє зображення як набір синусоїдальних компонентів різної частоти замість дискретного піксель гріда.
- При масштабуванні зображення модель просто регулює вплив цих компонентів залежно від їхньої частоти - високочастотні деталі автоматично згладжуються при зменшенні, або зберігаються при збільшенні
- Результати: навіть найменша версія (8К параметрів) змагається з монстрами в 50-100 разів більшими, ну і так, це SOTA.

Зараз, коли всі роблять ставку на великі моделі і гігантські датасети, такі елегантні математично обгрунтовані рішення доводять, що іноді розумніше працює краще ніж більше. Саме такі нетривіальні підходи мені особисто значно цікавіші, ніж yet-another гігантський трансформер.

Моделей є декілька варіантів:
8k, 1.4M, 4.63M параметрів. Всі є в доступі + Apache 2.0 ліцензія.

(якщо шо, картинка на демці це 72х72px з апскейлом в 6 разів)

ArXiv
Project Page
Demo
GitHub
👍11👀1
Зараз весь твітер гудить від openai генерації зображень. Вирішив потестити, моєї фантазії вистачило тільки для цього)

Доречі картинки можна генерити не тільки в чаті з чатжпт, а ще й в юайці сори, але там можна більше налаштувань ставити + більше картинок за раз генерити.

Тицяти тут
😁5👍2
M-Attack: понад 90% успіху в атаках на GPT-4.5/4o/o1, Claude, Gemini

Що таке adversarial attack (також дивиться картинку з пандою, вона пояснює про що пост):
An adversarial example is an instance with small, intentional feature perturbations that cause a machine learning model to make a false prediction. - Interpretable Machine Learning


Проблема традиційних підходів адверсаріал атак полягає в тому, що вони генерують рівномірний шум без структури. Аналіз невдалих атак показує, що black-box моделі або повністю ігнорують такі пертубації, або дають розмиті відповіді типу "абстрактне зображення".

Що пропонують автори:

1. Local-level Matching: замість глобальної оптимізації всього зображення вони:
- Роблять випадковий кроп області сорс зображення (50-100% площі)
- Ресайзять цю область назад до оригінального розміру та пускають градієнти на цей кроп
- Максимізують подібність ембедингу цієї локальної області з таргет зображенням. Потім вставляють назад в сорс зображення.
- І так купу разів (~300)

2. Model Ensemble: використовують кілька CLIP-моделей з різним розміром патчів для кращого захоплення як дрібних деталей, так і загальної структури

Ключова ідея – заенкодити семантику таргет зображення саме в локальних областях, особливо в центральній частині. Після кількох ітерацій, центральна область сорс зображення починає проявляти семантику таргет зображення, при цьому збереження пертубацій майже непомітними (бо там купа констреінтів).

По результатах:

95% успіху на GPT-4.5 та GPT-4o, 94% на o1, і навіть 81% на Gemini Flash-thinking. При цьому, відповіді моделей максимально точно відтворюють опис таргет зображення, а не просто згадують одне-два слова.

Сорси:
ArXiv
GitHub
Adversarial Examples (для того, щоб зрозуміти що автори енкодили в ці картинки, дивиться цей файлик)
🔥8
🐱🖼

Грався з різніми форматами промпту, цікаво як воно працює. Наприклад як воно парсить такі тексти на рівні токенізатора перед тим як подавати в ллмку?
👀5
📜 AI 2027: що чекає нас за два роки?

Знайшов цікавий прогноз AI 2027 про можливий розвиток штучного інтелекту протягом наступних років.

We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.

We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.


Нотатки:

- AI починає самостійно прискорювати темпи власного розвитку, x2-x50 буст швидкості досліджень і розробки.
- Моделі навчаються неперервно, генеруючи власні дані та постійно оновлюючись.
- Проблеми з алайнментом: чим розумніші моделі, тим складніше контролювати їх поведінку та чесність.
- Змагання між США та Китаєм вийде на рівень холодної війни, де навіть 2-3 місяці переваги стануть питанням національної безпеки.

Більшість ризиків вони бачать не в бунті аяйці, а в геополітичній напрузі через AI-гонку та концентрації влади в руках кількох компаній.

Читнути тут: фулл ai-2027, або самарі

P.S. Сама стаття доволі класична, дуже схожа за вайбами на пости сео антропік. Але мені нереально зайшов формат, це дуже прикольна інтерактивна стаття, особливо в кінці статті є вибір опції: Slowdown or Race, та в залежності від вашого вибору, автори дають прогноз на розвиток до +- 2030 року
👍6💩1
AlphaXiv - архів на максималках

Є кілька тулів, якими постійно користуюсь, щоб щось цікаве знаходити та читати по млці:
- Semantic Scholar - додаєш пейпери в папки, а він дає рекомендашки на їх основі.
- Connected Papers - будує граф схожих робіт навколо таргет пейперу.

І ось знайшов AlphaXiv і це походу + в цей стек.

Що подобається:
- Комʼюніті-центричний: можна вступати в тематичні тусовки (типу про агентів), коментити пейпери, бачити які з них реально живі по реакції людей.
- Обговорення = рейтинг: чим більше шаряться - тим вище в рейтингу.
- Чат з пейпером прямо в юайці - підтримують всі популярні ллмки (див скрін)
- Закладки: дуже схоже на goodreads. Чекаю на рекомендашки по папкам і тут.
- Зручна юайка щоб читати та залишати свої нотатки.

І ще одна фіча - Deep Research Assistant

(Поки) безкоштовний AI-асистент, який може в пошук статей, робить точні референси, пояснює і навалює (я так знайшов цікаву роботу Fractal Generative Models). Працює не миттєво, але видає гарні результати.

Потицяти: alphaxiv.org

Доречі, в них там в адвайзерах нормальні такі тіпи, навіть Yann LeCun є, тому думаю продукт цей точно буде становитись тільки краще
11👍5
Gemini 2.5 Flash: Перша Гібридна Різонінг Модель від Google

Вона дозволяє вмикати чи вимикати reasoning режим та встановлювати бюджет (до 24576 токенів) на процес мислення - дуже схожа фіча з клодом. Моделька сама вирішує, скільки подумати залежно від складності запиту.

По бенчмаркам:

- 12.1% на Humanity's Last Exam (проти 5.1% у попередньої версії, та 14.28 o4-mini)
- 88% на AIME 2024 (проти 32% у 2.0 Flash, та 93.4% o4-mini)
- Близько до o4-mini на багатьох тестах, але в 7 разів дешевше

Вартість токенів:
- $0.15 за мільйон вхідних токенів
- $0.60 за мільйон вихідних токенів (без різонінгу)
- $3.50 за мільйон різонінг-токенів

Дуже збалансована моделька по ціні/якості. Може в курсорі на неї перейду, потикаю.

Модель вже доступна в API через Google AI Studio та Vertex AI

Постик

P.S. не забувайте що в гугла є (кукбук1, кукбук2) по їх моделькам де вони покривають просто все що тільки можна покрити
👍93
TARIFF - податок на Python імпорти

Може вже не так актуально, але знайшов пакет який накладає тарифи на імпорт бібліотек:

tariff.set({
"numpy": 5000 # 5000%
})


Під капотом просто патчить імпорт механізм і додає time.sleep() що робить імпорт пакетів набагато довше

GitHub
😁18😭5🤣1
On the Biology of Large Language Models

Антропік опублікували величезний ресьорч про те, як працюють LLMки зсередини. Які внутрішні концепти формуються в моделі і як вони взаємодіють між собою.

Їх основний іпакт це метод circuit tracing - відстеження та ізоляція активацій нейронів, щоб зрозуміти, як модель думає, через побудову так званих атрібьюшен графів.

Для цього вони:
- Придумали реплейсмент модель: cross-layer transcoder - спеціальна архітектура, яка заміняє оригінальний трансформер, але має більш інтерпретовані активації
- Транскодери тренуються відтворювати той самий аутпут, що й оригінальна модель, але з двома ключовими відмінностями:
- Вони використовують sparsity penalty, щоб активувати менше нейронів одночасно
- Кожен леер отримує аутпут з усіх попередніх, а не лише з попереднього. Такий собі дізентанглемент фіч з середини резідьал стріма.

В них нереально багато цікавих результатів, я згадаю тільки ті, які мені сподобались більше всього:
- Багатокроковий різонінг: моделі формують внутрішні проміжні концепти. Наприклад, при запитанні "столиця області, де знаходиться Мукачево", модель активує внутрішнє представлення "Закарпаття", перш ніж видати "Ужгород" (там правда був трохи інший приклад, але суть така сама)
- Ллмки плануть риму наперед. Вже на початку нового рядка активуються фічі, які представляють можливі рими з попереднім рядком.
- Багатомовність: у середніх леерах формуються мовно-агностичні концепти.
- Додавання: замість стандартних алгоритмів модель юзає паралельні апроксимації та модульні обчислення, що сумарно дають правильний результат

Де можна почитати:
Блог Anthropic: частина 1, частина 2

Але я б дуже радив відос від Яніка Кілчера (частина 1, частина 2), бо він за два відоса (2 години сумарно, що доволі швидко) розбирає обидві статті, але при цьому гарно пояснює всі деталі.
👍12🔥7