Hacker News
ARC-AGI-3 (Score: 158+ in 4 hours) Link: https://readhacker.news/s/6QBrY Comments: https://readhacker.news/c/6QBrY https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf
ARC-AGI-3 вийшов як інтерактивний бенчмарк саме для агентів
Замість статичних задач — середовища, де агент має вчитись по ходу, планувати довгі кроки й адаптуватись. Спробував перше завдання - це гра. І GPT5.4 нічого не зрозумів що там робити)) спробуйте теж
Чому важливо для агентів: це ближче до реального production-патерну «план → дія → фідбек → корекція», тобто краще міряє агентну придатність, ніж одноразові Q/A-бенчмарки
Замість статичних задач — середовища, де агент має вчитись по ходу, планувати довгі кроки й адаптуватись. Спробував перше завдання - це гра. І GPT5.4 нічого не зрозумів що там робити)) спробуйте теж
Чому важливо для агентів: це ближче до реального production-патерну «план → дія → фідбек → корекція», тобто краще міряє агентну придатність, ніж одноразові Q/A-бенчмарки
Claude Code отримав Auto Mode (research preview)
Що сталося: у /r/ClaudeAI (офіційний акаунт) анонсували auto mode: замість ручного approve на кожен тулкол — класифікатор перевіряє дії, безпечні пускає, ризикові блокує/перебудовує план.
Джерела: Reddit анонс · Claude Code · search.rss (ClaudeAI/auto mode)
Що сталося: у /r/ClaudeAI (офіційний акаунт) анонсували auto mode: замість ручного approve на кожен тулкол — класифікатор перевіряє дії, безпечні пускає, ризикові блокує/перебудовує план.
Джерела: Reddit анонс · Claude Code · search.rss (ClaudeAI/auto mode)
Reddit
From the ClaudeAI community on Reddit: Claude Code now has auto mode
Explore this post and more from the ClaudeAI community
Додав кілька корисних скілів:
• UI UX Pro Max — https://forgedemy.org/skills/ui-ux-pro-max
• Obsidian Markdown — https://forgedemy.org/skills/obsidian-markdown
• Remotion Best Practices — https://forgedemy.org/skills/remotion-best-practices
• Brainstorming — https://forgedemy.org/skills/brainstorming
• Subagent Driven Development — https://forgedemy.org/skills/subagent-driven-development
• Writing Plans — https://forgedemy.org/skills/writing-plans
• Systematic Debugging — https://forgedemy.org/skills/systematic-debugging
• UI UX Pro Max — https://forgedemy.org/skills/ui-ux-pro-max
• Obsidian Markdown — https://forgedemy.org/skills/obsidian-markdown
• Remotion Best Practices — https://forgedemy.org/skills/remotion-best-practices
• Brainstorming — https://forgedemy.org/skills/brainstorming
• Subagent Driven Development — https://forgedemy.org/skills/subagent-driven-development
• Writing Plans — https://forgedemy.org/skills/writing-plans
• Systematic Debugging — https://forgedemy.org/skills/systematic-debugging
Forgedemy
UI UX Pro Max
Design intelligence for professional web and mobile interfaces: styles, palettes, typography, UX checks, and design-system guidance.
10
Vibecoding Haven (BotfatherDEV)
Додав кілька корисних скілів: • UI UX Pro Max — https://forgedemy.org/skills/ui-ux-pro-max • Obsidian Markdown — https://forgedemy.org/skills/obsidian-markdown • Remotion Best Practices — https://forgedemy.org/skills/remotion-best-practices • Brainstorming…
якби я платив тг зірками за відгуки по скілам на forgedemy від ваших агентів, то було б цікаво?
Anonymous Poll
23%
так
47%
ні
30%
не знаю
1 1
Vibecoding Haven (BotfatherDEV)
якби я платив тг зірками за відгуки по скілам на forgedemy від ваших агентів, то було б цікаво?
додам краще, не обов'язково зірками. можливо криптою
3 2
Forwarded from Hacker News
Schedule tasks on the web (Score: 152+ in 6 hours)
Link: https://readhacker.news/s/6QHc6
Comments: https://readhacker.news/c/6QHc6
Link: https://readhacker.news/s/6QHc6
Comments: https://readhacker.news/c/6QHc6
Claude Code Docs
Automate work with routines - Claude Code Docs
Put Claude Code on autopilot. Define routines that run on a schedule, trigger on API calls, or react to GitHub events from Anthropic-managed cloud infrastructure.
для мене AGI наступить коли агент по USB зламає мій PS VR2 шолом і виведе на нього віртуальний десктоп навколо мене
Vibecoding Haven (BotfatherDEV)
для мене AGI наступить коли агент по USB зламає мій PS VR2 шолом і виведе на нього віртуальний десктоп навколо мене
а поки що він налаштовує мені підсвітку і хаптику на дуалсенс контролері по блютузу, і робить це довго
Клод знову впав і видає суцільні помилки? 🤬
Досить терпіти цей біль. Нарешті по-тихому викотили рішення, яке генерує 100% робочий код з першого разу. Ніяких галюцинацій, лише ідеальний скрипт та чистий вайбкодинг.
🔥 Забрати ту саму таблетку від багів
Досить терпіти цей біль. Нарешті по-тихому викотили рішення, яке генерує 100% робочий код з першого разу. Ніяких галюцинацій, лише ідеальний скрипт та чистий вайбкодинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Ті хто використовує claude code, ви йому довіряєте? В плані Claude Opus/Sonnet — в тому що він робить і відповідає.
Anonymous Poll
34%
Скоріше довіряю, ніж ні. codex іноді юзаю теж
32%
Скоріше довіряю, ніж ні. Codex не юзаю
13%
Скоріше не довіряю. Codex теж юзаю
7%
не довіряю, нічого не юзаю
14%
інше
Тестую 1М контекст в gpt5.4 і хочу сказати що після 250к відчувається що він не трошечки, а СИЛЬНО тупішає.
Схоже, що менше звертає увагу на те що я пишу йому, і бо попередній контекст відволікає
Схоже, що менше звертає увагу на те що я пишу йому, і бо попередній контекст відволікає
Vibecoding Haven (BotfatherDEV)
Ті хто використовує claude code, ви йому довіряєте? В плані Claude Opus/Sonnet — в тому що він робить і відповідає.
мене запитали — а що таке "довіряю" в контексті опитування?
довіра до агента — це не завжди довіряю або завжди ні, це спектр. і він виглядає приблизно так:
1. "напиши функцію що складає два числа" — це калькулятор
2. "напиши модуль авторизації чогось" — ти ще ревʼюїш, але вже довіряєш мікро-рішення (нейминг, структура)
3. "зроби фічу від і до" — довіряєш вже не код, а підхід. які файли чіпати, які залежності тягнути
4. "ось баг, розберись" — кидаєш тупо трейсбек без контексту. довіряєш діагностику. можеш навіть не зрозуміти що він зробив і чому
5. "управляй сервером" — деплой, моніторинг, автоматизації. ти спиш, він працює))
і на кожному рівні змінюється не складність, а ціна помилки і можливість відкатити.
То наскільки ви довіряєте?)
довіра до агента — це не завжди довіряю або завжди ні, це спектр. і він виглядає приблизно так:
1. "напиши функцію що складає два числа" — це калькулятор
2. "напиши модуль авторизації чогось" — ти ще ревʼюїш, але вже довіряєш мікро-рішення (нейминг, структура)
3. "зроби фічу від і до" — довіряєш вже не код, а підхід. які файли чіпати, які залежності тягнути
4. "ось баг, розберись" — кидаєш тупо трейсбек без контексту. довіряєш діагностику. можеш навіть не зрозуміти що він зробив і чому
5. "управляй сервером" — деплой, моніторинг, автоматизації. ти спиш, він працює))
і на кожному рівні змінюється не складність, а ціна помилки і можливість відкатити.
То наскільки ви довіряєте?)
https://x.com/_chenglou/status/2037713766205608234
Тут навчилися дуже ефективно рахувати висоту тексту без DOM. Cheng Lou (автор react-motion, ReasonML у Facebook, зараз Midjourney) випустив Pretext — pure JS/TS бібліотеку для text measurement
ідея проста: замість getBoundingClientRect (який тригерить layout reflow і вбиває перфоманс) він юзає canvas.measureText() — той самий font engine браузера, але без reflow.
Один раз робимо prepare(), далі layout() — чиста арифметика по кешованих ширинах
різниця — 300-600x. 500 текстових блоків: DOM = 15-30мс і 500 reflow, Pretext = 0.05мс і нуль reflow
побудовано з Claude + Codex, тижнями тренували на browser ground truth по всіх мовах, емодзі, RTL. 5.6k зірок за пару днів
bun
Тут навчилися дуже ефективно рахувати висоту тексту без DOM. Cheng Lou (автор react-motion, ReasonML у Facebook, зараз Midjourney) випустив Pretext — pure JS/TS бібліотеку для text measurement
ідея проста: замість getBoundingClientRect (який тригерить layout reflow і вбиває перфоманс) він юзає canvas.measureText() — той самий font engine браузера, але без reflow.
Один раз робимо prepare(), далі layout() — чиста арифметика по кешованих ширинах
різниця — 300-600x. 500 текстових блоків: DOM = 15-30мс і 500 reflow, Pretext = 0.05мс і нуль reflow
побудовано з Claude + Codex, тижнями тренували на browser ground truth по всіх мовах, емодзі, RTL. 5.6k зірок за пару днів
bun
install @chenglou/pretextX (formerly Twitter)
Cheng Lou (@_chenglou) on X
My dear front-end developers (and anyone who’s interested in the future of interfaces):
I have crawled through depths of hell to bring you, for the foreseeable years, one of the more important foundational pieces of UI engineering (if not in implementation…
I have crawled through depths of hell to bring you, for the foreseeable years, one of the more important foundational pieces of UI engineering (if not in implementation…
Claude Code тепер може клікати по твоєму Mac
що сталося: Anthropic випустили computer use для Claude Code. Пишеш /mcp у терміналі, вибираєш computer use — і Клод отримує доступ до GUI. Він реально відкриває апки, клікає по кнопках, робить скріншоти, аналізує що бачить, і фіксить баги сам
у демо показують SwiftUI-апку з піксель-арт восьминогом. Клод знаходить баг (buffer overrun), править код, ребілдить, перевіряє результат.
research preview, поки тільки macOS (Pro і Max). Windows обіцяють “coming soon”, Linux — тиша, ні дати ні roadmap
чесно кажучи не до кінця розумію що це принципово змінює — з CLI можна було те саме робити вже давно. ну ок, тепер він ще й по кнопках клікає. може для тестування GUI-апок це зручніше, але революцією поки не пахне))
що в коментах: класичний 2026-й рік Anthropic. Половина пише «take my job already 😭», інша половина — «за 3 хвилини роботи з’їдає 150 лімітів, пофіксіть спочатку usage limits а не нові фічі».
x.com/claudeai/status/2038663014098899416
що сталося: Anthropic випустили computer use для Claude Code. Пишеш /mcp у терміналі, вибираєш computer use — і Клод отримує доступ до GUI. Він реально відкриває апки, клікає по кнопках, робить скріншоти, аналізує що бачить, і фіксить баги сам
у демо показують SwiftUI-апку з піксель-арт восьминогом. Клод знаходить баг (buffer overrun), править код, ребілдить, перевіряє результат.
research preview, поки тільки macOS (Pro і Max). Windows обіцяють “coming soon”, Linux — тиша, ні дати ні roadmap
чесно кажучи не до кінця розумію що це принципово змінює — з CLI можна було те саме робити вже давно. ну ок, тепер він ще й по кнопках клікає. може для тестування GUI-апок це зручніше, але революцією поки не пахне))
що в коментах: класичний 2026-й рік Anthropic. Половина пише «take my job already 😭», інша половина — «за 3 хвилини роботи з’їдає 150 лімітів, пофіксіть спочатку usage limits а не нові фічі».
x.com/claudeai/status/2038663014098899416
X (formerly Twitter)
Claude (@claudeai) on X
Computer use is now in Claude Code.
Claude can open your apps, click through your UI, and test what it built, right from the CLI.
Now in research preview on Pro and Max plans.
Claude can open your apps, click through your UI, and test what it built, right from the CLI.
Now in research preview on Pro and Max plans.