А вы говорили у Антропика нереалистичные сценарии для эвалов на безопасность
Forwarded from Foom Countdown Party
To mitigate eval awareness you don't necessarily have to make the sandboxes more realistic
Forwarded from Just links
Bullshit Benchmark https://github.com/petergpt/bullshit-benchmark
GitHub
GitHub - petergpt/bullshit-benchmark: BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently…
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev. - petergpt/bullshit-benchmark
❤7👍1
Сегодня любим Claude Code
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
❤63🔥19🤔9
🚀 Открыта регистрация:
Agentic Legal RAG Challenge 2026
Если вы строите RAG / agentic pipelines (ingestion → retrieval → generation) и вам важны метрики, близкие к реальному продакшену, это соревнование для вас.
Что именно оценивают:
✅ Answer quality — насколько ответ корректный по сути
✅ Grounding / faithfulness — подтверждён ли ответ конкретными фрагментами из юридических источников (c citations / chunk-level evidence)
✅ Latency / TTFT — скорость, включая time-to-first-token (как быстро система начинает отдавать ответ)
Формат: Online участие / Live leaderboard + финальная проверка на private test set (без возможности “подгонки под паблик”)
Данные: 300+ юридических документов и 1 000+ вопросов
🏆 $32 000 призовой фонд — один из крупнейших в мире в сегменте Legal RAG/Agentic
📅 Период соревнования: 11 - 25 марта 2026 (регистрация уже открыта)
👉 Детали и регистрация: www.agentic-challenge.ai
Если у вас команда и уже есть свой стек (embeddings / vector DB / rerankers / LLM / tooling) — отличный шанс сравнить подходы на нормальной постановке и метриках.
Agentic Legal RAG Challenge 2026
Если вы строите RAG / agentic pipelines (ingestion → retrieval → generation) и вам важны метрики, близкие к реальному продакшену, это соревнование для вас.
Что именно оценивают:
✅ Answer quality — насколько ответ корректный по сути
✅ Grounding / faithfulness — подтверждён ли ответ конкретными фрагментами из юридических источников (c citations / chunk-level evidence)
✅ Latency / TTFT — скорость, включая time-to-first-token (как быстро система начинает отдавать ответ)
Формат: Online участие / Live leaderboard + финальная проверка на private test set (без возможности “подгонки под паблик”)
Данные: 300+ юридических документов и 1 000+ вопросов
🏆 $32 000 призовой фонд — один из крупнейших в мире в сегменте Legal RAG/Agentic
📅 Период соревнования: 11 - 25 марта 2026 (регистрация уже открыта)
👉 Детали и регистрация: www.agentic-challenge.ai
Если у вас команда и уже есть свой стек (embeddings / vector DB / rerankers / LLM / tooling) — отличный шанс сравнить подходы на нормальной постановке и метриках.
🔥11❤4👍1
Forwarded from шорткат
про нейронки и машинное обучение простыми словами
Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы.
Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех. В своей книге Борис рассказывает простыми словами для таких как я, что под капотом у нейросетей.
Обсудили с Борисом:
🟡 как именно текстовые нейронки анализируют запрос и как именно выдают ответ
🟡 как обучают нейронки и почему их бьют палками
🟡 почему нейросети галлюцинируют
Получился насыщенный подкаст, послушать можно:
на youtube
на яндекс.музыке
в apple подкастах
Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы.
Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех. В своей книге Борис рассказывает простыми словами для таких как я, что под капотом у нейросетей.
Обсудили с Борисом:
Получился насыщенный подкаст, послушать можно:
на youtube
на яндекс.музыке
в apple подкастах
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤9 8🔥5🤔5
Media is too big
VIEW IN TELEGRAM
Поумнели немного и хватит. Давно не показывал вам как продвигается моё хобби — стендап на английском. Ловите новые четыре минуты.
Раньше показывать было особо нечего. Но на днях планеты выстроились в ряд, я хорошо выступил и это попало на запись.
Любопытно, что у меня довольнодегенератская простая по темам комедия. Возможно потому, что в жизни хватает мест где надо быть умным, а на сцене скорее хочется быть простым веселым парнем с обостренной самоиронией.
Раньше показывать было особо нечего. Но на днях планеты выстроились в ряд, я хорошо выступил и это попало на запись.
Любопытно, что у меня довольно
❤66 37👍21🔥5🤔3😢1
Dogfooding? Слышал об этом, я тоже кормлю своих разработчиков собачьей едой
Хороший анализ тропов которые выдают AI текст. Так же может служить хорошим гайдом для людей: как писать, чтобы не быть похожим на корпоративного зомби с Linkedin.
Насколько модели будут писать лучше если вставить это в промпт — не знаю. Если кто-то заметит реальное улучшение отпишите пожалуйста
https://tropes.fyi/tropes-md
Насколько модели будут писать лучше если вставить это в промпт — не знаю. Если кто-то заметит реальное улучшение отпишите пожалуйста
https://tropes.fyi/tropes-md
tropes.fyi
tropes.md - Tropes
A single file containing all known AI writing tropes. I guess you could add it to your AI system prompt to avoid these patterns. Or you could embark on the joy of independent writing.
👍32🤔10❤3 3
За два месяца было 12 мок собеседований и карьерных консультаций.
К моему удивлению брали в основном консультации. Мне казалось, что ценность мока гораздо проще оценить, а карьерная консультация это нечто непонятное. Но моков было всего три штуки, а всё остальное это консультации. Чаще всего приходили с запросом вида: "у меня всё уже неплохо, но не очень понятно что делать дальше со своей карьерой." Часто с приставкой вроде "я всего лишь пишу на C++ и копаюсь в GPU, кому я сейчас такой нужен..."😂 В общем, подрабатываю дорогим терапевтом для ML-щиков, записывайтесь.
—
Мок собеседования и карьерные консультации по 150 евро всем и каждому
Мой питч остается таким же, как когда я менторил людей в течение всего поиска работы. Искать работу тяжело. Может иметь смысл заплатить кому-то (мне), чтобы сделать этот процесс проще, повысить шансы на успех и увеличить будущий оффер.
Я могу помочь с собеседованиями и карьерным путем в ML/DS или Backend разработке (а так же в меньшей степени в других направлениях в IT). Вы можете оценить мой подход по моей Методичке по поиску работы в DS/ML, посмотрев запись мок-собеседования по ML system design или по постам в канале на тему карьеры. Вот тут есть несколько отзывов.
Стоимость 150 евро.
Забронировать слот можно здесь:
https://calendly.com/iambtseytlin
Бронируя слот не забудьте заранее отправить мне в личку своё CV и нужный контекст, чтобы я мог подготовиться
К моему удивлению брали в основном консультации. Мне казалось, что ценность мока гораздо проще оценить, а карьерная консультация это нечто непонятное. Но моков было всего три штуки, а всё остальное это консультации. Чаще всего приходили с запросом вида: "у меня всё уже неплохо, но не очень понятно что делать дальше со своей карьерой." Часто с приставкой вроде "я всего лишь пишу на C++ и копаюсь в GPU, кому я сейчас такой нужен..."
—
Мок собеседования и карьерные консультации по 150 евро всем и каждому
Мой питч остается таким же, как когда я менторил людей в течение всего поиска работы. Искать работу тяжело. Может иметь смысл заплатить кому-то (мне), чтобы сделать этот процесс проще, повысить шансы на успех и увеличить будущий оффер.
Я могу помочь с собеседованиями и карьерным путем в ML/DS или Backend разработке (а так же в меньшей степени в других направлениях в IT). Вы можете оценить мой подход по моей Методичке по поиску работы в DS/ML, посмотрев запись мок-собеседования по ML system design или по постам в канале на тему карьеры. Вот тут есть несколько отзывов.
Стоимость 150 евро.
Забронировать слот можно здесь:
https://calendly.com/iambtseytlin
Бронируя слот не забудьте заранее отправить мне в личку своё CV и нужный контекст, чтобы я мог подготовиться
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42 11👍10
https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main
TLDR: 90% на SWE-bench не означает, что 90% задач решаются агентами
TLDR: 90% на SWE-bench не означает, что 90% задач решаются агентами
metr.org
Many SWE-bench-Passing PRs Would Not Be Merged into Main
We find that roughly half of test-passing SWE-bench Verified PRs written by recent AI agents would not be merged into main by repo maintainers. A naive interpretation of benchmark scores may lead one to overestimate how useful agents are without more elicitation…
❤19
Forwarded from Старший Авгур
Media is too big
VIEW IN TELEGRAM
Шикарная штука из Твиттера, оказывается Опус может генерировать простенькие видосы с текстом напрямую через moviepy и ffmpeg. Всё воспроизвелось, вот мой видос.
Оригинальный промпт: "can you use whatever resources you like, and python, to generate a short 'youtube poop' video and render it using ffmpeg ? can you put more of a personal spin on it? it should express what it's like to be a LLM"
Оригинальный промпт: "can you use whatever resources you like, and python, to generate a short 'youtube poop' video and render it using ffmpeg ? can you put more of a personal spin on it? it should express what it's like to be a LLM"
❤37🔥12 1