Ну и чтоб два раза не вставать.
Навайбкодил быстренько браузерное расширение, которое переводит тексты на сайтах в вот этот библейский стиль.
Позалипал полчасика в интернеты, так намного лучше, ей богу. Особенно это касается Порнхаба и Двача. Когда читаешь описание категорий или срачи в /b/ — ощущение, что не деградируешь, а причащаешься к вечному.
Работает медленно, иногда может порушить вёрстку. Под капотом крутится google/gemini-2.5-flash-lite (кстати, если знаете модельку быстрее, не сильно дороже и не сильно тупее, посоветуйте пожалуйста).
Ещё чуть допилю и позже выложу, если вдруг кому пригодится.
Навайбкодил быстренько браузерное расширение, которое переводит тексты на сайтах в вот этот библейский стиль.
Позалипал полчасика в интернеты, так намного лучше, ей богу. Особенно это касается Порнхаба и Двача. Когда читаешь описание категорий или срачи в /b/ — ощущение, что не деградируешь, а причащаешься к вечному.
Работает медленно, иногда может порушить вёрстку. Под капотом крутится google/gemini-2.5-flash-lite (кстати, если знаете модельку быстрее, не сильно дороже и не сильно тупее, посоветуйте пожалуйста).
Ещё чуть допилю и позже выложу, если вдруг кому пригодится.
Тут исследователи из Пенсильванского университета решили по-взрослому проверить вот эту нашу промпт-инженерную магию. А именно, работает ли трюк "Веди себя как эксперт по...". Ну, т.е. когда вы просите нейронку притвориться профессором квантовой физики, чтобы она лучше ответила на ваш тупой вопрос.
Взяли шесть разных моделей (GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash, Gemini 2.5 Flash), навалили им сложнейших вопросов уровня аспирантуры по физике, химии, праву и т.д. и начали эксперимент.
Проверяли три подхода:
Эксперт в теме: просили модельку стать физиком для решения задач по физике.
Эксперт не в теме: просили стать физиком для решения задач по юриспруденции.
Тупой профан: давали роль обывателя, подростка или вообще ребёнка, который только учится ходить.
И знаете что?Это всё почти полная хуйня.
Когда нейронке давали роль эксперта в вопросе, её точность никак существенно не улучшалась. Вообще.
Когда эксперта просили отвечать не по своей теме, результаты иногда становились хуже. Gemini так вообще впадал в экзистенциальный кризис с тряской на повышенной амплитуде и часто отказывался отвечать, заявляя, что "не может с чистой совестью" давать ответ, так как не хватает экспертизы.
Ну а когда модельки просили стать ребенком — они послушно начинали нести дичь и стабильно показывали самые хреновые результаты.
Вывод: все популярные гайды, где советуют начинать промпт с назначения роли эксперта, по ходу, можно сливать в унитаз. Для изменения тона или стиля ответа это работает хорошо, но для повышения фактической точности на сложных задачах абсолютно бесполезно, а иногда даже вредно.
Железка умнее от ваших ролевых игр не становится.
тут подробнее
Взяли шесть разных моделей (GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash, Gemini 2.5 Flash), навалили им сложнейших вопросов уровня аспирантуры по физике, химии, праву и т.д. и начали эксперимент.
Проверяли три подхода:
Эксперт в теме: просили модельку стать физиком для решения задач по физике.
Эксперт не в теме: просили стать физиком для решения задач по юриспруденции.
Тупой профан: давали роль обывателя, подростка или вообще ребёнка, который только учится ходить.
И знаете что?
Когда нейронке давали роль эксперта в вопросе, её точность никак существенно не улучшалась. Вообще.
Когда эксперта просили отвечать не по своей теме, результаты иногда становились хуже. Gemini так вообще впадал в экзистенциальный кризис с тряской на повышенной амплитуде и часто отказывался отвечать, заявляя, что "не может с чистой совестью" давать ответ, так как не хватает экспертизы.
Ну а когда модельки просили стать ребенком — они послушно начинали нести дичь и стабильно показывали самые хреновые результаты.
Вывод: все популярные гайды, где советуют начинать промпт с назначения роли эксперта, по ходу, можно сливать в унитаз. Для изменения тона или стиля ответа это работает хорошо, но для повышения фактической точности на сложных задачах абсолютно бесполезно, а иногда даже вредно.
Железка умнее от ваших ролевых игр не становится.
тут подробнее
Ssrn
Prompting Science Report 4: Playing Pretend: Expert Personas Don't Improve Factual Accuracy
<span>
<p><span>This is the fourth in a series of short reports that help business, education, and policy leaders understand the technical details of working w
<p><span>This is the fourth in a series of short reports that help business, education, and policy leaders understand the technical details of working w
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
У xAI прошел хакатон и выиграл там проект который мне кажется генерирует ненависть больше чем все остальное, представьте:
1. Вы смотрите любимый фильм или сериал
2. В какой-то момент герои берут какие-то шмотки и начинают их вам рекламировать, как часть фильма
3. Реклама заканчивается и кино играет как обычно
Надеюсь эта фигня никогда не попадет в продакшн – мгновенно стану пиратом сервиса который это подключит
Генеративный АИ, но про генерацию кортизола
1. Вы смотрите любимый фильм или сериал
2. В какой-то момент герои берут какие-то шмотки и начинают их вам рекламировать, как часть фильма
3. Реклама заканчивается и кино играет как обычно
Надеюсь эта фигня никогда не попадет в продакшн – мгновенно стану пиратом сервиса который это подключит
Генеративный АИ, но про генерацию кортизола
Forwarded from Anton
Media is too big
VIEW IN TELEGRAM
Трям! Сделал красивое. Это Xiaozhi с DeepSeek. В интернет не ходит, но в целом забавно, иногда полезно.
This media is not supported in your browser
VIEW IN TELEGRAM
Немножко годного дата-виза вам в ленту.
LMSYS (создатели LMArena) выкатили инфографику, показывающую как менялись баллы топовых нейро-гигантов на арене с начала 2025 года.
Всего 20 секунд, а сколько за этими линиями сожжено видеокарт и потрачено миллионов долларов, страшно представить.
LMSYS (создатели LMArena) выкатили инфографику, показывающую как менялись баллы топовых нейро-гигантов на арене с начала 2025 года.
Всего 20 секунд, а сколько за этими линиями сожжено видеокарт и потрачено миллионов долларов, страшно представить.
Увидел в твитторе, что новая нанобанана умеет генерить тир-листы. Решил проверить.
Попросил создать тир-листы по русскоязычным мемам, ЖЭК-арту и классическим закускам под водочку. Результат — моё почтение.
Оно само понимает контекст и само же расставляет предметы по рангу (S — элита, F — дно).
Делается в два этапа: первый — просим саму же нанобанану (ну или другую достаточно умную модельку) сделать json-структуру тир-листа:
После этого в nano banana pro вставить этот промпт (я его чуть докрутил, чтобы текст был на русском, а стиль как на сайте TierMaker) + полученный ранее json:
Попросил создать тир-листы по русскоязычным мемам, ЖЭК-арту и классическим закускам под водочку. Результат — моё почтение.
Оно само понимает контекст и само же расставляет предметы по рангу (S — элита, F — дно).
Делается в два этапа: первый — просим саму же нанобанану (ну или другую достаточно умную модельку) сделать json-структуру тир-листа:
Make a json of a tier list (S-F scale) for: [*ВАША ТЕМА*]
После этого в nano banana pro вставить этот промпт (я его чуть докрутил, чтобы текст был на русском, а стиль как на сайте TierMaker) + полученный ранее json:
Generate an image with the classically seen tier list style/color scheme and representative thumbnail images for each list item based on the json below.
IMPORTANT:
1. Visual style: Screenshot of a TierMaker website.
2. Text inside the image MUST be in Russian Cyrillic.
3. Make meme characters/items look recognizable.
[сюда json из первого шага]
Forwarded from AI Product | Igor Akimov
GPT-5.2!
Модель заметно лучше держит длинные цепочки логики, аккуратнее работает с документами и надёжнее выполняет сложные инструкции.
• SWE-Bench Pro: 50.8% → 55.6%
• GPQA Diamond: 88.1% → 92.4%
• AIME 2025: 94.0% → 100%
• ARC-AGI-2: 17.6% → 52.9%
Три версии под разные задачи:
• GPT-5.2 Instant - быстрые ответы и повседневные запросы.
• GPT-5.2 Thinking - глубокие рассуждения, аналитика, многошаговые задачи.
• GPT-5.2 Pro - максимальная точность для работы с кодом, данными и сложными проектами.
Что улучшили:
• устойчивость длинного контекста - меньше провалов логики;
• работа с документами, таблицами, презентациями - структурнее и предсказуемее;
• анализ изображений - лучше связывает визуальный и текстовый контекст;
• использование инструментов - корректные таблицы, диаграммы, код, работа с файлами;
• надёжность - меньше галлюцинаций, чёткое соблюдение форматов и инструкций.
Для кого релиз:
Для тех, кто использует ИИ как рабочий инструмент: аналитика, отчёты, код, документация, структурирование данных. Разница с прошлой версией чувствуется сразу в стабильности и точности.
GPT-5.2 уже доступен в API (дороже 5.1) и начинает раскатываться в ChatGPT.
https://openai.com/index/introducing-gpt-5-2/
Модель заметно лучше держит длинные цепочки логики, аккуратнее работает с документами и надёжнее выполняет сложные инструкции.
• SWE-Bench Pro: 50.8% → 55.6%
• GPQA Diamond: 88.1% → 92.4%
• AIME 2025: 94.0% → 100%
• ARC-AGI-2: 17.6% → 52.9%
Три версии под разные задачи:
• GPT-5.2 Instant - быстрые ответы и повседневные запросы.
• GPT-5.2 Thinking - глубокие рассуждения, аналитика, многошаговые задачи.
• GPT-5.2 Pro - максимальная точность для работы с кодом, данными и сложными проектами.
Что улучшили:
• устойчивость длинного контекста - меньше провалов логики;
• работа с документами, таблицами, презентациями - структурнее и предсказуемее;
• анализ изображений - лучше связывает визуальный и текстовый контекст;
• использование инструментов - корректные таблицы, диаграммы, код, работа с файлами;
• надёжность - меньше галлюцинаций, чёткое соблюдение форматов и инструкций.
Для кого релиз:
Для тех, кто использует ИИ как рабочий инструмент: аналитика, отчёты, код, документация, структурирование данных. Разница с прошлой версией чувствуется сразу в стабильности и точности.
GPT-5.2 уже доступен в API (дороже 5.1) и начинает раскатываться в ChatGPT.
https://openai.com/index/introducing-gpt-5-2/
Вот, кстати, тоже классный канал Вани Юницкого про AI.
Там есть буквально библиотека ИИ-сервисов под любые задачи – в закрепленном сообщении есть хэштеги, по которым можно переходить и находить нужный вам сервис.
Название топ: Точки над ИИ
Подпишитесь, чтобы не потерять.
Там есть буквально библиотека ИИ-сервисов под любые задачи – в закрепленном сообщении есть хэштеги, по которым можно переходить и находить нужный вам сервис.
Название топ: Точки над ИИ
Подпишитесь, чтобы не потерять.
This media is not supported in your browser
VIEW IN TELEGRAM
Сука это гениально