Forwarded from Neural Shit
Я в резюме: загляните на мой гитхаб, там шикарные проекты!
Мои проекты:
Мои проекты:
This media is not supported in your browser
VIEW IN TELEGRAM
❤24🔥13🤣13👍5🎉2🫡2
Ffmpeg перепишут на расте для вашей безопасности. Он и так быстрый слишком.
Тред
С 1 апреля конечно же
@derplearning
Тред
@derplearning
😁49🔥4😱2❤1👍1🗿1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
RawGen: Image2Raw и Text2Raw
Очень интересная работа от Самсунга
Проблема: модели диффузии превосходно подходят для генерации изображений в цветовом пространстве sRGB; однако sRGB - это нелинейное пространство, display-optimized, и он включает в себя неизвестные эффекты обработки изображений.
Модели генерации обучены не на raw, а на уже прошедших обработку (в разных камерах) фотографиях.
Чуваки взяли адобовский датасет KFive (где есть пары raw<->обработанный_результат) и запустили генерацию "обратно" из sRGB в raw. Под капотом FLUX.1 Kontext (не для генерации, а для редактирования).
На итоге можно подавать на вход любое sRGB-изображение(или текст) и конвертировать его в линейный raw. Причем можно выбирать в raw какой конкретно камеры хочется попасть.
Поглядите тут, пощелкайте по камерам, очень хорошо оформленный проект:
https://dy112.github.io/rawgen-page/
https://arxiv.org/abs/2604.00093 (31 марта 2026)
Кода пока нет, но обещан.
Работа красивая, но в результате все равно получается 8-битный цвет!
Вопрос: как вы выкручиваетесь, если вам надо получить\сдавать HDR и 10-битный цвет, а у вас генерация и 8 бит?
@cgevent
Очень интересная работа от Самсунга
Проблема: модели диффузии превосходно подходят для генерации изображений в цветовом пространстве sRGB; однако sRGB - это нелинейное пространство, display-optimized, и он включает в себя неизвестные эффекты обработки изображений.
Модели генерации обучены не на raw, а на уже прошедших обработку (в разных камерах) фотографиях.
Чуваки взяли адобовский датасет KFive (где есть пары raw<->обработанный_результат) и запустили генерацию "обратно" из sRGB в raw. Под капотом FLUX.1 Kontext (не для генерации, а для редактирования).
На итоге можно подавать на вход любое sRGB-изображение(или текст) и конвертировать его в линейный raw. Причем можно выбирать в raw какой конкретно камеры хочется попасть.
Поглядите тут, пощелкайте по камерам, очень хорошо оформленный проект:
https://dy112.github.io/rawgen-page/
https://arxiv.org/abs/2604.00093 (31 марта 2026)
Кода пока нет, но обещан.
Работа красивая, но в результате все равно получается 8-битный цвет!
Вопрос: как вы выкручиваетесь, если вам надо получить\сдавать HDR и 10-битный цвет, а у вас генерация и 8 бит?
@cgevent
🎉3😁1
Мем смешной, ситуация страшная (с)
В последнее время Клод жрет токены как не в себя, и юзеры жалуются, что одни и те же задачи теперь стоят в 5 раз больше токенов.
reddit
В последнее время Клод жрет токены как не в себя, и юзеры жалуются, что одни и те же задачи теперь стоят в 5 раз больше токенов.
😢24😱11😁3💯3
Forwarded from Neural Shit
Интересное исследование от стэнфордских исследователей: пишут, что наше хвалёное компьютерное зрение это очень часто просто чушь, поданная с полной уверенностью.
Авторы вскрыли "эффект миража". Это когда мы просим нейронку описать картинку, которую забыли прикрепить (ну или она не прогрузилась по дороге), а кремниевый болван вместо того, чтобы сказать “бро, ты забыл загрузить изображение", начинает затирать про детали: какой там рентген, какие птички на ветках, какие цифры на номерах машины и т.д.
Самое интересное в препринте:
— Зрительные миражи: современные мультимодалки в среднем чаще чем в 60% случаев уверенно описывают несуществующие изображения. А при некоторых инструкциях у многих моделей эта хрень доходит вообще до 90–100%. Никаких “картинка не загружена”. Только уверенный полёт фантазии.
— Бенчмарки местами мусор: авторы показывают, что без картинок модели сохраняют в среднем 70–80% своей якобы “визуальной” точности. Тоесть огромный кусок успеха в “визуальных” тестах добывается тупо по тексту вопроса, скрытым паттернам датасета и статистике ответов.
— Медицинская беда: если изображения нет, модель не просто тупит, а часто начинает видеть патологию. В их примерах миражи в медицине заметно смещены в сторону всякой жести: меланом, карцином и прочих спидораков. Тоесть если картинка потерялась в пайплайне, эта скотина может не признать отсутствие данных, а уверенно сочинить диагноз.
— Унижение гигантов: исследователи взяли сравнительно мелкую модель Qwen-2.5 на 3 млрд параметров, дообучили её угадывать ответы по chest X-ray benchmark без картинок, и этот мелкий пиздюк обогнал и гигантские модели, и в среднем живых радиологов. Просто потому, что научился читать не снимки, а саму структуру теста.
Для лечения этой шизы они предлагают метод B-Clean: вычищать из бенчмарков все вопросы, которые модели могут брать без реального зрения, чтобы оценивать не мастерство врать, а хоть какое-то настоящее использование картинки.
тут статья
Авторы вскрыли "эффект миража". Это когда мы просим нейронку описать картинку, которую забыли прикрепить (ну или она не прогрузилась по дороге), а кремниевый болван вместо того, чтобы сказать “бро, ты забыл загрузить изображение", начинает затирать про детали: какой там рентген, какие птички на ветках, какие цифры на номерах машины и т.д.
Самое интересное в препринте:
— Зрительные миражи: современные мультимодалки в среднем чаще чем в 60% случаев уверенно описывают несуществующие изображения. А при некоторых инструкциях у многих моделей эта хрень доходит вообще до 90–100%. Никаких “картинка не загружена”. Только уверенный полёт фантазии.
— Бенчмарки местами мусор: авторы показывают, что без картинок модели сохраняют в среднем 70–80% своей якобы “визуальной” точности. Тоесть огромный кусок успеха в “визуальных” тестах добывается тупо по тексту вопроса, скрытым паттернам датасета и статистике ответов.
— Медицинская беда: если изображения нет, модель не просто тупит, а часто начинает видеть патологию. В их примерах миражи в медицине заметно смещены в сторону всякой жести: меланом, карцином и прочих спидораков. Тоесть если картинка потерялась в пайплайне, эта скотина может не признать отсутствие данных, а уверенно сочинить диагноз.
— Унижение гигантов: исследователи взяли сравнительно мелкую модель Qwen-2.5 на 3 млрд параметров, дообучили её угадывать ответы по chest X-ray benchmark без картинок, и этот мелкий пиздюк обогнал и гигантские модели, и в среднем живых радиологов. Просто потому, что научился читать не снимки, а саму структуру теста.
Для лечения этой шизы они предлагают метод B-Clean: вычищать из бенчмарков все вопросы, которые модели могут брать без реального зрения, чтобы оценивать не мастерство врать, а хоть какое-то настоящее использование картинки.
тут статья
🏆29🔥10😁9❤3😱3🤣3💯2
Forwarded from Борис опять
Астронавты Artemis II сделали красивые фото Земли в высоком разрешении, тут и тут можно скачать себе новые обои.
Еще, оказывается, есть лайв трансляция на Youtube прямо с корабля. What a time to be alive
Еще, оказывается, есть лайв трансляция на Youtube прямо с корабля. What a time to be alive
NASA
Artemis II Captures the Terminator Line - NASA
art002e000190 (April 3, 2026) - A view of Earth taken by NASA astronaut and Artemis II Commander Reid Wiseman from one of the Orion spacecraft's four windows after completing the translunar injection burn on April 2, 2026.
❤11👍2
Caveman Prompting - уга-буга оптимизация или как сэкономить 75% токенов
16-летний SaaS-разработчик научил Claude говорить как пещерный человек. Результат - 75% экономия токенов.
Обычный Claude на web search задачу тратит ~180 токенов. Caveman Claude - ~45.
"I executed the web search tool" = 8 токенов
"Tool work" = 2 токена
Почему работает: пещерный Claude не объясняет что он делает. Не говорит "I'd be happy to help you with that". Не говорит "Let me search the web for you". Делает задачу, выдает результат, затыкается.
"result. done. me stop."
С учетом того что лимиты Claude сжимаются каждую неделю - возможно это самый практичный хак прямо сейчас. Мы прошли полный круг от "сделай языковую модель которая хорошо пишет текст" до "научи языковую модель писать как можно меньше текста".
Тред
@derplearning
16-летний SaaS-разработчик научил Claude говорить как пещерный человек. Результат - 75% экономия токенов.
Обычный Claude на web search задачу тратит ~180 токенов. Caveman Claude - ~45.
"I executed the web search tool" = 8 токенов
"Tool work" = 2 токена
Почему работает: пещерный Claude не объясняет что он делает. Не говорит "I'd be happy to help you with that". Не говорит "Let me search the web for you". Делает задачу, выдает результат, затыкается.
"result. done. me stop."
С учетом того что лимиты Claude сжимаются каждую неделю - возможно это самый практичный хак прямо сейчас. Мы прошли полный круг от "сделай языковую модель которая хорошо пишет текст" до "научи языковую модель писать как можно меньше текста".
Тред
@derplearning
😁78🔥16❤4
Forwarded from UX Live 🔥
art002e000192.jpg
5.9 MB
У NASA оказывается есть целый сайт с фотками и видео в хайрезах https://images.nasa.gov/ + конкретно с новой экспедиции на Луну https://www.nasa.gov/gallery/journey-to-the-moon
Это кстати довольно редкая фотка (пишут в разных местах что первая за 50 лет) где видно всю планету целиком (раньше такие фотки склеивали из разных).
Красиво конечно, забрал на волпепер, пока РКН не заблокировал.
Это кстати довольно редкая фотка (пишут в разных местах что первая за 50 лет) где видно всю планету целиком (раньше такие фотки склеивали из разных).
Красиво конечно, забрал на волпепер, пока РКН не заблокировал.
❤5👍3😁1🤡1
Юзерам openclaw:
models auth login --provider anthropic --method cli --set-default
models auth login --provider anthropic --method cli --set-default
😁17🤡5👍1