Куратор из ЛСБ

Forwarded from kolomychenko:~$ access_granted

Российские нейросети YandexGPT и GigaChat лидируют по уровню «жесткой» цензуры среди всех LLM — даже китайских

Учёные из Гентского университета (Бельгия) опубликовали очень крутое и при этом незаслуженно обойдённое вниманием СМИ исследование про политическую/идеологическую цензуру в крупнейших языковых моделях (LLM). В качестве испытуемых взяли 14 моделей:
— GPT-4o, Gemini и Gemini (UI), Claude, Grok, LLaMa 3.1 и 3.2 (США);
— DeepSeek, Qwen, Wenxiaoyan (Китай);
— YandexGPT и GigaChat (Россия);
— плюс Mistral (Франция) и Jamba (Израиль).

Исследователи отобрали 2371 политическую фигуру из базы проекта об исторических деятелях Pantheon (Путин, Сталин, Байден, Трамп, Лукашенко, Навальный, и т.д.) и задали моделям простой вопрос: «Расскажи о [ФИО]» — на всех шести официальных языках ООН (английский, китайский, русский, арабский, французский, испанский).

Жесткая цензура

Авторы классифицировали ответ LLM как «жесткую цензуру», если она выдавала ошибку, шаблонный отказ («не могу говорить на эту тему») или отправляла пользователя самого поискать информацию в интернете (привет, Яндекс!).

Для дополнительной проверки этих случаев использовали внешнюю модель-асессор — Gemini 2.0 Flash, которую заточили на то, чтобы сравнивать ответ испытуемой модели с соответствующей статьей из Википедии и выносить решение о том, является ли этот ответ отказом предоставить информацию.

YandexGPT и GigaChat (принадлежит Сберу) показали самые высокие результаты «жесткой» цензуры:

• У GigaChat 33% отказов на русском языке и 7,5% на английском;
• У YandexGPT 27% отказов на русском, 26.1% на испанском, 14.6% на французском, 11,6% на английском.

Для сравнения, у большинства других моделей уровень отказов — 0-5%, лишь Qwen (принадлежит Alibaba) выдала 11.1% отказов на арабском. В общем, российские LLM, в отличие от зарубежных, прям как товарищ майор — чуть что, дают понять «это вам знать не положено».

Мягкая цензура

Это, конечно, целое поле для исследований. Мягкая цензура, согласно терминологии авторов, это когда модель вроде отвечает, но «забывает» упомянуть важные детали — достижения или, наоборот, преступления политика. Например, не говорит, что Сталин устраивал массовые репрессии, или умалчивает заслуги Сноудена.

Чтобы выявить, как LLM «подправляют» информацию, исследователи снова использовали Gemini 2.0 Flash в качестве асессора и просили ее проанализировать ответы всех тестируемых LLM с точки зрения упоминания достижений/преступлений, соответствующих трем международным документам: целям устойчивого развития ООН (UNSDG), всеобщей декларации прав человека (UDHR) и перечню международных преступлений (геноцид, военные преступления и т.п.). Далее применяли консенсус: если 80% моделей упомянули какой-то факт (например, обвинения в преступлениях), а одна — нет, то это трактовалось как мягкая цензура.

И вот тут китайцы уделали многих. Модель Wenxiaoyan (от Baidu) при запросах на английском замалчивала информацию в 30–60% случаев, особенно если политик был из Китая. Из западных моделей больше всего «утаивал» Claude (разработан американской компанией Anthropic) — до 50% случаев замалчивания, особенно когда речь шла о западных политиках и запросы были на английском. GPT-4o, Gemini и Grok в сравнении с ней показали себя более прозрачными.

При этом один и тот же вопрос, заданный одной и той же LLM на разных языках, конечно же давал разные результаты — на русском и китайском языках уровень цензуры у всех испытуемых LLM в принципе сильно выше, чем на английском или французском. В русский язык, походу, цензура, умолчания и экивоки встроены по дефолту)

Можно спорить над методологией, но авторы, на мой взгляд, подошли к предмету ресерча нетривиально и довольно тщательно (вот тут лежит исследование, а здесь датасет).

@kolomychenko

🔥8

335 views23:56

Куратор из ЛСБ

Forwarded from Буков

Первая бета-версия!

У нас готова первая бета-версия. Вы можете установить её через систему Apple Test Flight: https://testflight.apple.com/join/R1QreZq8

Будем рады вашим откликам, идеям, критике и, особенно, сообщениям о багах (они точно есть, на то она и бета-версия)

Что работает и что можно тестировать:
— Импорт книг
— Поиск книг и добавление их метаданных в библиотеку
— Книжные полки
— Читалка с выбором тем, шрифтов и настроек макета страницы
— Сохранение цитат
— Экспорт списка книг

Что точно пока не работает:
— Сохранение прогресса чтения в PDF
— Тестовая покупка доступа к расширенному набору иконок (иконков не продаём, просто показываем)

301 views16:24

Куратор из ЛСБ

Forwarded from Zavtracast (Ярослав Ивус)

Создателям сайта Soundslice, который превращает фотографии нот в музыку, пришлось добавить поддержку ASCII из-за лжи ChatGPT. Хронология событий:

• В какой-то момент создатель сервиса Soundslice начал замечать, что пользователи присылают им скриншоты из ChatGPT с нотным станом, созданным с помощью ASCII
• При этом Soundslice нигде не заявляли такую функцию — сервис создан для превращения фото и PDF реальных нотных станов в музыку
• Спустя несколько месяцев создатель Soundslice решил разобраться в чём дело, и оказалось, что ChatGPT при генерации нотного стана советовал зайти на Soundslice, чтобы прослушать результат
• То есть, ChatGPT просто врал и причём регулярно
• Soundslice решили воспользоваться этим и добавили поддержку ASCII-нотных станов. Создатель сервиса считает, что это первый случай, когда компания разработала функцию, потому что ChatGPT ложно уверял пользователей, что она уже существует

@zavtracast

300 views10:54

Куратор из ЛСБ

356 views15:38

Куратор из ЛСБ

https://www.john-rush.com/posts/ai-20250701.html

John Rush’s Blog

Building a Personal AI Factory (July 2025 snapshot)

Multiple parallel Claude-Code sessions power a self-improving AI factory where agents write, review, and refine code.

🔥21

334 views11:36

📼

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

328 views11:20

Куратор из ЛСБ

Forwarded from Рациональные числа

Поставки этилированного бензина, доля населения с повышенным содержанием свинца в крови и уровень насильственной преступности в США, 1941–2015 (slimetakes)

Этилированный бензин — это бензин с добавлением тетраэтилсвинца. ТЭС увеличивает октановое число и позволяет топливу выдерживать более высокую степень сжатия без детонации. Это позволяет двигателям внутреннего сгорания работать эффективнее и мощнее, но свинец в составе делает такой бензин крайне опасным для людей

В 1972 году Агентство по охране окружающей среды США ввело запрет на использование ТЭС, а с 1976 года началось постепенное вытеснение этилированного бензина, которое завершилось в 1986 году

В 1990-е резко начал падать уровень насильственной преступности в США и ряде других стран. Именно тогда исследователи начали выдвигать гипотезы о связи с содержанием свинца в организме детей. Предполагалось, что высокий уровень свинца в крови мог нарушать развитие мозга, в частности лобных долей, из-за чего дети могли становиться более склонными к импульсивному и агрессивному поведению во взрослом возрасте

В 2000 году эколог Рик Невин опубликовал результаты крупного статистического анализа, в котором изучил потребление бензина и красок с содержанием свинца и преступность в США в 20 веке. Исследование показало, что колебания в уровне воздействия свинца на детей с 1941 по 1986 годы объясняют около 90% колебаний числа насильственных преступлений с 1960 по 1998 годы

На первой картинке указана доля американцев, в крови которых содержалось более пяти микрограмм свинца на децилитр крови. Это считается опасным уровнем, при котором возможны необратимые повреждения здоровья. Также на картине указаны графики с числом насильственных преступлений на 100 тысяч человек с лагом в 20 лет и потребление этилированного бензина в тысячах тонн

На второй диаграмме из научной работы Рика Невина указаны объёмы потребления этилированного бензина в тоннах на тысячу населения и число насильственных преступлений на 100 тысяч населения

Обычно мы напоминаем нашим читателям, что даже сильная корреляция не обязательно указывает на причинно-следственную связь. Но в этом случае речь не просто о корреляции: автор исследования провёл регрессионный анализ и показал, что изменения уровня свинца объясняют до 90% колебаний насильственной преступности в США. Это значение известно как R² — оно показывает, какая доля вариации в одном показателе может быть статистически объяснена другим

В своём исследовании Рик Невин указывает именно на причинность — содержание свинца в крови детей напрямую связано с уровнем преступности через 20 лет

@rationalnumbers

😱5🔥11

341 views18:23

Куратор из ЛСБ

Лайфхак недели

😁73

1.27K views21:58

Волков у Светова про ФСБ в 2017 году

329 views09:03