Forwarded from DziS Science | Data Science
Привет всем!👋
Давно не было технического контента, значит настало время это изменить!
Нередко мы слышим от коллег о том, что Pickle зло, но почему?
На странице документации модуля мы видим следующее предупреждение:
Сегодня я хотел бы наглядно проговорить почему Pickle сериализация может быть опасна и что такое Pickle Bomb.
Итак, думаю, многие, кто это читают хотя бы раз сохраняли артефакты моделей, используя модуль
В целом структура процесса изложена в коде ниже.
Берется какой-то объект, в нашем случае словарь
В процессе десериализации и кроется истинное зло. По сути, там происходит вызов метода
- Что тогда есть такое Pickle Bomb?
- Какие примеры Pickle Bomb атак популярны?
1️⃣ 🔤 Бомбы по памяти, например сериализация N ГБ мусора
2️⃣ 🔤 Бомбы с исполняемым кодом. Наверное, самый популярный и опасный тип. О нем и поговорим чуть дальше.
- Чем опасен 2 тип Pickle Bomb?
Неконтролируемостью и, нередко, непредсказуемостью запуска внутренностей.
- Что можно ожидать внутри бомбы?
Самое безобидное - однострочные уязвимости. Например, простой шуточный
Для особо интересующихся примеры атаки с примером кода, вызывающим
-Как обезопасить себя?
1️⃣ 🔤 Избегать использование pickle и десериализации из неизвестных источников.
Отдавайте предпочтение json для несложных структур.
Как вариант, посмотреть метаданные без десериализации можно с помощью библиотеки
2️⃣ 🔤 Если файл из неизвестного источника нужно открыть по-любому, то рекомендуется создание отдельного "тестового" контейнера, где можно попробовать запустить десериализацию.
3️⃣ 🔤 Создание хэш ключей для проверки валидности файла.
Приведу один из вариантов использования подписи из библиотеки
Логика простая - создание из уже сериализованных данных подписи по формату [длина подписи (4 байта)] + [подпись =
Требуется создание секретного ключа
Проверка сравнивает рассчитанную при сериализации и полученную роспись и при совпадении десериализует данные.
По традиции 🔥, если понравилось!
#ds_лайфхаки
Давно не было технического контента, значит настало время это изменить!
Нередко мы слышим от коллег о том, что Pickle зло, но почему?
На странице документации модуля мы видим следующее предупреждение:
Warning: The pickle module is not secure. Only unpickle data you trust.
It is possible to construct malicious pickle data which will execute arbitrary code during unpickling. Never unpickle data that could have come from an untrusted source, or that could have been tampered with.
Consider signing data with hmac if you need to ensure that it has not been tampered with.
Safer serialization formats such as json may be more appropriate if you are processing untrusted data. See Comparison with json.
Сегодня я хотел бы наглядно проговорить почему Pickle сериализация может быть опасна и что такое Pickle Bomb.
Дисклеймер: Я в данном посте подсвечу основные концепты создания бомбы, но явно полностью рабочий код писать не буду, так как данные варианты кода можно легко интерпретировать по статье 273 УК РФ. Данный материал написал лишь с целью предупредить об возможных опасностях.
Итак, думаю, многие, кто это читают хотя бы раз сохраняли артефакты моделей, используя модуль
pickle, который выполняет преобразование объектов в байтовые строки (сериализация) и обратно (десериализация). В целом структура процесса изложена в коде ниже.
Берется какой-то объект, в нашем случае словарь
data сериализуется, записывается в файл data.pkl используя метод open() атрибуты записи бинарного файла (wb), после бинарный файл читается (rb), десериализуется и на выходе получаем обратно словарь.import pickle
data = {"key": "value", "nums": [1, 2, 3]}
# wb = write binary
with open("data.pkl", "wb") as file:
pickle.dump(data, file)
# rb = read binary
with open("data.pkl", "rb") as file:
deserialized = pickle.load(file)
В процессе десериализации и кроется истинное зло. По сути, там происходит вызов метода
eval()!- Что тогда есть такое Pickle Bomb?
Бомба сериализации (Pickle Bomb) это ничто иное, как использование уязвимости десериализации к различным нежелательным запускам кода.
- Какие примеры Pickle Bomb атак популярны?
bomb = bytearray(N*10**9). Эта штука съест вашу оперативку за считанные секунды. - Чем опасен 2 тип Pickle Bomb?
Неконтролируемостью и, нередко, непредсказуемостью запуска внутренностей.
- Что можно ожидать внутри бомбы?
Самое безобидное - однострочные уязвимости. Например, простой шуточный
print(), менее смешное os.system("rm -rf *"), а далее уже полноценные "Троянские кони".Для особо интересующихся примеры атаки с примером кода, вызывающим
print() при десериализации и объяснение почему так описано в отличной статье на Habr [ссылка на оригинал статьи]. Код, собственно, может быть легко преобразован в что-то более серьезное. -Как обезопасить себя?
Отдавайте предпочтение json для несложных структур.
Как вариант, посмотреть метаданные без десериализации можно с помощью библиотеки
pickletools:import pickletools
with open("data.pkl", "rb") as f:
pickletools.dis(f)
Приведу один из вариантов использования подписи из библиотеки
hmac. Логика простая - создание из уже сериализованных данных подписи по формату [длина подписи (4 байта)] + [подпись =
hmac.new(key, serialized, hashlib.sha256).digest()] + [сериализованные данные(serialized)]. Требуется создание секретного ключа
key, который и гарантирует корректность и "чистоту" pickle. Проверка сравнивает рассчитанную при сериализации и полученную роспись и при совпадении десериализует данные.
По традиции 🔥, если понравилось!
#ds_лайфхаки
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Заскуль питона (Data Science)
UX пользователей: кейсы крупных компаний
В своем Линке я выкладывал пост про сайт, где можно посмотреть на различные кейсы крупных игроков с точки зрения UX в мультяшном формате.
🔗 Так вот, ссылочка тут
Работая продуктовым аналитиком, изучаешь пользовательские пути, то, как они взаимодействуют с приложением, что на каждом этапе может нравится / не нравится.
Интересные кейсы
🟣 Audible: Build seamless purchase experiences
Рассматривается, как Audible улучшает UX при оформлении подписки, минимизируя фрикции и повышая конверсию.
🍔 McDonald’s: The Psychology Behind McDonald’s $2 Billion Self-Serve Kiosks
Анализируется, как дизайн киосков влияет на поведение клиентов и способствует увеличению продаж.
🟢 Grammarly: How to Craft Onboarding Surveys Users Love: 5 Do’s and Don’ts
Показано, как правильно сформулированные вопросы при регистрации повышают вовлеченность пользователей.
🎵 Spotify Wrapped: Spotify Wrapped: 6 psychology principles that make it go viral every year.
Разбирается, какие психологические принципы делают ежегодный отчет Spotify таким популярным и ожидаемым.
🟡 Temu: The psychology of Temu’s casino-like shopping UX
Исследуется, как элементы геймификации и случайных вознаграждений стимулируют покупки.
Всего представлено 64 кейса, которые можно посмотреть и рассмотреть с уклоном в психологию пользователей
Также выделены 106 психологических приемов, которыми пользуются топовые компании
Годный ресурс, советую каждому ознакомиться с ним.
Если пост понравился, поставьте🔥 , пишите комментарии, нужно ли делать подборку по таким ресурсам!
В своем Линке я выкладывал пост про сайт, где можно посмотреть на различные кейсы крупных игроков с точки зрения UX в мультяшном формате.
Работая продуктовым аналитиком, изучаешь пользовательские пути, то, как они взаимодействуют с приложением, что на каждом этапе может нравится / не нравится.
Интересные кейсы
Рассматривается, как Audible улучшает UX при оформлении подписки, минимизируя фрикции и повышая конверсию.
Анализируется, как дизайн киосков влияет на поведение клиентов и способствует увеличению продаж.
Показано, как правильно сформулированные вопросы при регистрации повышают вовлеченность пользователей.
Разбирается, какие психологические принципы делают ежегодный отчет Spotify таким популярным и ожидаемым.
Исследуется, как элементы геймификации и случайных вознаграждений стимулируют покупки.
Всего представлено 64 кейса, которые можно посмотреть и рассмотреть с уклоном в психологию пользователей
Также выделены 106 психологических приемов, которыми пользуются топовые компании
Годный ресурс, советую каждому ознакомиться с ним.
Если пост понравился, поставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Sinекура
Видеокурс для Центра искусственного интеллекта СПбГУ, который я записывал две недели назад, уже открылся! Вот ссылка:
Введение в машинное обучение и управление ML‑проектами
Насколько я понимаю, если зарегистрироваться на курс, то первый модуль будет доступен бесплатно. Курс получился, конечно, несколько химерический: мои модули о теореме Байеса и трансформерах, а модули коллег -- об управлении проектами в сфере машинного обучения. Но смотрится всё равно отлично, монтаж сделали, видео в слайды врезали, всё красивенько.)
На всякий случай напоминаю, что не так красивенько, но зато бесплатно и в гораздо большем объёме можно послушать мои лекции на ФМКН СПбГУ, которые я выкладываю: вот текущий курс 2024-2025, в котором прошло два семестра из трёх, а вот предыдущий, 2023-2024.
Введение в машинное обучение и управление ML‑проектами
Насколько я понимаю, если зарегистрироваться на курс, то первый модуль будет доступен бесплатно. Курс получился, конечно, несколько химерический: мои модули о теореме Байеса и трансформерах, а модули коллег -- об управлении проектами в сфере машинного обучения. Но смотрится всё равно отлично, монтаж сделали, видео в слайды врезали, всё красивенько.)
На всякий случай напоминаю, что не так красивенько, но зато бесплатно и в гораздо большем объёме можно послушать мои лекции на ФМКН СПбГУ, которые я выкладываю: вот текущий курс 2024-2025, в котором прошло два семестра из трёх, а вот предыдущий, 2023-2024.
Forwarded from Sinекура
Накануне отъезда, в пятницу 16 мая, выступал на конференции IML, которая проводилась в Питере совместно с PiterPy. Меня пригласили на совместную секцию с Александром Крайновым, поболтать втроём с модератором о том, что там в будущем, всех ли заменят и всех ли убьют. По-моему, получилось довольно зажигательно, а теперь вот появилось видео, и мне его разрешили распространять, так что делюсь:
Будущее ML: за пределами больших моделей
Я пришёл с теми же слайдами, что на два доклада накануне (в ЮМШ и в ЛЭТИ), и просто иногда подсвечивал ими то, о чём шла речь, да и монтаж коллеги отлично сделали. Так что слайды отдельно не выкладываю, см. по ссылкам на предыдущие доклады.
Будущее ML: за пределами больших моделей
Я пришёл с теми же слайдами, что на два доклада накануне (в ЮМШ и в ЛЭТИ), и просто иногда подсвечивал ими то, о чём шла речь, да и монтаж коллеги отлично сделали. Так что слайды отдельно не выкладываю, см. по ссылкам на предыдущие доклады.
YouTube
Александр Крайнов, Сергей Николенко — Будущее ML: за пределами больших моделей
Подробнее о конференции IML: https://jrg.su/1drGPM
— —
Современное машинное обучение во многом зациклено на масштабировании: чем больше данных и параметров, тем лучше. Но куда движется ML, когда закон Мура замедляется, а стоимость обучения растет?
Спикеры…
— —
Современное машинное обучение во многом зациклено на масштабировании: чем больше данных и параметров, тем лучше. Но куда движется ML, когда закон Мура замедляется, а стоимость обучения растет?
Спикеры…
Forwarded from Sinекура
Вышел третий мой большой пост из серии про AI safety:
AI Safety III: Interpretability
Напомню, что в первом посте я вводил основные определения этой науки, а во втором рассказывал про goodharting. Ну а сейчас мы обращаемся к одному из самых многообещающих направлений в AI safety, практически единственному, где действительно, кажется, есть позитивные результаты.
Большие модели — это всё ещё giant inscrutable matrices, но оказывается, что можно всё-таки найти правильные способы на них смотреть так, чтобы хотя бы приблизительно понять, где у них что происходит, а то и повлиять на это. Недавно Дарио Амодеи написал эссе "The Urgency of Interpretability", где мотивирует всё это направление с позиций AI safety.
План у этого поста такой:
— введение, valley of confused abstractions;
— как понять смысл отдельных признаков
— почему этого недостаточно: полисемантичность и суперпозиция (Olah et al., 2017; Elhage et al., 2022)
— механистическая интерпретируемость: схемы (circuits; Olah et al., 2020)
— моносемантические признаки в LLM (тут как раз про Golden Gate Claude)
— поиск схем в LLM (Ameisen et al., 2025)
— два интересных примера: как внутри LLM нашли RL (примерно как в человеческом мозге его нашли ещё давно) и почему ни в коем случае нельзя оптимизировать безопасность через анализ chains of thought и вообще нельзя интерпретируемость записывать в целевую функцию (модели просто обучатся скрывать свои намерения).
В целом интерпретируемость и правда очень важна, и там действительно есть большой прогресс. Но есть и парадокс: чем больше мы оптимизируем возможности AI-систем, тем менее интерпретируемыми они могут стать, а чем больше мы оптимизируем их для интерпретируемости, тем больше они могут научиться обманывать наши инструменты. Иначе говоря, интерпретируемость нужно сразу встраивать в основу того, как мы проектируем и обучаем AI-модели, и сразу разрабатывать эти методы с предположением, что достаточно продвинутые модели попытаются их обмануть. Это всё ещё, конечно, огромная нерешённая задача — очень надеюсь, что человечество с ней справится!
AI Safety III: Interpretability
Напомню, что в первом посте я вводил основные определения этой науки, а во втором рассказывал про goodharting. Ну а сейчас мы обращаемся к одному из самых многообещающих направлений в AI safety, практически единственному, где действительно, кажется, есть позитивные результаты.
Большие модели — это всё ещё giant inscrutable matrices, но оказывается, что можно всё-таки найти правильные способы на них смотреть так, чтобы хотя бы приблизительно понять, где у них что происходит, а то и повлиять на это. Недавно Дарио Амодеи написал эссе "The Urgency of Interpretability", где мотивирует всё это направление с позиций AI safety.
План у этого поста такой:
— введение, valley of confused abstractions;
— как понять смысл отдельных признаков
— почему этого недостаточно: полисемантичность и суперпозиция (Olah et al., 2017; Elhage et al., 2022)
— механистическая интерпретируемость: схемы (circuits; Olah et al., 2020)
— моносемантические признаки в LLM (тут как раз про Golden Gate Claude)
— поиск схем в LLM (Ameisen et al., 2025)
— два интересных примера: как внутри LLM нашли RL (примерно как в человеческом мозге его нашли ещё давно) и почему ни в коем случае нельзя оптимизировать безопасность через анализ chains of thought и вообще нельзя интерпретируемость записывать в целевую функцию (модели просто обучатся скрывать свои намерения).
В целом интерпретируемость и правда очень важна, и там действительно есть большой прогресс. Но есть и парадокс: чем больше мы оптимизируем возможности AI-систем, тем менее интерпретируемыми они могут стать, а чем больше мы оптимизируем их для интерпретируемости, тем больше они могут научиться обманывать наши инструменты. Иначе говоря, интерпретируемость нужно сразу встраивать в основу того, как мы проектируем и обучаем AI-модели, и сразу разрабатывать эти методы с предположением, что достаточно продвинутые модели попытаются их обмануть. Это всё ещё, конечно, огромная нерешённая задача — очень надеюсь, что человечество с ней справится!
Forwarded from Tensor Banana
Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.me/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.me/tensor_art/1019
Forwarded from 🇻 🇱 🇦 🇩
Ребята, сегодняшняя лекция
Scaling up Graph Neural Networks
Слайды
https://snap.stanford.edu/class/cs224w-2020/slides/17-scalable.pdf
Видео
1 https://www.youtube.com/watch?v=2nPCw3yHlnI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=53
2 https://www.youtube.com/watch?v=LLUxwHc7O4A&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=54
3 https://www.youtube.com/watch?v=RJkR8Ig6dXI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=55
4 https://www.youtube.com/watch?v=iTRW9Gh7yKI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=56
Scaling up Graph Neural Networks
Слайды
https://snap.stanford.edu/class/cs224w-2020/slides/17-scalable.pdf
Видео
1 https://www.youtube.com/watch?v=2nPCw3yHlnI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=53
2 https://www.youtube.com/watch?v=LLUxwHc7O4A&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=54
3 https://www.youtube.com/watch?v=RJkR8Ig6dXI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=55
4 https://www.youtube.com/watch?v=iTRW9Gh7yKI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=56
Forwarded from Dealer.AI
Продолжаем про капасити эмбов LMок.
Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory (ответом на этот пост и пишу).
Теперь, всё то же самое можно делать за один forward-pass — без итеративного декодинга.
Но теперь нужно уже минимум два вектора.
Что это дает?
Дядя напомнит свой подход к работе с длинными диалогами, когда каждая фраза эмбеддилась в вектор, далее проходила мета-трансформер и получалось закодировать длинный диалог в один вектор. Теперь этот опыт, подтверждается экспериментально и можно с определенной длины не нарезать диалог/текст по фразам, а использовать капасити на " один вектор-К токенов". Т.е. нарезать уже окном длинной в капасити вектора. Таким образом можно использовать эффективный контекст+эмбеддер для эффективного кодирования длинной последовательности. Это может повлиять и на kv-caching и на алгоритмы RAG и на хаку, что я писал на заре канала.
Голосуйте за статью на daily papers.
Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory (ответом на этот пост и пишу).
Теперь, всё то же самое можно делать за один forward-pass — без итеративного декодинга.
Но теперь нужно уже минимум два вектора.
Что это дает?
Дядя напомнит свой подход к работе с длинными диалогами, когда каждая фраза эмбеддилась в вектор, далее проходила мета-трансформер и получалось закодировать длинный диалог в один вектор. Теперь этот опыт, подтверждается экспериментально и можно с определенной длины не нарезать диалог/текст по фразам, а использовать капасити на " один вектор-К токенов". Т.е. нарезать уже окном длинной в капасити вектора. Таким образом можно использовать эффективный контекст+эмбеддер для эффективного кодирования длинной последовательности. Это может повлиять и на kv-caching и на алгоритмы RAG и на хаку, что я писал на заре канала.
Голосуйте за статью на daily papers.
arXiv.org
Exploring the Hidden Capacity of LLMs for One-Step Text Generation
A recent study showed that large language models (LLMs) can reconstruct surprisingly long texts - up to thousands of tokens - via autoregressive generation from just one trained input embedding....
Forwarded from Dealer.AI
Иллюзия мышления: сильные и слабые стороны моделей Chain-of-Thought
В след за Антропик яблочники показали свое исследование внутренностей моделей, на примере рассуждений.
Оно выявило ключевые проблемы современных языковых моделей с цепочками рассуждений (Chain-of-Thought).
Тестировались следующие задачи:
- Башня Ханоя (более 100 шагов)
- Логическая задача с волком, козой и капустой
- Комбинаторные головоломки
Основные выводы:
- Модели не осуществляют реальных рассуждений, а полагаются на память.
- Чем сложнее задача, тем менее вероятно правильное решение.
- Дополнительные шаги размышлений ухудшают результат. Часто простое решение заменяется ошибочным.
- Увеличение вычислительных ресурсов и числа токенов не улучшает итоговую производительность.
- Показательно, что популярная задача "башня Ханоя" решается успешно благодаря частоте встречаемости в датасетах, тогда как классические головоломки типа "волк-коза-капуста" приводят к провалу.
Верим ли мы Apple или личный опыт говорит об обратном?
В след за Антропик яблочники показали свое исследование внутренностей моделей, на примере рассуждений.
Оно выявило ключевые проблемы современных языковых моделей с цепочками рассуждений (Chain-of-Thought).
Тестировались следующие задачи:
- Башня Ханоя (более 100 шагов)
- Логическая задача с волком, козой и капустой
- Комбинаторные головоломки
Основные выводы:
- Модели не осуществляют реальных рассуждений, а полагаются на память.
- Чем сложнее задача, тем менее вероятно правильное решение.
- Дополнительные шаги размышлений ухудшают результат. Часто простое решение заменяется ошибочным.
- Увеличение вычислительных ресурсов и числа токенов не улучшает итоговую производительность.
- Показательно, что популярная задача "башня Ханоя" решается успешно благодаря частоте встречаемости в датасетах, тогда как классические головоломки типа "волк-коза-капуста" приводят к провалу.
Верим ли мы Apple или личный опыт говорит об обратном?