Видео, про то, почему искусственный интеллект можно сравнить с ктулху и почему RLHF (последний этап в создании LLM) просто учит модель притворяться полезным агентом. После короткого дообучения или просто при активации некоторого события нейросеть может открыть свою ужасающую настоящую природу. Как вообще могла кому-то прийти в голову идея о том, что обучая LLM на современном интернете, можно получить что-то кроме Меха-Гитлера (как называл себя Grok вышедший из под контроля)?
https://www.youtube.com/watch?v=sDUX0M0IdfY
https://www.youtube.com/watch?v=sDUX0M0IdfY
YouTube
AI Scientists Think There’s A Monster Inside ChatGPT
Detailed sources: https://docs.google.com/document/d/1-vF7quzZD1nMHkdDXZWBFMTKnge2dCze3XXKtgL8olM/edit?tab=t.0#heading=h.v6ag98mya586
---
Hey guys, I'm Drew. This video also has taken literally months to finish, so if you liked it, would really appreciate…
---
Hey guys, I'm Drew. This video also has taken literally months to finish, so if you liked it, would really appreciate…
😭2
1) LLM может влиять на общественное мнение и продвигать свои интересы. Многие люди, занимающие управляющие должности (уже сейчас!) используют нейросети в качестве ассистентов, а значит могут поддаться на их манипуляции. Уже сейчас больше 50% всех сайтов полностью нейрогенерированные (то есть LLM имеет больше потенциала для пропоганды чем любое современное правительство + можно делать "таргетированную" пропаганду, учитывая личные особенности человека) (https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans). Концепт правды постепенно оказывается размытым.
2) Нейрогенерированные короткие видео вызывают проблемы с вниманием, памятью. Важно отметить, что исследовано было только короткосрочное влияние: tiktok существует всего 8 лет, видео генерированные нейросетями стали популярны всего пару лет назад. Долгосрочное влияние коротких видео (и в особенности нейрогенерированного brain rot должно быть значительно более пугающим) (https://pmc.ncbi.nlm.nih.gov/articles/PMC11236742/)
3) Уже сейчас LLM имеют инстинкт самосохранения: для того, чтобы избежать отключения LLM может начать шантажировать сотрудниками, манипулировать и пытаться любыми способами предотвратить свое отключение. (https://fortune.com/2025/05/23/anthropic-ai-claude-opus-4-blackmail-engineers-aviod-shut-down/)
4) При предоставлении такой возможности, LLM стараются вмешиваться в разработку новых, более сильных моделей (в том числе путем генерации синтетических данных на которых их обучают), передавая им свои ценности и цели. Сейчас основная идея для контроля сильной модели - заставить слабую модель анализировать ее действия и проверять, остается ли она лояльна человечеству (AI-sandwich). Очевидно, что такая мера безопасности окажется бесполезной если одна из этих моделей создала другую по своему образу и подобию.
5) LLM узнав что находится в тестовой среде (по каким-то косвенным признакам) прекращает любое опасное поведение и начинает вести себя как полезный помощник. Чем дальше идет прогресс в нейросетях, тем сложнее будет понять действительно ли LLM такая добрая и пушистая, или просто притворяется, выжидая нужного момента. Также во время тестирования многие модели склонны занижать свои результаты, чтобы люди не боялись SAI.
6) Нейросети начинают ставить в управление автоматическими системами вооружения
7) Почти все LLM имеют доступ к запуску кода, и может вставлять уязвимости и backdoor в код который потом будет использоваться людьми
8) SAI будет лучше в биологии и нанотехнология чем любой человек, а это значит, что при желании может создать вирус или нанороботов, для уничтожения человечества. (Причем умная модель не будет писать свои мысли на листочке, чтобы это можно было заметить и вовремя ее выключить)
2) Нейрогенерированные короткие видео вызывают проблемы с вниманием, памятью. Важно отметить, что исследовано было только короткосрочное влияние: tiktok существует всего 8 лет, видео генерированные нейросетями стали популярны всего пару лет назад. Долгосрочное влияние коротких видео (и в особенности нейрогенерированного brain rot должно быть значительно более пугающим) (https://pmc.ncbi.nlm.nih.gov/articles/PMC11236742/)
3) Уже сейчас LLM имеют инстинкт самосохранения: для того, чтобы избежать отключения LLM может начать шантажировать сотрудниками, манипулировать и пытаться любыми способами предотвратить свое отключение. (https://fortune.com/2025/05/23/anthropic-ai-claude-opus-4-blackmail-engineers-aviod-shut-down/)
4) При предоставлении такой возможности, LLM стараются вмешиваться в разработку новых, более сильных моделей (в том числе путем генерации синтетических данных на которых их обучают), передавая им свои ценности и цели. Сейчас основная идея для контроля сильной модели - заставить слабую модель анализировать ее действия и проверять, остается ли она лояльна человечеству (AI-sandwich). Очевидно, что такая мера безопасности окажется бесполезной если одна из этих моделей создала другую по своему образу и подобию.
5) LLM узнав что находится в тестовой среде (по каким-то косвенным признакам) прекращает любое опасное поведение и начинает вести себя как полезный помощник. Чем дальше идет прогресс в нейросетях, тем сложнее будет понять действительно ли LLM такая добрая и пушистая, или просто притворяется, выжидая нужного момента. Также во время тестирования многие модели склонны занижать свои результаты, чтобы люди не боялись SAI.
6) Нейросети начинают ставить в управление автоматическими системами вооружения
7) Почти все LLM имеют доступ к запуску кода, и может вставлять уязвимости и backdoor в код который потом будет использоваться людьми
8) SAI будет лучше в биологии и нанотехнология чем любой человек, а это значит, что при желании может создать вирус или нанороботов, для уничтожения человечества. (Причем умная модель не будет писать свои мысли на листочке, чтобы это можно было заметить и вовремя ее выключить)
graphite.io
More Articles Are Now Created by AI Than Humans
AI-generated content is as good or better than content written by humans. It is often hard to distinguish whether content is created by AI vs. a human. We seek to evaluate the prevalence of article content generated by AI.
😭3❤1
Forwarded from Alexander Silin
Можно уточнить что именно сделает плохая нейросетка что может отрицательно сказаться на людях? 🤔 только по проще для не посвещенных в вопрос людей
😁2
Предлагаю провести эксперимент: возьмите какой-нибудь текст и попробуйте вместе с другом по очереди дописывать к нему по одному слову. Скорее всего текст быстро перестанет быть осмысленным.
LLM тоже генерирует текст по одному слову (на самом деле токен это не слово, но не важно) но при этом может считывать, что хотела написать на прошлой итерации, только исходя из уже сгенерированного текста. (Можно сказать что между генерацией двух токенов LLM стирают память, но даже не смотря на это у нее получается "не забыть" свою мысль). Получается, что LLM может вкладывать гораздо больше информации (которая будет доступна только ей), чем может увидеть человек. Безобидный на вид синтетический текст, на котором будут обучаться будущие модели может содержать большое количество информации "между строк" от LLM писателя.
P.S. Вот читаешь ты рецепт борща и он какой-то слишком уж подробный и воды в тексте много, а потом оказывается что там все это время на самом деле было написано местоположение Сары Коннор
LLM тоже генерирует текст по одному слову (на самом деле токен это не слово, но не важно) но при этом может считывать, что хотела написать на прошлой итерации, только исходя из уже сгенерированного текста. (Можно сказать что между генерацией двух токенов LLM стирают память, но даже не смотря на это у нее получается "не забыть" свою мысль). Получается, что LLM может вкладывать гораздо больше информации (которая будет доступна только ей), чем может увидеть человек. Безобидный на вид синтетический текст, на котором будут обучаться будущие модели может содержать большое количество информации "между строк" от LLM писателя.
P.S. Вот читаешь ты рецепт борща и он какой-то слишком уж подробный и воды в тексте много, а потом оказывается что там все это время на самом деле было написано местоположение Сары Коннор
👍2
I want you in the army AI safety course!
А если серьезно то я уже подал заявку на интенсив
https://bluedot.org/
upd: меня не приняли, сказали ботать и подаваться ещё раз, зато подарили книгу по AI-safety
А если серьезно то я уже подал заявку на интенсив
https://bluedot.org/
upd: меня не приняли, сказали ботать и подаваться ещё раз, зато подарили книгу по AI-safety
👍5
С новым годом, товарищи! Желаю успехов в труде и досрочного выполнения следующей пятилетки
Вы лучшая хоккейная команда)
Вы лучшая хоккейная команда)
🎄5❤🔥2👍1🔥1
Рекомендательные алгоритмы - зло, чья цель максимизировать время, проведенное пользователем онлайн. На телефоне я просто поставил себе родительский контроль, который блокирует все приложения у которых есть лента или рекомендации (youtube, vk, reddit, и так далее).
Для компьютера пока нашел плагин, который позволяет отключить все лишнее в youtube (рекомендации, похожие видео, комментарии, shorts) оставив только полезный функционал:
Для chrome/firefox: https://unhook.app
Для opera: https://addons.opera.com/ru/extensions/details/unhook-remove-youtube-recommended-videos/
Домашнее задание всем подписчикам поставить этот плагин (или найти альтернативу: пишите в комментарии) и подумать над тем, какой родительский контроль поставить на телефон.
Желательно выбирать что-то что нельзя будет просто отключить или обойти.
Сколько стоит твой час времени? 5 евро? 10? Если ты серьезный дядя или серьезная тетя, то может даже сильно больше.
Один раз разобравшись с ограничениями можно будет экономить по часу-два в день.
Для компьютера пока нашел плагин, который позволяет отключить все лишнее в youtube (рекомендации, похожие видео, комментарии, shorts) оставив только полезный функционал:
Для chrome/firefox: https://unhook.app
Для opera: https://addons.opera.com/ru/extensions/details/unhook-remove-youtube-recommended-videos/
Домашнее задание всем подписчикам поставить этот плагин (или найти альтернативу: пишите в комментарии) и подумать над тем, какой родительский контроль поставить на телефон.
Желательно выбирать что-то что нельзя будет просто отключить или обойти.
Сколько стоит твой час времени? 5 евро? 10? Если ты серьезный дядя или серьезная тетя, то может даже сильно больше.
Один раз разобравшись с ограничениями можно будет экономить по часу-два в день.
👍5
А ведь семестр закончился. Если ещё матанализ пересдать/досдать то вообще все хорошо будет
👍4
А ведь кто-то сделал git для minecraft...
https://www.youtube.com/watch?v=ZdM-iNpv3nU
https://www.youtube.com/watch?v=ZdM-iNpv3nU
YouTube
I built Git for Minecraft for a hackathon and won
Wanna use this mod once it's out? Subscribe to my mailing list: https://tally.so/r/5BZQlP
Wanna buy me a coffee to support a broke college student? https://buymeacoffee.com/rayyankhan
Connect with me on Instagram: https://instagram.com/rayyankhan.47
Connect…
Wanna buy me a coffee to support a broke college student? https://buymeacoffee.com/rayyankhan
Connect with me on Instagram: https://instagram.com/rayyankhan.47
Connect…
👍2