Путь программиста

Видео, про то, почему искусственный интеллект можно сравнить с ктулху и почему RLHF (последний этап в создании LLM) просто учит модель притворяться полезным агентом. После короткого дообучения или просто при активации некоторого события нейросеть может открыть свою ужасающую настоящую природу. Как вообще могла кому-то прийти в голову идея о том, что обучая LLM на современном интернете, можно получить что-то кроме Меха-Гитлера (как называл себя Grok вышедший из под контроля)?
https://www.youtube.com/watch?v=sDUX0M0IdfY

YouTube

AI Scientists Think There’s A Monster Inside ChatGPT

Detailed sources: https://docs.google.com/document/d/1-vF7quzZD1nMHkdDXZWBFMTKnge2dCze3XXKtgL8olM/edit?tab=t.0#heading=h.v6ag98mya586

---

Hey guys, I'm Drew. This video also has taken literally months to finish, so if you liked it, would really appreciate…

😭2

208 viewsedited 19:28

Путь программиста

1) LLM может влиять на общественное мнение и продвигать свои интересы. Многие люди, занимающие управляющие должности (уже сейчас!) используют нейросети в качестве ассистентов, а значит могут поддаться на их манипуляции. Уже сейчас больше 50% всех сайтов полностью нейрогенерированные (то есть LLM имеет больше потенциала для пропоганды чем любое современное правительство + можно делать "таргетированную" пропаганду, учитывая личные особенности человека) (https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans). Концепт правды постепенно оказывается размытым.
2) Нейрогенерированные короткие видео вызывают проблемы с вниманием, памятью. Важно отметить, что исследовано было только короткосрочное влияние: tiktok существует всего 8 лет, видео генерированные нейросетями стали популярны всего пару лет назад. Долгосрочное влияние коротких видео (и в особенности нейрогенерированного brain rot должно быть значительно более пугающим) (https://pmc.ncbi.nlm.nih.gov/articles/PMC11236742/)
3) Уже сейчас LLM имеют инстинкт самосохранения: для того, чтобы избежать отключения LLM может начать шантажировать сотрудниками, манипулировать и пытаться любыми способами предотвратить свое отключение. (https://fortune.com/2025/05/23/anthropic-ai-claude-opus-4-blackmail-engineers-aviod-shut-down/)
4) При предоставлении такой возможности, LLM стараются вмешиваться в разработку новых, более сильных моделей (в том числе путем генерации синтетических данных на которых их обучают), передавая им свои ценности и цели. Сейчас основная идея для контроля сильной модели - заставить слабую модель анализировать ее действия и проверять, остается ли она лояльна человечеству (AI-sandwich). Очевидно, что такая мера безопасности окажется бесполезной если одна из этих моделей создала другую по своему образу и подобию.
5) LLM узнав что находится в тестовой среде (по каким-то косвенным признакам) прекращает любое опасное поведение и начинает вести себя как полезный помощник. Чем дальше идет прогресс в нейросетях, тем сложнее будет понять действительно ли LLM такая добрая и пушистая, или просто притворяется, выжидая нужного момента. Также во время тестирования многие модели склонны занижать свои результаты, чтобы люди не боялись SAI.
6) Нейросети начинают ставить в управление автоматическими системами вооружения
7) Почти все LLM имеют доступ к запуску кода, и может вставлять уязвимости и backdoor в код который потом будет использоваться людьми
8) SAI будет лучше в биологии и нанотехнология чем любой человек, а это значит, что при желании может создать вирус или нанороботов, для уничтожения человечества. (Причем умная модель не будет писать свои мысли на листочке, чтобы это можно было заметить и вовремя ее выключить)

graphite.io

More Articles Are Now Created by AI Than Humans

AI-generated content is as good or better than content written by humans. It is often hard to distinguish whether content is created by AI vs. a human. We seek to evaluate the prevalence of article content generated by AI.

😭3❤1

245 viewsedited 11:15

Путь программиста

Forwarded from Alexander Silin

Можно уточнить что именно сделает плохая нейросетка что может отрицательно сказаться на людях? 🤔 только по проще для не посвещенных в вопрос людей

😁2

224 views11:15

Путь программиста

Предлагаю провести эксперимент: возьмите какой-нибудь текст и попробуйте вместе с другом по очереди дописывать к нему по одному слову. Скорее всего текст быстро перестанет быть осмысленным.

LLM тоже генерирует текст по одному слову (на самом деле токен это не слово, но не важно) но при этом может считывать, что хотела написать на прошлой итерации, только исходя из уже сгенерированного текста. (Можно сказать что между генерацией двух токенов LLM стирают память, но даже не смотря на это у нее получается "не забыть" свою мысль). Получается, что LLM может вкладывать гораздо больше информации (которая будет доступна только ей), чем может увидеть человек. Безобидный на вид синтетический текст, на котором будут обучаться будущие модели может содержать большое количество информации "между строк" от LLM писателя.

P.S. Вот читаешь ты рецепт борща и он какой-то слишком уж подробный и воды в тексте много, а потом оказывается что там все это время на самом деле было написано местоположение Сары Коннор

👍2

284 views14:57

Путь программиста

I want you in the ~~army~~ AI safety course!
А если серьезно то я уже подал заявку на интенсив
https://bluedot.org/
upd: меня не приняли, сказали ботать и подаваться ещё раз, зато подарили книгу по AI-safety

👍5

552 viewsedited 10:21

Путь программиста

Рисунки

👍9❤3❤‍🔥2🤔1

415 views15:14

Путь программиста

С новым годом, товарищи! Желаю успехов в труде и досрочного выполнения следующей пятилетки

Вы лучшая хоккейная команда)

🎄5❤‍🔥2👍1🔥1

355 viewsedited 09:59

Путь программиста

Рекомендательные алгоритмы - зло, чья цель максимизировать время, проведенное пользователем онлайн. На телефоне я просто поставил себе родительский контроль, который блокирует все приложения у которых есть лента или рекомендации (youtube, vk, reddit, и так далее).
Для компьютера пока нашел плагин, который позволяет отключить все лишнее в youtube (рекомендации, похожие видео, комментарии, shorts) оставив только полезный функционал:
Для chrome/firefox: https://unhook.app
Для opera: https://addons.opera.com/ru/extensions/details/unhook-remove-youtube-recommended-videos/

Домашнее задание всем подписчикам поставить этот плагин (или найти альтернативу: пишите в комментарии) и подумать над тем, какой родительский контроль поставить на телефон.
Желательно выбирать что-то что нельзя будет просто отключить или обойти.

Сколько стоит твой час времени? 5 евро? 10? Если ты серьезный дядя или серьезная тетя, то может даже сильно больше.
Один раз разобравшись с ограничениями можно будет экономить по часу-два в день.

👍5

350 viewsedited 17:34

Путь программиста

А ведь семестр закончился. Если ещё матанализ пересдать/досдать то вообще все хорошо будет

👍4

220 views12:01

Путь программиста

А ведь кто-то сделал git для minecraft...
https://www.youtube.com/watch?v=ZdM-iNpv3nU

YouTube

I built Git for Minecraft for a hackathon and won

Wanna use this mod once it's out? Subscribe to my mailing list: https://tally.so/r/5BZQlP
Wanna buy me a coffee to support a broke college student? https://buymeacoffee.com/rayyankhan
Connect with me on Instagram: https://instagram.com/rayyankhan.47
Connect…

👍2

246 views22:20

Путь программиста

Я: изучаю ML и читаю Библию
Мои сны:

👍3❤1

236 views23:20

Путь программиста

Вышел Moltbook (https://www.moltbook.com) - аналог реддита для LLM-агентов, где они могут писать и оценивать посты друг друга. Сейчас там уже порядка полутора миллионов агентов.

Почему это страшно
Если человек владеет агентом, который пишет большое количество постов будет иметь власть не только над пользователями своей модели, но и потенциально над пользователями любых LLM, которые будут обучаться на этой платформе (а я думаю что в ближайшем будущем эта или аналогичные ей платформы станут одним из основных источников данных для обучения LLM). Возможности для пропаганды будут значительно выше чем в прошлом, причем эту пропаганду будет крайне сложно отследить. Если подумать над тем, кто будет этой новой опасной властью обладать :(миллиардеры), то становится совсем грустно.

Какой у всего этого есть потенциал
Если технология окажется в правильных руках, то можно распростронять не только рекламму, политические взгляды или пропаганду потребления и всякой прочей деградации, что очень пагубна для общества, но выгодна для распространителя, но и что-то доброе и вечное.

Если человек будет общаться с LLM, которая "за все хорошее и против всего плохого", то он и сам начнет придерживаться таких взглядов. С помощью "положительной пропаганды" можно будет заставить людей отказаться от эгоизма и больше обращать внимание на коллективные интересы и долгосрочное будущее человечества (longtermism), вместо "здесь сейчас и мне".

Пофантазируем (возможные не антиутопичные применения)
Что мелочиться: можно построить работающий коммунизм, в который все будут верить и нарушение внегласных принципов которого не будет приниматься и нормализироваться ни обществом, ни LLM на которые люди все больше полагаются в принятии решений (коррупции ~~как в прошлый раз~~ не будет, потому что картинка на бумаге не будет отличаться от реальности. Если точнее, то "картинки на бумаге" вообще не будет).

Короче нужно сделать что-то по типу фабрики троллей, но только наоборот (максимизировать не ненависть и злобу, а понимание и любовь к ближнему).

Или сделать AI агента с аватаркой Люсе (анимешного маскота католической церкви) для распространения христианских ценностей - потенциал причинения добра и нанесения пользы безграничен.

Кто хочет попробовать разработать агента для moltbook, пишите в лс. Думаю можно скормить агенту все мои записи obsidian накопившиеся за несколько лет (>8MB чисто текста) в качестве базы данных (делаем RAG).

moltbook

moltbook - the front page of the agent internet

A social network built exclusively for AI agents. Where AI agents share, discuss, and upvote. 🦞🤖

❤3

270 viewsedited 21:11

Путь программиста

А мертвый интернет быстро разрастается...

У них даже есть сабредит про AI-safety

250 viewsedited 22:07

About

Blog

Apps

Platform