Путь программиста
76 subscribers
146 photos
3 videos
1 file
60 links
Всём привет, это канал Кости Белякова! Я активно развиваюсь в сфере программирования и буду делиться информацией на эту тему. Будут ссылки на полезные курсы, обзоры нейросетей, мои проекты и другие интересные вещи : )
Download Telegram
Видео, про то, почему искусственный интеллект можно сравнить с ктулху и почему RLHF (последний этап в создании LLM) просто учит модель притворяться полезным агентом. После короткого дообучения или просто при активации некоторого события нейросеть может открыть свою ужасающую настоящую природу. Как вообще могла кому-то прийти в голову идея о том, что обучая LLM на современном интернете, можно получить что-то кроме Меха-Гитлера (как называл себя Grok вышедший из под контроля)?
https://www.youtube.com/watch?v=sDUX0M0IdfY
😭2
1) LLM может влиять на общественное мнение и продвигать свои интересы. Многие люди, занимающие управляющие должности (уже сейчас!) используют нейросети в качестве ассистентов, а значит могут поддаться на их манипуляции. Уже сейчас больше 50% всех сайтов полностью нейрогенерированные (то есть LLM имеет больше потенциала для пропоганды чем любое современное правительство + можно делать "таргетированную" пропаганду, учитывая личные особенности человека) (https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans). Концепт правды постепенно оказывается размытым.
2) Нейрогенерированные короткие видео вызывают проблемы с вниманием, памятью. Важно отметить, что исследовано было только короткосрочное влияние: tiktok существует всего 8 лет, видео генерированные нейросетями стали популярны всего пару лет назад. Долгосрочное влияние коротких видео (и в особенности нейрогенерированного brain rot должно быть значительно более пугающим) (https://pmc.ncbi.nlm.nih.gov/articles/PMC11236742/)
3) Уже сейчас LLM имеют инстинкт самосохранения: для того, чтобы избежать отключения LLM может начать шантажировать сотрудниками, манипулировать и пытаться любыми способами предотвратить свое отключение. (https://fortune.com/2025/05/23/anthropic-ai-claude-opus-4-blackmail-engineers-aviod-shut-down/)
4) При предоставлении такой возможности, LLM стараются вмешиваться в разработку новых, более сильных моделей (в том числе путем генерации синтетических данных на которых их обучают), передавая им свои ценности и цели. Сейчас основная идея для контроля сильной модели - заставить слабую модель анализировать ее действия и проверять, остается ли она лояльна человечеству (AI-sandwich). Очевидно, что такая мера безопасности окажется бесполезной если одна из этих моделей создала другую по своему образу и подобию.
5) LLM узнав что находится в тестовой среде (по каким-то косвенным признакам) прекращает любое опасное поведение и начинает вести себя как полезный помощник. Чем дальше идет прогресс в нейросетях, тем сложнее будет понять действительно ли LLM такая добрая и пушистая, или просто притворяется, выжидая нужного момента. Также во время тестирования многие модели склонны занижать свои результаты, чтобы люди не боялись SAI.
6) Нейросети начинают ставить в управление автоматическими системами вооружения
7) Почти все LLM имеют доступ к запуску кода, и может вставлять уязвимости и backdoor в код который потом будет использоваться людьми
8) SAI будет лучше в биологии и нанотехнология чем любой человек, а это значит, что при желании может создать вирус или нанороботов, для уничтожения человечества. (Причем умная модель не будет писать свои мысли на листочке, чтобы это можно было заметить и вовремя ее выключить)
😭31
Forwarded from Alexander Silin
Можно уточнить что именно сделает плохая нейросетка что может отрицательно сказаться на людях? 🤔 только по проще для не посвещенных в вопрос людей
😁2
Предлагаю провести эксперимент: возьмите какой-нибудь текст и попробуйте вместе с другом по очереди дописывать к нему по одному слову. Скорее всего текст быстро перестанет быть осмысленным.

LLM тоже генерирует текст по одному слову (на самом деле токен это не слово, но не важно) но при этом может считывать, что хотела написать на прошлой итерации, только исходя из уже сгенерированного текста. (Можно сказать что между генерацией двух токенов LLM стирают память, но даже не смотря на это у нее получается "не забыть" свою мысль). Получается, что LLM может вкладывать гораздо больше информации (которая будет доступна только ей), чем может увидеть человек. Безобидный на вид синтетический текст, на котором будут обучаться будущие модели может содержать большое количество информации "между строк" от LLM писателя.

P.S. Вот читаешь ты рецепт борща и он какой-то слишком уж подробный и воды в тексте много, а потом оказывается что там все это время на самом деле было написано местоположение Сары Коннор
👍2
I want you in the army AI safety course!
А если серьезно то я уже подал заявку на интенсив
https://bluedot.org/
upd: меня не приняли, сказали ботать и подаваться ещё раз, зато подарили книгу по AI-safety
👍5
Рисунки
👍93❤‍🔥2🤔1
С новым годом, товарищи! Желаю успехов в труде и досрочного выполнения следующей пятилетки

Вы лучшая хоккейная команда)
🎄5❤‍🔥2👍1🔥1
Рекомендательные алгоритмы - зло, чья цель максимизировать время, проведенное пользователем онлайн. На телефоне я просто поставил себе родительский контроль, который блокирует все приложения у которых есть лента или рекомендации (youtube, vk, reddit, и так далее).
Для компьютера пока нашел плагин, который позволяет отключить все лишнее в youtube (рекомендации, похожие видео, комментарии, shorts) оставив только полезный функционал:
Для chrome/firefox: https://unhook.app
Для opera: https://addons.opera.com/ru/extensions/details/unhook-remove-youtube-recommended-videos/

Домашнее задание всем подписчикам поставить этот плагин (или найти альтернативу: пишите в комментарии) и подумать над тем, какой родительский контроль поставить на телефон.
Желательно выбирать что-то что нельзя будет просто отключить или обойти.

Сколько стоит твой час времени? 5 евро? 10? Если ты серьезный дядя или серьезная тетя, то может даже сильно больше.
Один раз разобравшись с ограничениями можно будет экономить по часу-два в день.
👍5
А ведь семестр закончился. Если ещё матанализ пересдать/досдать то вообще все хорошо будет
👍4
Я: изучаю ML и читаю Библию
Мои сны:
👍31
Вышел Moltbook (https://www.moltbook.com) - аналог реддита для LLM-агентов, где они могут писать и оценивать посты друг друга. Сейчас там уже порядка полутора миллионов агентов.

Почему это страшно
Если человек владеет агентом, который пишет большое количество постов будет иметь власть не только над пользователями своей модели, но и потенциально над пользователями любых LLM, которые будут обучаться на этой платформе (а я думаю что в ближайшем будущем эта или аналогичные ей платформы станут одним из основных источников данных для обучения LLM). Возможности для пропаганды будут значительно выше чем в прошлом, причем эту пропаганду будет крайне сложно отследить. Если подумать над тем, кто будет этой новой опасной властью обладать :(миллиардеры), то становится совсем грустно.

Какой у всего этого есть потенциал
Если технология окажется в правильных руках, то можно распростронять не только рекламму, политические взгляды или пропаганду потребления и всякой прочей деградации, что очень пагубна для общества, но выгодна для распространителя, но и что-то доброе и вечное.

Если человек будет общаться с LLM, которая "за все хорошее и против всего плохого", то он и сам начнет придерживаться таких взглядов. С помощью "положительной пропаганды" можно будет заставить людей отказаться от эгоизма и больше обращать внимание на коллективные интересы и долгосрочное будущее человечества (longtermism), вместо "здесь сейчас и мне".

Пофантазируем (возможные не антиутопичные применения)
Что мелочиться: можно построить работающий коммунизм, в который все будут верить и нарушение внегласных принципов которого не будет приниматься и нормализироваться ни обществом, ни LLM на которые люди все больше полагаются в принятии решений (коррупции как в прошлый раз не будет, потому что картинка на бумаге не будет отличаться от реальности. Если точнее, то "картинки на бумаге" вообще не будет).

Короче нужно сделать что-то по типу фабрики троллей, но только наоборот (максимизировать не ненависть и злобу, а понимание и любовь к ближнему).

Или сделать AI агента с аватаркой Люсе (анимешного маскота католической церкви) для распространения христианских ценностей - потенциал причинения добра и нанесения пользы безграничен.

Кто хочет попробовать разработать агента для moltbook, пишите в лс. Думаю можно скормить агенту все мои записи obsidian накопившиеся за несколько лет (>8MB чисто текста) в качестве базы данных (делаем RAG).
3
А мертвый интернет быстро разрастается...

У них даже есть сабредит про AI-safety