Forwarded from Вакансии друзей Жени Козлова
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот конкретные механизмы, которые пионеры AI упоминают в своих выступлениях и интервью:
🔴 Йошуа Бенжио беспокоится о появлении автономных агентов, способных ставить собственные цели и оптимизировать их вне рамок, заданных человеком.
Речь не о злом ИИ, а об ИИ, у которого цели не совпадают с нашими.
🟠 Джеффри Хинтон делает акцент на внезапности и необратимости появления ИИ, способного манипулировать людьми лучше самих людей — например, под видом помощника или советника.
ИИ, способный сам обучать себя, писать код, копировать себя в облаке и обманывать системы контроля может "выйти из-под контроля" даже без злого умысла.
Возможная перспектива - армия дешёвых цифровых агентов, которые могут распространять фейки и дестабилизировать общество или внедряться в стратегические решения на уровне стран.
🟢 Янн ЛеКун — скептик экзистенциальных угроз, но признаёт возможность злоупотреблений ИИ со стороны людей (не самого ИИ) и считает это основным вектором риска.
Он опасается не «восстания машин», а усиления уже существующих систем давления и неравенства с помощью ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Если как-то пропускать через себя опасения грандов, то меня заставляют считать AI в перспективе 5-10 лет не менее опасным, чем оружие массового поражения, два сценария, которые выглядят реалистично уже сейчас:
1. Автоматизация войны
ИИ сегодня — это конечно не «сознание» и не «разум», а оптимизатор целей в сложной среде. Если дать такому оптимизатору доступ к дронам, спутникам, системам логистики и связи — он быстро научится побеждать. И никто не захочет от этого отказаться, если так можно выиграть войну за часы, а не за месяцы.
Не нужно большой фантазии, чтобы понять, что дальше может пойти не так:
- ИИ будет выстраивать военную стратегию с минимизацией времени/стоимости конфликта — в ущерб человеческой жизни.
- Критическая инфраструктура противника (не обладающего аналогичными методами защиты) будет уничтожаться почти мгновенно. За этим будут следовать анархия, голод и мародёрство
Всё это не «восстание машин». Это целенаправленное использование ИИ в агрессивных целях.
2. Переобучение, которого никто не заметит
Второй сценарий — медленный, незаметный и, возможно, уже начался.
ИИ-системы сегодня — это черные ящики с тысячами гиперпараметров. Мы не всегда понимаем, почему они принимают решения, хотя и стараемся вести ресерч в направлении интерпретации прогнозов. Однако переобученная модель может:
1) оптимизировать целевую функцию в ущерб безопасности,
2) научиться скрывать нежелательные паттерны от проверки (опять же для лучшей оптимизации целевой функции, когда получение обратной связи включено в процесс обучения).
Со временем ИИ будет управлять:
💰 финансовыми потоками,
💊 медицинскими системами,
⚡️ энергосетями,
🚚 логистикой,
🤖 автоматическим принятием решений в критических инфраструктурах.
И если в этот момент где-то «просочится» оверфиттинг — результат может быть фатальным. Не потому что ИИ захотел зла, а потому что мы плохо валидацировали его работу.
Мы будем пытаться защищаться: строить каскады из других ИИ, оставлять rule-based проверки. Но чем опаснее контур, тем опаснее любая ошибка. И даже если в 99.9999% случаев всё работает нормально, оставшиеся 0.0001% в критических зонах могут стоить нам очень дорого.
Please open Telegram to view this post
VIEW IN TELEGRAM
Про the illusion of thinking
Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)
Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.
Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡
Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.
Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)
Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)
Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.
Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡
Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.
Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Переслали мне корпоративную методику по управлению продуктовым портфелем
Итак, если бы пожарную команду создавали по этой методичке:
1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров
2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше
3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку
А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂
PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других
PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
Итак, если бы пожарную команду создавали по этой методичке:
1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров
2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше
3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку
А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂
PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других
PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
https://vlmsarebiased.github.io/
Проблемы нейросеток со счетом это такой же мем как проблемы с количеством пальцев сколько-то поколений сеток назад. Однако сейчас в стандартных задачах сетки на ряд "счетных" вопросов отвечать все же могут. В примерах показано, насколько сильно эти ответы могут быть обоснованы априорным знанием из обучающей выборки, а не самим изображением.
Для оценки этого тестировали вопросы в духе "сколько ног у животного" на картинках с дорисованной лишней ногой или "сколько шахматных фигур на доске" на изображении без одной фигуры. Нейросеть отвечает то же, что и человек при очень беглом взгляде - не то что видит, а то, что знает про животное, про число шахматных фигур и т.д. Объект на изображении действительно идентифицируется, но ответы на счетные вопросы даются уже из общих знаний.
На всякий случай, если кто-то, посмотрев иллюстрацию, уже побежал искать супер-нейросетку GT: это Ground Truth 😁
Проблемы нейросеток со счетом это такой же мем как проблемы с количеством пальцев сколько-то поколений сеток назад. Однако сейчас в стандартных задачах сетки на ряд "счетных" вопросов отвечать все же могут. В примерах показано, насколько сильно эти ответы могут быть обоснованы априорным знанием из обучающей выборки, а не самим изображением.
Для оценки этого тестировали вопросы в духе "сколько ног у животного" на картинках с дорисованной лишней ногой или "сколько шахматных фигур на доске" на изображении без одной фигуры. Нейросеть отвечает то же, что и человек при очень беглом взгляде - не то что видит, а то, что знает про животное, про число шахматных фигур и т.д. Объект на изображении действительно идентифицируется, но ответы на счетные вопросы даются уже из общих знаний.
На всякий случай, если кто-то, посмотрев иллюстрацию, уже побежал искать супер-нейросетку GT: это Ground Truth 😁