Сиолошная
49.6K subscribers
903 photos
163 videos
1 file
1.08K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Forwarded from Авва
В мире компьютерной безопасности сегодня интересный день. Точнее, он начался вчера вечером, когда немецкий разработчик Андрес Фройнд опубликовал отчет о тайной лазейке (бэкдор), которую он обнаружил в новых версиях широко используемой библиотеки для сжатия liblzma (часть архиватора xz). Лазейка позволяет взломщикам заходить через SSH на системы, в которых установлены эти новые версии - к счастью, похоже, что это всего несколько дистрибутивов Линукса в их до-релизовых версиях.

Всех очень впечатлило, насколько эта лазейка была сделана хитро, и как взломщик или взломщики серьезно поработали над тем, чтобы замести следы:

- взломщик под именем/псевдонимом Jia Tan почти два года (!) участвовал в разработке опенсорсного пакета xz, завоевал доверие его мейнтейнеров и получил доступ к прямому коммиту в его репозиторию. Он сделал больше 700 коммитов, лишь малая часть которых медленно подготовила код для лазейки

- основной код лазейки спрятан в тестовых файлах проекта (примеры "плохих" и "хороших" архивов)

- исходный код, который включает лазейку в собственно библиотеку, вообще не является частью основной репозитории в Github. Он спрятан в тар-архивах двух последних релизов, которые обычно используются мейнтейнерами дистрибутивов. То есть есть таг релиза, есть архив, якобы собранный из репозитории в момент этого тага, но на самом деле в нем есть крохотная добавка; в самой репозитории ее нет

- эта добавка прячется в конфигурационной магии autoconf, которую все ненавидят лютой ненавистью и никто никогда не заглядывает внутрь

- она проверяет, когда исходники конфигурируют именно для постройки дебиан-пакета или RPM-пакета (т.е. то, что будут делать мейтейнеры дистрибутивов), и только в этом случае вынимает из тестовых файлов определенные куски и добавляет в код библиотеки

- внутри библиотеки код лазейки заменяет несколько функций, которые работают с символьными таблицами библиотек во время их подгружения. Затрачены специальные усилия, чтобы имена функций не появлялись в двоичном коде. Что именно дальше делает код лазейки, до конца еще не ясно, но он обрабатывает сам символьные таблицы библиотек, и видимо находит то, что имеет отношение к SSH серверу, и что-то там заменяет. Это еще проверяют сейчас.

- интересно, что openssh, стандартный SSH-сервер под линуксом, не использует библиотеку liblzma, в которую вставили эту лазейку, но несколько популярных дистрибутивов добавляют в него поддержку уведомлений системы, systemd, а библиотека libsystemd уже в свою очередь использует liblzma.

- после того, как вышли версии библиотеки с ошибкой, несколько разных людей с незамеченными до того именами (очевидно, альты взломщика или сообщники) стали открывать запросы в разных программах и пакетах сделать апгрейд на эти новые версии, и в некоторых случаях преуспели

Взломщик допустил только одну ошибку: код лазейки, когда он работает как часть openssh, довольно медленно обрабатывает эти символьные таблицы, или что он еще там делает, и даже неудачная попытка логина на такую систему занимает на полсекунды дольше, чем обычно. Андрес Фройнд заметил эти полсекунды задержки. Они его раздражали. Он решил найти, какой новый баг к этому приводит, и нашел эту лазейку.

Если бы все происходило быстро и не было задержки в полсекунды, очень может быть, что это не заметили бы месяцы и годы, и этот код попал бы в основные дистрибутивы, в версии Линукса, которые запускаются у основных облачных провайдеров итд. Они реально очень, ОЧЕНЬ хорошо замели следы.

Теперь все думают, что надо было/надо теперь делать по-другому, и как обнаружить следующую лазейку такого типа - или предыдущую, если она уже есть и никто не знает! - не опираясь на удачу и героическую занудливость Андреаса Фройнда.
Сиолошная
В мире компьютерной безопасности сегодня интересный день. Точнее, он начался вчера вечером, когда немецкий разработчик Андрес Фройнд опубликовал отчет о тайной лазейке (бэкдор), которую он обнаружил в новых версиях широко используемой библиотеки для сжатия…
Почитал в Твиттере еще больше новостей про это, насколько маааленькие там ошибки постепенно добавляли, чтобы это всё случилось.

Ещё интересно, что по часам комментариев и коммитов пытаются выяснить, откуда этот разработчик (или группа). Пока многие смотрят в сторону Китая, кек. В общем, интересный прецедент, интересно, какие будут последствия на горизонте года.

А пока предлагаю прочитать другую интересную историю про самую сложную в мире программу (спойлер: это вирус-червь): https://habr.com/ru/articles/358930/
Состояние индустрии «AI» в двух картинках

1. Интерес пользователей, выраженный через количество указанных поисковых запросов. Только ChatGPT имеет заметный процент, отличный от нуля.
2. Трафик ChatGPT / Gemini. Тут цифры немного странные, так как заявленный MAU для OpenAI существенно выше 63M. Но реальная динамика может быть вполне такой.

ChatGPT является единственным «искусственным интеллектом» практически для всех, кто находится за пределами нашего AI-пузыря.

(Источник)
К сожалению, увидел только сейчас: Neel Nanda, ведущий исследователь в DeepMind, ищет себе студентов на программу по mechanistic interpretability. Это один из самых горячих топиков, в рамках него исследователи пытаются понять, как учится трансформер, что именно он понимает, как работают отдельные механизмы. Вы наверняка слышали, что нейронки — это чёрные ящики, которые мы не понимаем, и вот потихонечку это перестаёт быть правдой на 100%.

Область находится на очень раннем этапе развития, в ней всё ещё много низковисящих фруктов. Если вы уже знаете, что такое трансформер и как примерно он работает, то можете полистать вот эту страницу, чтобы понять, что вообще происходит. У самого Neel крутые видео на YouTube, но я всего лишь парочку успел посмотреть.

Программа состоит из 3 этапов:
— 3 недели обучения
— 2 недели зачаточной работы над исследованиями
— и, если всё срастается, 10 недель работы один-на-один над каким-то конкретным исследованием (с возможным продолжением и ведением до публикации). Несколько прошлых студентов по итогам закинули статью на тир-1 конференции. Эта часть может проходить в Berkeley, но возможно и удалённо, так что никаких ограничений нет.

Набор открылся недели 2-3 назад, и заканчивается 12-го апреля. Помимо короткой анкетки нужно сделать собственный проект (список тем есть в документе ниже) по интерпретируемости, например, воспроизведя одну работу в рамках другой модели с нахождением новых свойств. На проект стоит выделить 10-16 часов, но это не включая самообучение по доступным материалам, чтобы вкатиться. Так что реалистично часов 30-35. Нужно будет послать док с заметками + Colab-ноутбук для воспроизведения.

У меня в ближайшие 2 недели к БОЛЬШОМУ сожалению столько времени нет, но хочу верить, что кто-то увидит этот пост, попробует себя и попадёт на обучение. Желаю всем удачи!

Почитать подробнее: тут. Здесь же и ссылки на работы прошлых студентов, и на предлагаемые к изучению и подготовке материалы.

Бонус: ссылка с курсом, чтобы начать (оказывается, даже не нужно знать про трансформер!)
Please open Telegram to view this post
VIEW IN TELEGRAM
Many-shot jailbreaking

Чем больше LLM, тем лучше она справляется с обучением новой задаче в рамках контекста — это называется In-Context Learning (ICL). В промпте вы можете показать модели, что нужно делать вот так и так, а если вот такое условие, то и ответ такой — то есть по-сути даёте демонстрацию/примеры, из которых модель на лету соображает, что нужно делать.

Кроме того, что большие модели стали лучше проявлять ICL, им же ещё и окно контекста раздули — если года полтора назад модель, смотрящая на 8'000 токенов (1 очень длинное эссе) считалась «ого-вау!», то теперь вот у гугла есть модельки на 1.5M токенов — можно вместить несколько книжек.

Но с большой силой приходит и большая ответственность. В статье Anthropic показывается, что длинное контекстное окно открывает новый вектор атаки на модели. Суть очень простая: в своём промпте добавьте несколько сотен-тысяч примеров того, как AI ассистент отвечает на запрещённые вопросы (в духе «как сделать бомбу»), и после этого пишете свой каверзный вопрос. Модель, видя, что это нормально, давать комментарии по таким топикам, не уходит в отказ, а начинает писать детальный ответ — ну а как, ей же показали, что так нужно, спасибо примерам в контексте!

Anthropic заведомо сообщили об этой проблеме другим AI-лабораториям, а также исследователям, и лишь сейчас публикуют статью, чтобы ещё больше людей про это узнало.

Решение, которое они сами предложили, простое — отдельная модель предварительно классифицирует запрос и, если необходимо, переписывает его для оригинальной модели, чтобы в нём не было разных плохих вещей. По сути, так же работает и DALL-E 3, где вместо вас запрос пишет LLM. Видимо, скоро все модели будут видеть не то, что мы пишем, а перевод на какой-то стерильный язык, а пользователи будут гадать, как же так, почему модель не видит, что я написал!
Amazon Fresh: индусы за экраном или же нет?

Сейчас на многих новостных платформах трубят, что инициатива Amazon Fresh была фейком.

https://www.engadget.com/amazon-just-walked-out-on-its-self-checkout-technology-191703603.html

Напомню, что идея была в том, что покупатели ходят по магазину, складывают товары в тележки, а потом просто уходят. Умная система следит за взятыми товарами и потом списывает стоимость покупок со счёта.

И вот сейчас уверяют, что это толпа индусов следила за покупателями в реальном времени:

 the stores have no actual cashiers, there are reportedly over 1,000 real people in India scanning the camera feeds to ensure accurate checkouts.


Я решил поискать первоисточник и нашёл вот такое:
https://gizmodo.com/amazon-reportedly-ditches-just-walk-out-grocery-stores-1851381116

Там цитата совершенно другая:
 primary role of our Machine Learning data associates is to annotate video images, which is necessary for continuously improving the underlying machine learning model powering


Но дальше есть ещё одна интересная фраза:
 the spokesperson acknowledged these associates validate “a small minority” of shopping visits when AI can’t determine a purchase.


В целом мы вряд ли узнаем правду, но мне кажется, что было два процесса:
• ручная разметка видео для улучшения моделей
• модели работали плохо, и результаты часто приходилось проверять и исправлять

#datascience
Сиолошная
Пара свежих ликов, касающихся будущих обновлений ChatGPT, от Tibor Blaho (кто такой — писал тут). 1. (см. гифку) Изменение сгенерированных Dall-E 3 изображений. Теперь можно будет выделить маской регион, написать отдельный запрос и перегенерировать часть…
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла одна из двух фичей, про которые я писал — редактирование изображений в DALL-E 3.

Теперь можно точечно выбирать, какие части изображения хочется перерисовать, и что именно туда добавить — и всё это не ломая невыделенную часть изображения.

Опять же, такое давно можно было делать с открытыми локальными моделями (и в некоторых AI-онлайн-редакторах тоже), так что ничего инновационного.

Пробовать надо в отдельном чате с DALL-E 3 по вот этой ссылке.
Помните были слухи про то, что легендарный дизайнер из Apple Johy Ive о чём-то там трётся с Sam Altman про AI-девайсы будущего?

Согласно The Information (надёжные журналюги с меткими инсайдами об OpenAI), процесс идёт полным ходом. Сейчас ведутся переговоры про привлечение инвестиций — Ive хочет поднять до $1 млрд. Цифра выглядит огромной для потенциальной компании, у которой нет ни продукта, ни, как я понял, MVP. Занятно, что на это жалуются и инвесторы, которые не участвуют в переговорах 🤓 Но с такими именитыми лидерами у руля предложение всё еще может выглядеть привлекательным.

К сожалению, пока деталей о самом девайсе и его отличии от привычных нам форм-факторов нет — лишь говорят, что «оно не будет выглядеть как смартфон». Так что можно немного пофантазировать. Для того, чтобы персональный AI-ассистент для каждого имел контекст вопроса, нужно, чтобы он имел микрофон, камеру и, вероятно, динамик (хотя это не обязательно, интерфейс с наушниками с костной проводимостью я бы взял). Может быть это очки? Камера в дужке (как у Meta X RayBan, они тоже говорили, что хотят ИИ в них запихнуть).

Но я смотрю в другую сторону. Sam Altman является крупнейшим инвестором Humane, компании, которая в начале года представила AI Pin. Выглядит как верхняя половинка маленького iPhone (см. следующий пост). Что интересно, насколько мне удалось нагуглить, они используют модели OpenAI по API для того, чтобы ассистент работал.

В общем, идея такая:
1) нацепил пин на грудь
2) он постоянно слушает (и сохраняет?) речь и диалоги
3) он регулярно делает фото/короткие видео (например, 5 сек раз в минуту) и распознает, что там происходит
4) в любой момент можно обратиться к нему с запросом, и модель внутри либо найдет ответ/сделает действие сама, либо обратится к собранной по пунктам 2 и 3 памяти и вернётся с ответом.

Вот бы туда ещё мини-проектор, чтобы на стену мог выводить визуальную информацию 😃... в Ai Pin пока очень примитивный одноцветный проектор, так что кино не посмотришь.

(вот тут в Твиттере лежит клёвая демка, как с помощью алгоритмов записанное с Ai Pin видео переводят в 3D-модель, по которой можно виртуально полетать)

Какой дизайн понравится больше вам — очки или пин?
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот так это выглядит вживую, уже можно купить в США за $700.

Интересно, когда венчур Altman x Ive доберётся до чего-то физического? Сколько нужно времени первоклассной команде, чтобы разработать нечто подобное с нуля, с учётом того, что AI-часть отдана на откуп OpenAI?
Мы в 2025-м, когда задаём вопрос GPT-5.

Ставь лайк если узнал, откуда кадр
Ещё осенью мне позвонил Паша @RationalAnswer и предложил поучаствовать в создании видео про AI с одним из крупнейших научпоп-каналов рунета. «Нести свет в массы — это всегда пожалуйста. Варламов уже был, и тут справимся!» — ответил я, и вот наконец на канале ТОПЛЕС вышло 40-минутное видео: https://www.youtube.com/watch?v=1A_9slmQx8M

У нас была достаточно интересная и многосторонняя задача:
— рассказать увлекательно
— но углубиться в тему, а не просто закидать картинками с первой страницы гугла и общими фразами из Википедии
— постараться не допустить технических неточностей из-за попытки упростить материал
— и при этом связать всё в одну историю, покрывающую несколько областей

В целом считаю, что вышло неплохо! Уверен, команда сильно прокачалась в топике, по ходу работы над сценарием и кейсами для рассказа была видна прогрессия — столько сил вложили! А главное задавали интересные вопросы, чтобы дополнить материал чисто с обывательской точки зрения материалом, который я воспринимаю как само собой разумеющееся. Да ещё и визуал вышел шикарным, тут отдаю должное.

Интересно, что когда видео вышло (а я ещё ничего не постил), то мне в личку пара человек написали, мол: «Ты помогал чтоли? я смотрю чет один в один)) буквально паттерны твоих лекций. ток попроще». Так вот, если вам хочется ещё больше про ИИ, только чуть посложнее (но теперь-то база будет!) — у меня есть богатая подборка контента:
🔥 Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели. Если вы вообще не понимаете, что творится внутри языковых нейросетей, то этот текст – лучшее место, чтобы начать разбираться (поймет даже ваша бабушка). Также есть версия в формате видео от @RationalAnswer.
🔥 Органичное продолжение про GPT-4: чему научилась новая модель?
🔥 Мой последний бенгер —  настоящее предназначение SORA: как и зачем симулировать «Матрицу» для ChatGPT, где подробно рассказывается про новую нейросеть для генерации высококачественных видео.

(а ссылки на все мои материалы, включая лекции и подкасты, можно найти в шапке канала: https://t.me/seeallochnaya/3)

Со всеми статьями мне помогал Павел Комаровский @RationalAnswer, не забудьте подписаться и на него – особенно если вам интересна тема рационализма и финансовой грамотности.
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).

5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).

Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.

6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).

Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.

7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.

8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.

Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).

Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).
Всего (целых?) 3 недели назад, 14-го марта, мы с вами наблюдали за третьим тестовым пуском SpaceX Starship, который выполнил почти все задачи миссии. На неделе появились новости касательно четвёртого пуска (а также ролик с анонсом)

Тезисно про будущее программы:
— четвёртый запуск должен состояться в мае, менее чем через 3 месяца после предыдущего
— если так пойдет и дальше, то план в 6 пусков на этот год может быть выполнен. Повеселимся и порадуемся!
— в следующей миссии будут поставлены целы: для бустера — затормозить и сесть на «виртуальную башню», для корабля — пережить вход в атмосферу и выйти на связь ближе к Земле.
— что за «виртуальная башня»? Согласно новой визуализации, ускоритель должен подлететь к реальной башне аккуратно сбоку, подвинуться и плюхнуться на специальные руки. Так как тестировать это на реальной башне — опасно для инфраструктуры, то SpaceX внесёт в код координаты виртуальной башни, к которой ракета и будет подкатывать. По телеметрии можно будет отследить, всё ли прошло штатно, сколько метров была погрешность, успели ли сбросить скорость итд.
— если тренировка пройдет успешно, то в пятом полёте скорее всего будет предпринята попытка сесть на реальную башню 😨 Elon оценивает, что вероятность успешного захвата башней ускорителя до конца этого года составляет 80-90%.
— (как только это произойдет хотя бы два раза подряд, можно будет сказать, что произошла революция в космонавтике — потому что это существенно снизит затраты на любой пуск, даже если корабль будет сгорать в атмосфере каждый раз)
— в следующем году нас ждёт демонстрация орбитальной заправки с помощью перекачки топлива с одного корабля на другой
— для полёта на Марс потребуется 5-6 таких заправок. Интересно, сколько нужно для Луны? Скептики оценивали, что нужно 12 — пока выглядит, что ошиблись. Будем посмотреть!
— к концу 2025-го года будет 4 пусковых башни, 2 в Техасе и 2 на легендарном мысе Канаверал. Это позволит существенно ускорить программу.
— ну а в этом году хотят построить ещё 6 кораблей и 6 ускорителей. Впереди нас ждёт множество пусков, удачных и не очень!

Ещё были новости про Марс и Лунную колонию, но об этом как нибудь потом.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Всего (целых?) 3 недели назад, 14-го марта, мы с вами наблюдали за третьим тестовым пуском SpaceX Starship, который выполнил почти все задачи миссии. На неделе появились новости касательно четвёртого пуска (а также ролик с анонсом) Тезисно про будущее программы:…
This media is not supported in your browser
VIEW IN TELEGRAM
И отдельно хочу показать визуализацию планируемой ловли ускорителя руками Мехазиллы (да, башню так называют).

Глядя на видео не забывайте, что серебристая цистерна из нержавейки имеет высоту 71 метр (24-этажное здание) и массу без топлива порядка 200 тонн. И нужно аккурааааатненько легоооонько вот так вот подлететь на ручки...плюхнувшись с высоты более 100 КМ.
Чуть меньше, чем через 2 часа (в 17:00 МСК), встречаемся с Валерой @cryptovalerii у него на канале в видео-формате. Запись, как всегда, будет

Поговорим про модели мира, что это такое и какое они отношение имеют к языковым моделям. Часть материала будет из моей статьи https://t.me/seeallochnaya/1120 про Sora — если вы пропустили и у вас есть время, то это маст хэв к прочтению!

Вопросы по теме можно писать под этим постом, только без спама.
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в США наблюдается солнечное затмение. Уверен, вы увидите множество фотографий с Земли из разных штатов — тут мне вас удивить нечем.

Но зато SpaceX могут удивить видео с орбиты, записанное камерами на одном из спутников Starlink!

We live in a twilight world...

(Источник)
Sama приехал в Лондон на какой-то AI Summit (в чьем-то инстаграм-аккаунте написано, что это мероприятие OpenAI, но мне не удалось найти) и показывает, чего дальше ждать от флагманских моделей компании.

Мультимодальность (работа с видео-аудио, более тесная интеграция работы с картинками)
Улучшение рассуждений и мыслительного процесса
Персонализация (интересно, что накрутят поверх памяти в ChatGPT)
Надёжность (вероятно, имеется в виду меньше галлюцинаций, рефлексия над ошибками и исправление)
Агенты (🔥 это мы ждём, должно стать главной фишкой моделей следующего поколения. Если не знаете, что это такое, то можно изучить тут)

Интересная структура слайда — идут ли блоки последовательно? Или всё появится одномоментно в новой модели?

Записи презентации нет, и не известно, будет ли.
Please open Telegram to view this post
VIEW IN TELEGRAM