Generative Anton
4.95K subscribers
776 photos
46 videos
6 files
812 links
Непубличный угловой интеллектуал. Широко известен в узких кругах.

https://repushko.com
Download Telegram
Страшный сон холодной войны, боевиков про спецслужбы и т.д.: в LLM можно засунуть спящего агента, триггером для которого будет какая-то фраза и который начнет менять поведение этой модели после этого. Пока что это один из самых интересных секьюрити-кейсов, связанных с LLM.

arxiv
В последний день отпуска тайская женщина, которая мяла меня за деньги, сделала комплимент „strong body!“ моей ноге (почему-то правой), а это значит, что администрация канала возвращается из заслуженного отпуска и спешит снова вас радовать всякими странными вещами.
В 2022ом году вышла статья, которая рассказывала про то, что можно делать со звуком с микрофона лэптопа (и какую информацию тащить оттуда).

Оказалось, что можно вытащить шум GPU(!) и понять, что сейчас происходит. Например, какой сайт сейчас открыт или понять в Counter Strike (не очень понятно, в какой именно версии), что неподалеку есть засада, потому что шум GPU противника, которая рендерит окружение, будет совпадать с шумом вашей GPU, который можно вытащить локально.

Такая вот магия.

source
Еще один интересный ресеч. Товарищи наклеили каждой пчеле из своей колонии, которая у них была (1400 пчел), 7-битный QR код и начали трекать поведение каждой пчелы.

У этого есть две интересные цели:
- трекать поведение пчел, которые болеют чем-то (их поведение начнет отличаться от их поведения до болезни и поможет раньше их изолировать)
- общение у пчел происходит через процесс, называемый trophallaxis. Они обмениваются какой-то информацией/едой/жидкостями и т.д. Потрекав каждую пчелу, товарищи-исследователи смогли проследить динамику распространения информации внутри вот таких вот сложных пчелиных динамических групп. И она оказалась на 50% эфеективнее (быстрее), чем если бы это были просто случайные взаимодействия.

Такие дела.
This media is not supported in your browser
VIEW IN TELEGRAM
Классический Берлин
Этот короткий мультфильм (с музыкой!) примечателен тем, что помещается в 8Kb. Это вероятнее всего меньше, чем загрузит ваш телеграмм-клиент, чтобы отобразить этот пост. Есть большая красивая статья с объяснением, как это было сделано.

Еще одно напоминание всем нам, какие мощные компьютеры на самом деле.
Длинный текст про то, как я сходил с ума от отчаяния в последние 8 месяцев и начал учить древнегреческий.

Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.

Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).

На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам 3D КТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?

На сцену выходит ex-CEO Github’a Nat Friedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.

В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть 3D КТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.

После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.

Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.

И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
Интересно, что в процессе соревнования я чувствовал себя невероятно fullfilled и это очень хорошая альтернатива всяким гонкам с LLM-ресечем: у тебя есть сложная непонятная проблема, которую интуитивно кажется можно решить уже текущими средствами. И вся история этих свитков (которые многие десятилетия передавались из рук в руки до момента, когда их можно будет прочесть новыми техническими средствами) — отличный пример человеческой кооперации ради чего-то, что нельзя померить деньгами. Очень нравится.

Организаторы уже анонсировали новый этап соревнования где-то в феврале, так что тут будет еще больше постов про это. Ниже картинка с примерно финальными результатами, которых удалось добиться: читаются отдельные слова и предлоги, но без знания древнегреческого тяжело прочесть больше. Посмотрим, что будет дальше.
Хоть и личной победы и приза нет, но все равно результаты невероятные. Вроде как раскопали текст Philodemus'a об ощущениях (приятных) от еды и музыки. Сейчас занимаются переводом. Хоть это и кусочек всего лишь из одного (из 4ёх уже отсканированных свитков) и примерно всего лишь 5% от всего объема свитка, откуда этот текст взят.

Вышла хорошая статья Bloomberg про это. И официальная статья на сайте соревнования. Спорные чувства, т.к. я буквально разговаривал с одним из победителей о возможном тимапе в последнюю неделю, но он стимапился вот с ребятами, c которыми победил (которые расшифровали самое первое слово полгода назад)🫠ну и личные результаты не то, чтобы качественно хуже.

Любой опыт -- опыт. А мы возможно на нашем веку прочитаем ещё хорошей эпикурейской философии. Тем более, для этого нужно будет переселить целый итальянский город (чтобы провести раскопки).

Вероятно, буду участвовать во втором этапе соревнования. Захотите поделать что-то вместе -- пишите.
Please open Telegram to view this post
VIEW IN TELEGRAM
На что только не пойдут мужчины под 30, чтобы не взрослеть 🫠

Статья Фонтанки
Канал автора статьи
Please open Telegram to view this post
VIEW IN TELEGRAM
Распределение возраста участников Манхэттенского проекта. Вверху — весь персонал, внизу — только учёные.
OpenAI выпустила Sora. Это новая модель, которая создаёт сверхреалистичные консистентные видео по текстовому описанию.
Из интересного, что уже успели сделать: натравить NERF (сделать 3D модель сцены из видео) и нагенерировать кучу различных странных вещей (хомяк на утко-драконе, по ошибке летящий задом наперёд, два золотых ретривера, которые записывают подкаст на горе, и многое другое).

Можно сделать очень много интересных технических выводов: мол она очень хорошо симулирует различные физические эффекты, а значит у неё внутри вполне себе модель мира с различными физическими взаимодействиями. Т.e. можно буквально сказать, что модель “насмотрелась”, как развеваются волосы на ветру и теперь вот качественно их развевает. Или, что поезд в метро едет с определенной скоростью. Много всякого в общем.

И ещё очень хочется притянуть модальный реализм Льюиса. Тогда это уже инструмент для того, чтобы подсмотреть во все другие возможные миры, т.к. то, что можно подумать — существует. А значит, можно сформулировать с определённой долей приближения в естественном языке, а значит (теперь), можно и визуализировать. Такой маленький калейдоскоп модального реализма. В интересное время живём.

UPD: вот и технический отчёт подоспел.
Generative Anton
OpenAI выпустила Sora. Это новая модель, которая создаёт сверхреалистичные консистентные видео по текстовому описанию. Из интересного, что уже успели сделать: натравить NERF (сделать 3D модель сцены из видео) и нагенерировать кучу различных странных вещей…
We believe the capabilities Sora has today demonstrate that continued scaling of video models is a promising path towards the development of capable simulators of the physical and digital world, and the objects, animals and people that live within them.

Ну вот, приехали. Скоро построим себе симуляцию в симуляции и будем радоваться.
Картинка смешная, а ситуация - страшная.
“Любая достаточно развитая технология неотличима от магии” (Артур Кларк)

Это — телефонный разговор с роботом на другом конце. Поражает скорость инференса всего этого на лету (800мс задержка до проигрывания ответа) и качество эмоций. Можно попробовать самому на их сайте (это действительно работает).

Приятно, что хорошая инженерия всё ещё может быть ключевой основой продукта.
😎😎😎
Please open Telegram to view this post
VIEW IN TELEGRAM