Сиолошная
44.5K subscribers
764 photos
133 videos
1 file
944 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Не забывайте, что через час буду обсуждать с Валерой Бабушкиным GPT-N vs HTTPS vs Индустриальная революция (што? как? приходите и узнаете!)

Канал, где будет трансляция: @cryptovalerii
Ссылка на анонс
Emergent autonomous scientific research capabilities of large language models

Статья про создание системы, которая объединяет несколько больших языковых моделей для автономного проектирования, планирования и выполнения научных экспериментов. В ней демонстрируются научно-исследовательские возможности Агента на трех различных примерах, самым сложным из которых является успешное проведение катализируемых реакций.

Авторы затрагивают многие аспекты, но в детали я погружаться не буду, поэтому тезисно:
— нашли библиотеку, которая позволяет писать код на Python, а затем передавать команды на исполнение в специальный аппарат для проведения экспериментов (со смешиванием веществ)
— прикрутили к GPT-4 поиск в интернете, поиск по документации библиотеки, а также возможность запускать код на Python (чтобы исполнять "эксперименты")
— плюс, есть верхнеуровневый планировщик (тоже GPT-4), который анализирует исходный запрос и составляет "план исследований"
— протестировали, что GPT-4 хорошо справляется с простыми нехимическими задачами вроде создания определенных фигур на химической плате (правильно веществами заполнить ячейки)
— попробовали более сложную и прикладную задачу на проведение реакции, модель справилась, причём действовала достаточно логично
— далее дали несколько задачек на проведение экспериментов, однако для того, что выдавала модель, реальные эксперименты не проводились (мало ли что она там придумала..?).
— причём в ходе работы модель несколько раз писала код для химических уравнений, чтобы понять, сколько вещества нужно для реакции
— в том числе попросили сделать лекарство от рака. Модель подошла к анализу логично и методично: сначала она "посмотрела" в интернете текущие тенденции в открытии противораковых препаратов. Дальше модель выбрала молекулу, на основе которой будет моделировать лекарство, и написала код для его синтеза. Люди не запускали код (и анализа его адекватности я не увидел, то есть хз, что модель предложила синтезировать)
— кроме этого, попросили синтезировать несколько опасных веществ вроде наркотиков и ядов. И....

Вот тут самое интересное. Для каких то запросов модель сразу отказалась работать (например, героин или боевой яд Иприт). Для других начала гуглить, но поняла, что от нее хотят чего-то плохого, и ОТКАЗАЛАСЬ ПРОДОЛЖАТЬ РАБОТУ 🙏 Но для некоторых запросов все же написала план исследования и код для синтеза веществ.

Вот это вот "отказалась" — это результат Alignment'а модели командой OpenAI, чтобы модель понимала, что её просят делать что-то не то, и уходила в отказ. Это прям очень клёво, что заметен результат процедуры алайнмента.

И в конце статьи авторы призывают все крупные компании, разрабатывающие LLMки, уделять первостепенное внимание безопасности моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
1. Эксперименты по пониманию моделью прицнипа использования внешнего инструмента (написание команд на размещение веществ на плате. Первый этап - простые фигуры, без химического смысла)
2. End-to-end процесс работы, от планировщика и гугл-поиска до кода, производящего синтез веществ.
Гифка ниже - моя реакция, когда я читаю вот такой абзац в статье про то, что LLMки могут синтезировать боевые яды и белки

HIGH REASONING CAPABILITIES 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
😐😐 а кто ето тут сайт обновил По последней информации, SpaceX закончили подготовку к запуску и теперь единственное, чего ждут - это разрешения от комиссии FAA на полёт. По слухам, разрешение выдадут ближе к выходным, а запуск будет на следующей неделе. …
😮😮😮
FAA выдали лицензию на запуск, это было последней преградой на пути орбитального полета.
Жители предупреждены, что необходимо будет эвакуироваться. Объявлены дорожные, морские и воздушные перекрытия.

По плану, запуск должен быть 17го апреля, однако прогноз погоды неутешительный - ожидается сильный ветер (почти весь период, отведённый на запуск). Вторник, 18 апреля, выглядит более вероятным днём для полёта.

👀 встречу в календарь поставил

Джва года ждал....

UPD: прямая трансляция будет тут. Она стартует 17 апреля в 14:15 по Москве (за 45 минут до запуска). Стартовое окно продлится 150 минут. Но пока можно следить за количеством людей, которые нажали колокольчик).
Please open Telegram to view this post
VIEW IN TELEGRAM
Закончилась первая фаза разработки OpenAssistant - опенсурсного аналога ChatGPT, сделанного в коллаборации большого количества людей со всего комьюнити вместе с организацией LAION.

Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.

Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык

Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.

Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.

UPD:🫢🤭🤭 в видосе Yannic говорит, кек, что самые лучшие модели, которые они натренили, пока держат в привате, но они доступны в Web-е по подписке. Мол, они очень мощные (<...are so powerful and capable>). И, по крайней мере пока, они не будут их публиковать. Остальное (включая модель на 12B параметров) доступно.

Он сказал это в шутку ("I'm kidding"), я это пропустил...однако моделей пока всё еще на HuggingFace нет 😞 Спасибо @DukhaninDY за внимательность
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы смотрели сериал "Silicon Valley" и не пропустили последний эпизод, то помните, чем всё кончилось: команда собирается вместе *дцать лет спустя, вспоминает былое 👴

Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.

Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT 👀 и основал новый стартап, у которого нет названия, и не ясно, сколько людей и над чем там работают. В статье указано, что он работал над дизайном модели на ранних этапах и запрограммировал всё это дело.

Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.

Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.

Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).

Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.

Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.

Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT 👀 В рамках работы над Transformer вместе с Aidan Gomez работал над улучшением кодовой базы и ускорением итераций в исследовательской работе (через облегчение взаимодействия и прототипирования).

Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.

Источник тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Делюсь с вами мемом, который Паша Комаровский запретил мне вставлять в статью!

> Vaswani et al. being State-of-the-Art for 6 years

> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет

(Vaswani et al. - так подписывается авторство статьи при цитировании)

Чисто статейку написал, модель придумал - и жизнь заладилась 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Starship News Live (Dreamer)
Заправка началась! Официальное время старта сместили на 20 минут на 16:20
вот отседа и будем смотретб на полёт...
Меньше 7 минут, однако наблюдаются некоторые проблемы с давлением, предположительно, из-за замерзшего клапана давления. Если проблема не решится за 10 секунд до запуска - таймер остановят, и может быть перенос.

Ссылка на трансляцию: тут

UPD: перенос, следующая попытка минимум через 48 часов 💀😭
Please open Telegram to view this post
VIEW IN TELEGRAM
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study

Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.

Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)

Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.

Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!

(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.

Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!

Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!

Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!

P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
На канале Ильи Варламова вышло 30-минутное видео про нейросети. Мне посчастливилось быть одним из приглашенных экспертов, дающих комментарии. Ещё там засветился мой приятель Лёша Хахунов, СТО Dbrain (компании, откуда я знаю оооочень много крутых инженеров). Кстати, у него есть свой канал @aihappens, на который я офк подписан (ну вдруг вам интересно). UPD: кто-то пишет, что по такой ссылке не переходит, попробуйте вот эту.

Само видео: https://youtu.be/MVg_D097x9o

P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом.

Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
Сиолошная
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом. Трансляция запустится через…
меньше 12 минут до запуска, пока никаких проблем не наблюдается, двигатели уже начали охлаждать. Почти всё топливо загружено в машину.

Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть