Сиолошная
51.2K subscribers
944 photos
172 videos
1 file
1.12K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Закончилась первая фаза разработки OpenAssistant - опенсурсного аналога ChatGPT, сделанного в коллаборации большого количества людей со всего комьюнити вместе с организацией LAION.

Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.

Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык

Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.

Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.

UPD:🫢🤭🤭 в видосе Yannic говорит, кек, что самые лучшие модели, которые они натренили, пока держат в привате, но они доступны в Web-е по подписке. Мол, они очень мощные (<...are so powerful and capable>). И, по крайней мере пока, они не будут их публиковать. Остальное (включая модель на 12B параметров) доступно.

Он сказал это в шутку ("I'm kidding"), я это пропустил...однако моделей пока всё еще на HuggingFace нет 😞 Спасибо @DukhaninDY за внимательность
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы смотрели сериал "Silicon Valley" и не пропустили последний эпизод, то помните, чем всё кончилось: команда собирается вместе *дцать лет спустя, вспоминает былое 👴

Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.

Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT 👀 и основал новый стартап, у которого нет названия, и не ясно, сколько людей и над чем там работают. В статье указано, что он работал над дизайном модели на ранних этапах и запрограммировал всё это дело.

Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.

Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.

Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).

Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.

Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.

Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT 👀 В рамках работы над Transformer вместе с Aidan Gomez работал над улучшением кодовой базы и ускорением итераций в исследовательской работе (через облегчение взаимодействия и прототипирования).

Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.

Источник тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Делюсь с вами мемом, который Паша Комаровский запретил мне вставлять в статью!

> Vaswani et al. being State-of-the-Art for 6 years

> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет

(Vaswani et al. - так подписывается авторство статьи при цитировании)

Чисто статейку написал, модель придумал - и жизнь заладилась 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Starship News Live (Dreamer)
Заправка началась! Официальное время старта сместили на 20 минут на 16:20
вот отседа и будем смотретб на полёт...
Меньше 7 минут, однако наблюдаются некоторые проблемы с давлением, предположительно, из-за замерзшего клапана давления. Если проблема не решится за 10 секунд до запуска - таймер остановят, и может быть перенос.

Ссылка на трансляцию: тут

UPD: перенос, следующая попытка минимум через 48 часов 💀😭
Please open Telegram to view this post
VIEW IN TELEGRAM
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study

Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.

Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)

Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.

Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!

(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.

Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!

Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!

Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!

P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
На канале Ильи Варламова вышло 30-минутное видео про нейросети. Мне посчастливилось быть одним из приглашенных экспертов, дающих комментарии. Ещё там засветился мой приятель Лёша Хахунов, СТО Dbrain (компании, откуда я знаю оооочень много крутых инженеров). Кстати, у него есть свой канал @aihappens, на который я офк подписан (ну вдруг вам интересно). UPD: кто-то пишет, что по такой ссылке не переходит, попробуйте вот эту.

Само видео: https://youtu.be/MVg_D097x9o

P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом.

Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
Сиолошная
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом. Трансляция запустится через…
меньше 12 минут до запуска, пока никаких проблем не наблюдается, двигатели уже начали охлаждать. Почти всё топливо загружено в машину.

Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть
Наследник Н1...
В смысле это не в игре взорвалось?
Сиолошная
Наследник Н1...
Краткое саммари, что произошло:
1. Перед разделением ступеней (корабля и ускорителя) запланировано легкое вращение.
2. По плану, после начала вращения двигатели должны отключиться, и должно произойти разделение ступеней (представьте себе, как палочка Твикс ломается пополам).
3. Не ясно, связано ли это с отказом нескольких двигателей на первой ступени (см. 1 пост выше, пустые кружочки = двигатель не работает), но ракету начало крутить, она сделала минимум 3 оборота (я считал), что явно больше задуманного.
4. Как обычно бывает, на таких экспериментальных установках стоит устройство для контролируемого подрыва. Оно было приведено в действие, так как по сути корабль уже был потерян так и так.

С точки зрения SpaceX, это успешный запуск - целью было оторваться и вылететь за пределы пусковой башни, чтобы не разрушить наземную инфраструктуру. Более того, ракета преодолела MaxQ - точку максимального аэродинамического сопротивления, на которой часто что-то идёт не так.

Про то, чем опасно иметь много мелких движков, и чем закончилась советская программа ракеты с 30 двигателями на первой ступени, я писал тут. Само по себе отключение нескольких двигателей - это ОК, система спроектирована так, что отключение какой-то части не влияет на работу. Сколько конкретно заложено тут - не знаю, но как будто бы помню, что 4-5 двигателей это ок (из 33). Главное чтобы они не взрывались))

Однако..рекорд Н-1 побит - та за 4 пуска смогла "доползти" только до 107й секунды полета, а тут больше 3 минут.
Блин я на 10 мин в магаз отошел, что было?

(порадуемся за стартовый стол, что он хотя бы на месте остался)

По первой (непроверенной) информации, бетону на стартовой площадке очень плохо. Так что какое-то время займет и её восстановление.
Для сочувствующих - вот диаграмма производства на базе в Бока-Чика.

Starship 24 + Booster 7 уже своё отлетали и больше не в строю.

Как видно из картинки, на подходе максимально готовы прототипы Starship 25 + Booster 9, на обоих уже установлены двигатели. При желании SpaceX и возможности стартовой площадки их можно будет отправить в полёт очень скоро. Вообще напомню, что на этот год по лицензии одобрено целых ПЯТЬ запусков. Понятно, что хочется обработать телеметрию и понять, какие изменения вносить в корабли, но тем не менее хочется надеяться, что еще 2, а может даже 3 запуска будет до конца 2023го.

Источниктут - хайрез).