Закончилась первая фаза разработки OpenAssistant - опенсурсного аналога ChatGPT, сделанного в коллаборации большого количества людей со всего комьюнити вместе с организацией LAION.
Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.
Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык
Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.
Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.
UPD:🫢🤭🤭 в видосе Yannic говорит, кек, что самые лучшие модели, которые они натренили, пока держат в привате, но они доступны в Web-е по подписке. Мол, они очень мощные (<...are so powerful and capable>). И, по крайней мере пока, они не будут их публиковать. Остальное (включая модель на 12B параметров) доступно.
Он сказал это в шутку ("I'm kidding"), я это пропустил...однако моделей пока всё еще на HuggingFace нет 😞 Спасибо @DukhaninDY за внимательность
Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.
Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык
Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.
Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.
UPD:
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы смотрели сериал "Silicon Valley" и не пропустили последний эпизод, то помните, чем всё кончилось: команда собирается вместе *дцать лет спустя, вспоминает былое 👴
Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.
Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT👀 и основал новый стартап, у которого нет названия, и не ясно, сколько людей и над чем там работают. В статье указано, что он работал над дизайном модели на ранних этапах и запрограммировал всё это дело.
Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.
Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.
Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).
Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.
Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.
Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT👀 В рамках работы над Transformer вместе с Aidan Gomez работал над улучшением кодовой базы и ускорением итераций в исследовательской работе (через облегчение взаимодействия и прототипирования).
Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.
Источник тут.
Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.
Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT
Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.
Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.
Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).
Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.
Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.
Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT
Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.
Источник тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Делюсь с вами мемом, который Паша Комаровский запретил мне вставлять в статью!
> Vaswani et al. being State-of-the-Art for 6 years
> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет
(Vaswani et al. - так подписывается авторство статьи при цитировании)
Чисто статейку написал, модель придумал - и жизнь заладилась😎
> Vaswani et al. being State-of-the-Art for 6 years
> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет
(Vaswani et al. - так подписывается авторство статьи при цитировании)
Чисто статейку написал, модель придумал - и жизнь заладилась
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Starship News Live (Dreamer)
Заправка началась! Официальное время старта сместили на 20 минут на 16:20
Меньше 7 минут, однако наблюдаются некоторые проблемы с давлением, предположительно, из-за замерзшего клапана давления. Если проблема не решится за 10 секунд до запуска - таймер остановят, и может быть перенос.
Ссылка на трансляцию: тут
UPD: перенос, следующая попытка минимум через 48 часов💀 😭
Ссылка на трансляцию: тут
UPD: перенос, следующая попытка минимум через 48 часов
Please open Telegram to view this post
VIEW IN TELEGRAM
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study
Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.
Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)
Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.
Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!
(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.
Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)
Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.
Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!
(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
YouTube
Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)
Ссылка на презентацию: https://1drv.ms/p/s!AlnN0aqNwShslRdcd7-WsY9oUm50
Мой телеграм канал: https://t.me/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://t.me/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Мой телеграм канал: https://t.me/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://t.me/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Сиолошная
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад. Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях! Однако первая часть, до разбора…
У этого видео была альтернативная обложка....
Но тогда пришлось бы смотреть исключительно под этот трек((
(там и вправду мой силуэт aka дауншифтер, живущий без барбершопа)
Но тогда пришлось бы смотреть исключительно под этот трек((
(там и вправду мой силуэт aka дауншифтер, живущий без барбершопа)
На канале Ильи Варламова вышло 30-минутное видео про нейросети. Мне посчастливилось быть одним из приглашенных экспертов, дающих комментарии. Ещё там засветился мой приятель Лёша Хахунов, СТО Dbrain (компании, откуда я знаю оооочень много крутых инженеров). Кстати, у него есть свой канал @aihappens, на который я офк подписан (ну вдруг вам интересно). UPD: кто-то пишет, что по такой ссылке не переходит, попробуйте вот эту.
Само видео: https://youtu.be/MVg_D097x9o
P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
Само видео: https://youtu.be/MVg_D097x9o
P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
YouTube
Нейросети: прекрасное будущее или апокалипсис? | ChatGPT, Midjorney и дипфейки
Илон Маск, Стив Во́зняк и другие эксперты в области IT-технологий потребовали приостановить на полгода эксперименты с искусственным интеллектом. В Италии требуют запретить ChatGPT, в Индии с помощью нее выносят судебные решения, а в России – пишут дипломы.…
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом.
Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
YouTube
Starship Flight Test
Starship gave us quite a show during today’s first flight test of a fully integrated Starship and Super Heavy rocket from Starbase in Texas.
At 8:33 a.m. CT, Starship successfully lifted off from the orbital launch pad for the first time. The vehicle cleared…
At 8:33 a.m. CT, Starship successfully lifted off from the orbital launch pad for the first time. The vehicle cleared…
Сиолошная
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом. Трансляция запустится через…
меньше 12 минут до запуска, пока никаких проблем не наблюдается, двигатели уже начали охлаждать. Почти всё топливо загружено в машину.
Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть
Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть
Сиолошная
Наследник Н1...
Краткое саммари, что произошло:
1. Перед разделением ступеней (корабля и ускорителя) запланировано легкое вращение.
2. По плану, после начала вращения двигатели должны отключиться, и должно произойти разделение ступеней (представьте себе, как палочка Твикс ломается пополам).
3. Не ясно, связано ли это с отказом нескольких двигателей на первой ступени (см. 1 пост выше, пустые кружочки = двигатель не работает), но ракету начало крутить, она сделала минимум 3 оборота (я считал), что явно больше задуманного.
4. Как обычно бывает, на таких экспериментальных установках стоит устройство для контролируемого подрыва. Оно было приведено в действие, так как по сути корабль уже был потерян так и так.
С точки зрения SpaceX, это успешный запуск - целью было оторваться и вылететь за пределы пусковой башни, чтобы не разрушить наземную инфраструктуру. Более того, ракета преодолела MaxQ - точку максимального аэродинамического сопротивления, на которой часто что-то идёт не так.
Про то, чем опасно иметь много мелких движков, и чем закончилась советская программа ракеты с 30 двигателями на первой ступени, я писал тут. Само по себе отключение нескольких двигателей - это ОК, система спроектирована так, что отключение какой-то части не влияет на работу. Сколько конкретно заложено тут - не знаю, но как будто бы помню, что 4-5 двигателей это ок (из 33). Главное чтобы они не взрывались))
Однако..рекорд Н-1 побит - та за 4 пуска смогла "доползти" только до 107й секунды полета, а тут больше 3 минут.
1. Перед разделением ступеней (корабля и ускорителя) запланировано легкое вращение.
2. По плану, после начала вращения двигатели должны отключиться, и должно произойти разделение ступеней (представьте себе, как палочка Твикс ломается пополам).
3. Не ясно, связано ли это с отказом нескольких двигателей на первой ступени (см. 1 пост выше, пустые кружочки = двигатель не работает), но ракету начало крутить, она сделала минимум 3 оборота (я считал), что явно больше задуманного.
4. Как обычно бывает, на таких экспериментальных установках стоит устройство для контролируемого подрыва. Оно было приведено в действие, так как по сути корабль уже был потерян так и так.
С точки зрения SpaceX, это успешный запуск - целью было оторваться и вылететь за пределы пусковой башни, чтобы не разрушить наземную инфраструктуру. Более того, ракета преодолела MaxQ - точку максимального аэродинамического сопротивления, на которой часто что-то идёт не так.
Про то, чем опасно иметь много мелких движков, и чем закончилась советская программа ракеты с 30 двигателями на первой ступени, я писал тут. Само по себе отключение нескольких двигателей - это ОК, система спроектирована так, что отключение какой-то части не влияет на работу. Сколько конкретно заложено тут - не знаю, но как будто бы помню, что 4-5 двигателей это ок (из 33). Главное чтобы они не взрывались))
Однако..рекорд Н-1 побит - та за 4 пуска смогла "доползти" только до 107й секунды полета, а тут больше 3 минут.
Forwarded from Starship News Live (Artem Nikitin)
This media is not supported in your browser
VIEW IN TELEGRAM
Сиолошная
Блин я на 10 мин в магаз отошел, что было? (порадуемся за стартовый стол, что он хотя бы на месте остался) По первой (непроверенной) информации, бетону на стартовой площадке очень плохо. Так что какое-то время займет и её восстановление.
Было / стало. Как будто бы вообще всё покрытие вынесло к чертям.
Нуууу....экскаватор, в общем, неплохой, но чутка дороговат😐
Нуууу....экскаватор, в общем, неплохой, но чутка дороговат
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Для сочувствующих - вот диаграмма производства на базе в Бока-Чика.
Starship 24 + Booster 7 уже своё отлетали и больше не в строю.
Как видно из картинки, на подходе максимально готовы прототипы Starship 25 + Booster 9, на обоих уже установлены двигатели. При желании SpaceX и возможности стартовой площадки их можно будет отправить в полёт очень скоро. Вообще напомню, что на этот год по лицензии одобрено целых ПЯТЬ запусков. Понятно, что хочется обработать телеметрию и понять, какие изменения вносить в корабли, но тем не менее хочется надеяться, что еще 2, а может даже 3 запуска будет до конца 2023го.
Источник (и тут - хайрез).
Starship 24 + Booster 7 уже своё отлетали и больше не в строю.
Как видно из картинки, на подходе максимально готовы прототипы Starship 25 + Booster 9, на обоих уже установлены двигатели. При желании SpaceX и возможности стартовой площадки их можно будет отправить в полёт очень скоро. Вообще напомню, что на этот год по лицензии одобрено целых ПЯТЬ запусков. Понятно, что хочется обработать телеметрию и понять, какие изменения вносить в корабли, но тем не менее хочется надеяться, что еще 2, а может даже 3 запуска будет до конца 2023го.
Источник (и тут - хайрез).