Гифка ниже - моя реакция, когда я читаю вот такой абзац в статье про то, что LLMки могут синтезировать боевые яды и белки
HIGH REASONING CAPABILITIES🙏
HIGH REASONING CAPABILITIES
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
FAA выдали лицензию на запуск, это было последней преградой на пути орбитального полета.
Жители предупреждены, что необходимо будет эвакуироваться. Объявлены дорожные, морские и воздушные перекрытия.
По плану, запуск должен быть 17го апреля, однако прогноз погоды неутешительный - ожидается сильный ветер (почти весь период, отведённый на запуск). Вторник, 18 апреля, выглядит более вероятным днём для полёта.
Джва года ждал....
UPD: прямая трансляция будет тут. Она стартует 17 апреля в 14:15 по Москве (за 45 минут до запуска). Стартовое окно продлится 150 минут. Но пока можно следить за количеством людей, которые нажали колокольчик).
Please open Telegram to view this post
VIEW IN TELEGRAM
Закончилась первая фаза разработки OpenAssistant - опенсурсного аналога ChatGPT, сделанного в коллаборации большого количества людей со всего комьюнити вместе с организацией LAION.
Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.
Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык
Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.
Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.
UPD:🫢🤭🤭 в видосе Yannic говорит, кек, что самые лучшие модели, которые они натренили, пока держат в привате, но они доступны в Web-е по подписке. Мол, они очень мощные (<...are so powerful and capable>). И, по крайней мере пока, они не будут их публиковать. Остальное (включая модель на 12B параметров) доступно.
Он сказал это в шутку ("I'm kidding"), я это пропустил...однако моделей пока всё еще на HuggingFace нет 😞 Спасибо @DukhaninDY за внимательность
Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).
Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.
Статья: pdf файл (обзор демографии разметчиков внутри)
Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут
Ссылка на датасет: вот
Модели можно найти: здесь
Поиграться с ботом в браузере: тык
Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.
Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.
UPD:
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы смотрели сериал "Silicon Valley" и не пропустили последний эпизод, то помните, чем всё кончилось: команда собирается вместе *дцать лет спустя, вспоминает былое 👴
Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.
Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT👀 и основал новый стартап, у которого нет названия, и не ясно, сколько людей и над чем там работают. В статье указано, что он работал над дизайном модели на ранних этапах и запрограммировал всё это дело.
Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.
Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.
Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).
Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.
Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.
Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT👀 В рамках работы над Transformer вместе с Aidan Gomez работал над улучшением кодовой базы и ускорением итераций в исследовательской работе (через облегчение взаимодействия и прототипирования).
Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.
Источник тут.
Давайте посмотрим, что стало с авторами нейросетевой архитектуры Transformer, которая лежит в основе ChatGPT и GPT-4.
Она была представлена в статье "Attention is all you need" от исследовательского отдела Google (Июнь 2017го). Авторы идут в том же порядке, что указан в статье, а тот, в свою очередь, был случайным.
Ashish Vaswani — покинул Google в конце 2021 года, чтобы создать свою компанию Adept, которая на данный момент привлекла $415m и оценивается более чем в $1B. Однако... Ashish покинул компанию несколько месяцев назад - в декабре 2022го года, сразу после релиза ChatGPT
Noam Shazeer — работал в Google больше 20 лет, с декабря 2000-го. В октябре 2021го уволился и основал стартап Character.ai. С того времени компания уже привлекла $200m и достигла оценки в почти миллиард. Если верить LinkedIn, то там работает около 20 сотрудников, так что value в пересчёте на нос впечатляет. Именно Noam привнёс идею разных "голов" в механизме внимания.
Niki Parmar — единственная девушка-соавтор статьи, была Staff Researcher в команде Google Brain до ноября 2021го, а затем - ушла к первому упомянутому автору, Ashish Vaswani, в Adept. Однако, как мы уже знаем, надолго там они не задержались - и ушли вместе в новый проект. Niki проводила множество экспериментов по обучению и валидации моделей.
Jakob Uszkoreit — многие называют его главным мозгом, стоящим за изобретением архитектуры Transformer. Именно он предложил заменить реккурентные сети подобным механизмом "внимания", и начал прототипирование первого подхода. Он покинул Google в середине 2021 года и основал Inceptive Life, где команда работает над моделированием мРНК с помощью нейросетей. мРНК - это то, что (иногда) лежит в основе вакцин (Pfizer–BioNTech от коронавируса как пример).
Llion Jones — единственный из всех, кто остался работать в Google на сегодняшний день. С его слов, именно он предложил название статьи, которое стало мемом и породило десятки других статей с паттерном "X is all you need". Помимо этого, отвечал за оптимизацию инференса модели и визуализации для экспериментов/статьи.
Aidan Gomez — ушел из Google осенью 2019го, чтобы основать Cohere.ai. В компании продолжают заниматься языковыми моделями, часть их продуктов похожа на юзкейсы, которые люди делали в первые дни после выхода ChatGPT. Удалось привлечь более $400m инвестиций и вырастить компанию до почти 200 сотрудников.
Lukasz Kaiser — после более чем 7 лет работы в Google, ушел летом 2021го работать в ... OpenAI. В оригинальной статье указано, что Lukasz отвечал за разработку и оптимизацию кода, В целом, оно и ясно - ведь он один из соавторов TensorFlow, библиотеки для создания и обучения нейросетей. В общем, очень сильный инженер - и теперь работает над GPT
Illia Polosukhin — покинул Google в 2017м году, еще до релиза статьи, чтобы основать Near - протокол блокчейна, по сути конкурент Ethereum. Текущая оценка порядка ~$2B, а всего за 6 лет было привлечено более $375m в качестве инвестиций.
Источник тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Делюсь с вами мемом, который Паша Комаровский запретил мне вставлять в статью!
> Vaswani et al. being State-of-the-Art for 6 years
> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет
(Vaswani et al. - так подписывается авторство статьи при цитировании)
Чисто статейку написал, модель придумал - и жизнь заладилась😎
> Vaswani et al. being State-of-the-Art for 6 years
> Vaswani и др., оставаясь разработчиками самого передового, быстрорастущего и повсеместно распространенного решения за 6 лет
(Vaswani et al. - так подписывается авторство статьи при цитировании)
Чисто статейку написал, модель придумал - и жизнь заладилась
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Starship News Live (Dreamer)
Заправка началась! Официальное время старта сместили на 20 минут на 16:20
Меньше 7 минут, однако наблюдаются некоторые проблемы с давлением, предположительно, из-за замерзшего клапана давления. Если проблема не решится за 10 секунд до запуска - таймер остановят, и может быть перенос.
Ссылка на трансляцию: тут
UPD: перенос, следующая попытка минимум через 48 часов💀 😭
Ссылка на трансляцию: тут
UPD: перенос, следующая попытка минимум через 48 часов
Please open Telegram to view this post
VIEW IN TELEGRAM
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study
Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.
Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)
Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.
Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!
(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Думаю, многие знают, что с точки зрения предоставления фактической информации GPT-модели могут чудить. GPT-4 достаточно редко врёт (субъективно), особенно если давать ей контекст, из которого можно "прочитать" и выдать ответ. Всё это приводит к достаточно логичному выводу: надо использовать внешнюю систему (типа Google или Bing), чтобы находить потенциально информацию и добавлять её в промпт - а там уже модель сама разберется. Процесс поиска нужных кусков текста называется Retrieve.
Но выходит какая-то странная вещь: с одной стороны мы никак не тренируем модели на это, только учим предсказывать следующее слово, а с другой - хотим их так применять. В мире машинного обучения такая путаница обычно ведёт к деградации качества, порой, существенного (но с LLM это почти незаметно).
Однако уже есть модели, которые прямо из коробки "подключаются" к большой базе знаний, чтобы из неё находить качественные данные прямо во время генерации текста. Я про них даже делал две лекции в 2022м году - вот, это есть в закреплённом сообщении в канале:
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2 (понятно будет даже если вы не занимаетесь NLP)
Наконец, перехожу к сегодняшней статье: авторы проводят исследования, как такая тренировка модели (та, что во второй части лекции выше) влияет на качество. Оказывается, что рост метрик наблюдается не везде - но для задач вопросов-ответов буст существенный, что ожидаемо.
Мне кажется странным название статьи, так как это не очень похоже на Comprehensive Study, но тем не менее. Очень жду, когда к LLM-кам припахают графы знаний!
(да, этот пост написан исключительно для того, чтобы вы проверили закреп и посмотрели лекции, чтобы понять, про что речь)
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
YouTube
Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)
Ссылка на презентацию: https://1drv.ms/p/s!AlnN0aqNwShslRdcd7-WsY9oUm50
Мой телеграм канал: https://t.me/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://t.me/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Мой телеграм канал: https://t.me/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://t.me/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Сиолошная
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад. Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях! Однако первая часть, до разбора…
У этого видео была альтернативная обложка....
Но тогда пришлось бы смотреть исключительно под этот трек((
(там и вправду мой силуэт aka дауншифтер, живущий без барбершопа)
Но тогда пришлось бы смотреть исключительно под этот трек((
(там и вправду мой силуэт aka дауншифтер, живущий без барбершопа)
На канале Ильи Варламова вышло 30-минутное видео про нейросети. Мне посчастливилось быть одним из приглашенных экспертов, дающих комментарии. Ещё там засветился мой приятель Лёша Хахунов, СТО Dbrain (компании, откуда я знаю оооочень много крутых инженеров). Кстати, у него есть свой канал @aihappens, на который я офк подписан (ну вдруг вам интересно). UPD: кто-то пишет, что по такой ссылке не переходит, попробуйте вот эту.
Само видео: https://youtu.be/MVg_D097x9o
P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
Само видео: https://youtu.be/MVg_D097x9o
P.S.: ахаха блин кто придумал делать такие крупные наезды на лицо?) ну шо такэ...
YouTube
Нейросети: прекрасное будущее или апокалипсис? | ChatGPT, Midjorney и дипфейки
Илон Маск, Стив Во́зняк и другие эксперты в области IT-технологий потребовали приостановить на полгода эксперименты с искусственным интеллектом. В Италии требуют запретить ChatGPT, в Индии с помощью нее выносят судебные решения, а в России – пишут дипломы.…
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом.
Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
Трансляция запустится через 28 минут, за ~45 минут до старта (пока запланирован на 16:28 по мск)
YouTube
Starship Flight Test
Starship gave us quite a show during today’s first flight test of a fully integrated Starship and Super Heavy rocket from Starbase in Texas.
At 8:33 a.m. CT, Starship successfully lifted off from the orbital launch pad for the first time. The vehicle cleared…
At 8:33 a.m. CT, Starship successfully lifted off from the orbital launch pad for the first time. The vehicle cleared…
Сиолошная
^ Видео поможет скоротать время до запуска трансляции SpaceX, ведь сегодня будет снова попытка запуска. Заправка уже началась, жители давно эвакуированы. Надеюсь, ничего не примерзнет и не сломается, и мы насладимся полётом. Трансляция запустится через…
меньше 12 минут до запуска, пока никаких проблем не наблюдается, двигатели уже начали охлаждать. Почти всё топливо загружено в машину.
Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть
Погода наладилась, туман ушел - можно будет всё хорошо рассмотреть
Сиолошная
Наследник Н1...
Краткое саммари, что произошло:
1. Перед разделением ступеней (корабля и ускорителя) запланировано легкое вращение.
2. По плану, после начала вращения двигатели должны отключиться, и должно произойти разделение ступеней (представьте себе, как палочка Твикс ломается пополам).
3. Не ясно, связано ли это с отказом нескольких двигателей на первой ступени (см. 1 пост выше, пустые кружочки = двигатель не работает), но ракету начало крутить, она сделала минимум 3 оборота (я считал), что явно больше задуманного.
4. Как обычно бывает, на таких экспериментальных установках стоит устройство для контролируемого подрыва. Оно было приведено в действие, так как по сути корабль уже был потерян так и так.
С точки зрения SpaceX, это успешный запуск - целью было оторваться и вылететь за пределы пусковой башни, чтобы не разрушить наземную инфраструктуру. Более того, ракета преодолела MaxQ - точку максимального аэродинамического сопротивления, на которой часто что-то идёт не так.
Про то, чем опасно иметь много мелких движков, и чем закончилась советская программа ракеты с 30 двигателями на первой ступени, я писал тут. Само по себе отключение нескольких двигателей - это ОК, система спроектирована так, что отключение какой-то части не влияет на работу. Сколько конкретно заложено тут - не знаю, но как будто бы помню, что 4-5 двигателей это ок (из 33). Главное чтобы они не взрывались))
Однако..рекорд Н-1 побит - та за 4 пуска смогла "доползти" только до 107й секунды полета, а тут больше 3 минут.
1. Перед разделением ступеней (корабля и ускорителя) запланировано легкое вращение.
2. По плану, после начала вращения двигатели должны отключиться, и должно произойти разделение ступеней (представьте себе, как палочка Твикс ломается пополам).
3. Не ясно, связано ли это с отказом нескольких двигателей на первой ступени (см. 1 пост выше, пустые кружочки = двигатель не работает), но ракету начало крутить, она сделала минимум 3 оборота (я считал), что явно больше задуманного.
4. Как обычно бывает, на таких экспериментальных установках стоит устройство для контролируемого подрыва. Оно было приведено в действие, так как по сути корабль уже был потерян так и так.
С точки зрения SpaceX, это успешный запуск - целью было оторваться и вылететь за пределы пусковой башни, чтобы не разрушить наземную инфраструктуру. Более того, ракета преодолела MaxQ - точку максимального аэродинамического сопротивления, на которой часто что-то идёт не так.
Про то, чем опасно иметь много мелких движков, и чем закончилась советская программа ракеты с 30 двигателями на первой ступени, я писал тут. Само по себе отключение нескольких двигателей - это ОК, система спроектирована так, что отключение какой-то части не влияет на работу. Сколько конкретно заложено тут - не знаю, но как будто бы помню, что 4-5 двигателей это ок (из 33). Главное чтобы они не взрывались))
Однако..рекорд Н-1 побит - та за 4 пуска смогла "доползти" только до 107й секунды полета, а тут больше 3 минут.
Forwarded from Starship News Live (Artem Nikitin)
This media is not supported in your browser
VIEW IN TELEGRAM