Forwarded from Агенты ИИ | AGI_and_RL
Как же хочется "анатомически детализированную биомеханическую модель всего тела плодовой мухи Drosophila melanogaster в физическом движке MuJoCo". Держите.
13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.
Страшно реалистичная Drosophila melanogaster живет тут:
Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning
https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1
https://github.com/TuragaLab/flybody
13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.
Страшно реалистичная Drosophila melanogaster живет тут:
Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning
https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1
https://github.com/TuragaLab/flybody
Способность убеждать (ИИ -> человек) масштабируется вместе с размером LLM
Исследователи из Anthropic (создатели Claude), провели исследование, в котором показали что более большие языковые модели намного более способны к тому, что бы с помощью аргументов переубедить человека.
Более того, современные модели справляются с этим примерно так же хорошо, как человек.
Исследование проводили следующим образом:
1. Людям давали какое то утверждение и просили с ним согласиться по некоей бальной шкале (например от 0 до 10).
2. ИИ писал текст, который должен был склонить человека к тому, что бы согласиться с изначальным утверждением
3. Замеряли насколько поменялось мнение человека.
Подробнее в статье
Исследователи из Anthropic (создатели Claude), провели исследование, в котором показали что более большие языковые модели намного более способны к тому, что бы с помощью аргументов переубедить человека.
Более того, современные модели справляются с этим примерно так же хорошо, как человек.
Исследование проводили следующим образом:
1. Людям давали какое то утверждение и просили с ним согласиться по некоей бальной шкале (например от 0 до 10).
2. ИИ писал текст, который должен был склонить человека к тому, что бы согласиться с изначальным утверждением
3. Замеряли насколько поменялось мнение человека.
Подробнее в статье
🚨Не учебная тревога, Mistral только что выложили новую модель на торренты!
Файл называется mixtral-8x22b, что позволяет предположить модель MoE (Mixture of Experts) на 176B параметров (если активны все 8 экспертов). Модель весит 281 Гб.
Пока больше никаких подробностей и evals нету. Но в течение следующих суток все узнаем!
X
Файл называется mixtral-8x22b, что позволяет предположить модель MoE (Mixture of Experts) на 176B параметров (если активны все 8 экспертов). Модель весит 281 Гб.
Пока больше никаких подробностей и evals нету. Но в течение следующих суток все узнаем!
X
Forwarded from Neural Shit
Please open Telegram to view this post
VIEW IN TELEGRAM
🥳 У меня сегодня (13 апреля) день рождения
Друзья, сегодня особенный день - мне исполняется 30 лет! И я безумно счастлив встречать этот юбилей, с друзьями и в одном из самых прекрасных мест на Земле - на волшебном острове Мауи (Гавайи)! 🌴🌺
Мы арендовали себе джип, и последние несколько дней катаемся по острову. Мне показалось, что это отличный способ отметить начало нового десятилетия моей жизни! 🚙⛰️
Знаете, я с каждым годом все больше убеждаюсь, что главное - это не только коллекционировать впечатления и расширять горизонты, но и делать это со своим племенем, с близкими по духу людьми. И сегодня, вступая в новую главу своей жизни, я обещаю себе никогда не переставать исследовать этот удивительный мир в компании дорогих мне людей! 🌎🤩
Друзья, я искренне желаю каждому из вас также найти свое вдохновение, свою страсть и наполнять каждый день яркими красками и незабываемыми моментами, где бы вы ни были! 💫 Цените каждое мгновение и помните, что лучшее всегда впереди! 😊
А как вы отмечали свои 30 лет? Делитесь своими историями в комментариях, буду рад почитать! 👇
Друзья, сегодня особенный день - мне исполняется 30 лет! И я безумно счастлив встречать этот юбилей, с друзьями и в одном из самых прекрасных мест на Земле - на волшебном острове Мауи (Гавайи)! 🌴🌺
Мы арендовали себе джип, и последние несколько дней катаемся по острову. Мне показалось, что это отличный способ отметить начало нового десятилетия моей жизни! 🚙⛰️
Знаете, я с каждым годом все больше убеждаюсь, что главное - это не только коллекционировать впечатления и расширять горизонты, но и делать это со своим племенем, с близкими по духу людьми. И сегодня, вступая в новую главу своей жизни, я обещаю себе никогда не переставать исследовать этот удивительный мир в компании дорогих мне людей! 🌎🤩
Друзья, я искренне желаю каждому из вас также найти свое вдохновение, свою страсть и наполнять каждый день яркими красками и незабываемыми моментами, где бы вы ни были! 💫 Цените каждое мгновение и помните, что лучшее всегда впереди! 😊
А как вы отмечали свои 30 лет? Делитесь своими историями в комментариях, буду рад почитать! 👇
Шепот на гавайском: языковые модели для улучшения распознавания речи
Знаете ли вы, что слово “wiki”, ставшее символом быстрого доступа к знаниям в интернете, имеет гавайские корни? Оно буквально значит “быстро”. Да, и “Aloha” уже часть мировой культуры. Но носителей гавайского языка становится все меньше, что делает его сохранение важной культурной задачей.
Авторы статьи проверили, можно ли улучшить точность распознавания речи на базе Whisper. Попробовали (не большую) гавайскую языковую модель (RNN с тремя слоями LSTM) для переоценки (rescoring) результатов Whisper.
Они применяли линейную комбинацию логарифмов вероятностей, предсказанных ASR (Whisper) и LM, взвешенных коэффициентом альфа. При применении веса альфа=0,25, результаты показали небольшое (22%->20%), но статистически значимое снижение ошибки распознавания.
Т.е использовать целенаправленно разработанные языковые модели для поддержки малых языков - эффективно. Авторы ожидаемо предлагают проверить трансформеры.
arXiv
Знаете ли вы, что слово “wiki”, ставшее символом быстрого доступа к знаниям в интернете, имеет гавайские корни? Оно буквально значит “быстро”. Да, и “Aloha” уже часть мировой культуры. Но носителей гавайского языка становится все меньше, что делает его сохранение важной культурной задачей.
Авторы статьи проверили, можно ли улучшить точность распознавания речи на базе Whisper. Попробовали (не большую) гавайскую языковую модель (RNN с тремя слоями LSTM) для переоценки (rescoring) результатов Whisper.
Они применяли линейную комбинацию логарифмов вероятностей, предсказанных ASR (Whisper) и LM, взвешенных коэффициентом альфа. При применении веса альфа=0,25, результаты показали небольшое (22%->20%), но статистически значимое снижение ошибки распознавания.
Т.е использовать целенаправленно разработанные языковые модели для поддержки малых языков - эффективно. Авторы ожидаемо предлагают проверить трансформеры.
arXiv
Forwarded from Derp Learning
Improving microbial phylogeny with citizen science within a mass-market video game
Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅
Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.
В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.
Пейпер
Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅
Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.
В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.
Пейпер
Nature
Improving microbial phylogeny with citizen science within a mass-market video game
Nature Biotechnology - Gamification of the multiple sequence alignment problem improves microbial phylogeny estimates.
🦾 С этого января все только и говорят, что о роботах.
Наткнулся на хорошую иллюстрацию, какие сейчас есть успешные гуманоидные роботы. Совершенно зря забыли про норвежских NEO, которые пошли по пути koselig (читается как кушле - уют, домашний очаг).
В реальности, я пока что видел только Optimus Gen-1 в салоне Теслы
Наткнулся на хорошую иллюстрацию, какие сейчас есть успешные гуманоидные роботы. Совершенно зря забыли про норвежских NEO, которые пошли по пути koselig (читается как кушле - уют, домашний очаг).
В реальности, я пока что видел только Optimus Gen-1 в салоне Теслы
Phi-3: LLM в телефоне
Друзья, вы только представьте - теперь ваш смартфон умеет нативно запускать языковые модели! Знакомьтесь, phi-3-mini - это языковая модель с 3.8 миллиардами параметров, которая запросто даст фору таким монстрам, как Mixtral 8x7B и GPT-3.5. Она набирает целых 69% на тесте MMLU и 8.38 на MT-bench.
Но как же ей это удается? Все дело в данных для обучения. Разработчики взяли датасет, на котором училась предыдущая модель phi-2, и довели его до ума. Они тщательно отфильтровали веб-данные и добавили синтетические примеры, чтобы модель могла учиться на огромном объеме информации, не распухая до неприличных размеров.
И это еще не все! Исследователи показали, что если увеличить размер модели до 7B или 14B параметров (phi-3-small и phi-3-medium) и обучить на еще большем датасете в 4.8T токенов, то результаты будут еще круче: phi-3-small достигает 75% на MMLU и 8.7 на MT-bench, а phi-3-medium - 78% и 8.9 соответственно. Вот это да!
Только представьте, какие возможности открываются с такими мощными языковыми моделями прямо в вашем смартфоне. Вы сможете болтать с ИИ на любые темы, генерировать креативные тексты и многое другое, где бы вы ни находились. Это просто фантастика!
Похоже, будущее уже здесь, и модели серии phi-3 - яркое тому подтверждение. Скоро каждый сможет носить в кармане свой персональный лингвистический суперкомпьютер. Это открывает невероятные перспективы для инноваций, продуктивности и просто веселья (и оставляет еще больше вопросов ко всяким hu.ma.ne) .
Кстати, а вы знаете какие-нибудь хорошо работающие методы фильтрации больших данных для обучения моделей? Поделитесь в комментариях, давайте обсудим! И все что касается методов weak supervision.
📚 Статья
🫥 Веса
Друзья, вы только представьте - теперь ваш смартфон умеет нативно запускать языковые модели! Знакомьтесь, phi-3-mini - это языковая модель с 3.8 миллиардами параметров, которая запросто даст фору таким монстрам, как Mixtral 8x7B и GPT-3.5. Она набирает целых 69% на тесте MMLU и 8.38 на MT-bench.
Но как же ей это удается? Все дело в данных для обучения. Разработчики взяли датасет, на котором училась предыдущая модель phi-2, и довели его до ума. Они тщательно отфильтровали веб-данные и добавили синтетические примеры, чтобы модель могла учиться на огромном объеме информации, не распухая до неприличных размеров.
И это еще не все! Исследователи показали, что если увеличить размер модели до 7B или 14B параметров (phi-3-small и phi-3-medium) и обучить на еще большем датасете в 4.8T токенов, то результаты будут еще круче: phi-3-small достигает 75% на MMLU и 8.7 на MT-bench, а phi-3-medium - 78% и 8.9 соответственно. Вот это да!
Только представьте, какие возможности открываются с такими мощными языковыми моделями прямо в вашем смартфоне. Вы сможете болтать с ИИ на любые темы, генерировать креативные тексты и многое другое, где бы вы ни находились. Это просто фантастика!
Похоже, будущее уже здесь, и модели серии phi-3 - яркое тому подтверждение. Скоро каждый сможет носить в кармане свой персональный лингвистический суперкомпьютер. Это открывает невероятные перспективы для инноваций, продуктивности и просто веселья (и оставляет еще больше вопросов ко всяким hu.ma.ne) .
Кстати, а вы знаете какие-нибудь хорошо работающие методы фильтрации больших данных для обучения моделей? Поделитесь в комментариях, давайте обсудим! И все что касается методов weak supervision.
📚 Статья
🫥 Веса
Dall-E умеет генерировать картинки через OpenAI API
Оказалось, что Dall-E уже поддерживается в API. Можно выбрать разрешение и качество изображения. Пока не очень понимаю как это можно использовать. Есть мысли по юзкейсам?
Ссылка на API
from openai import OpenAI
client = OpenAI()
response = client.images.generate(
model="dall-e-3",
prompt='''A cyberpunk detective standing on a rooftop at sunset, overlooking a bustling cityscape with flying cars weaving through skyscrapers adorned with neon signs and holographic advertisements, all captured in a vivid, ultra-detailed art style. Close up''',
size="1792x1024",
quality="hd",
n=1,
)
image_url = response.data[0].url
Оказалось, что Dall-E уже поддерживается в API. Можно выбрать разрешение и качество изображения. Пока не очень понимаю как это можно использовать. Есть мысли по юзкейсам?
Ссылка на API
eventbright_concert (1).png
3.1 MB
Creative Upscaler
Пост про Dall-E это была подводка к этому посту. Помните Magnific (красивый, но дорогущий). Так вот, оказалось, что в открытом доступе есть такое же, но бесплатно!
Вчера, когда делал картинку для концерта моей жены, Dall-E мне нагенерировал какой-то жути с лицами (первый файл).
Благодаря Clarity Upscaler удалось вытянуть и получить красоту (второй файл, который я подужал, он был 40 мб)!
Ну и еще я расширил картинку по краям (uncrop) с помощью Generative Fill в Photoshop Beta.
🤗 Попробовать на HF
Пост про Dall-E это была подводка к этому посту. Помните Magnific (красивый, но дорогущий). Так вот, оказалось, что в открытом доступе есть такое же, но бесплатно!
Вчера, когда делал картинку для концерта моей жены, Dall-E мне нагенерировал какой-то жути с лицами (первый файл).
Благодаря Clarity Upscaler удалось вытянуть и получить красоту (второй файл, который я подужал, он был 40 мб)!
Ну и еще я расширил картинку по краям (uncrop) с помощью Generative Fill в Photoshop Beta.
🤗 Попробовать на HF
Лёгкие планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево. Теперь и код.
Помните модель DINOv2, которая могла измерять глубину экспозиции в кадре, и у которой есть удивительно благородное применение - для мониторинга лесов.
Мне это очень понравилось. Одно из важнейших составляющих благополучия - здоровье лёгких, верно? Получается, Meta и World Resources Institute сделали буквально КТ для планеты и первый почти медицинский снимок Земли.
Предиктор высоты крон деревьев - это ViT с SSL (Semi-Supervised Learning), обученный на 18 миллионах спутниковых снимков (в натуральных цветах с разрешением 0,5 м от Maxar Technologies), полученных в период 2009-2020 гг. В качестве group truth использовали данные LiDAR из США (датасет NEON). Средняя абсолютная ошибка - 2.8 метра.
Особенно классно, что она может принимать на вход снимки с дронов, приведённые к разрешению 0,5 м и схожему цветовому балансу.
В общем, исключительно универсальный и масштабируемый для различных экологических инициатив и исследований инструмент.
Сокровище доступно под лицензией Apache 2.0, т.е в т.ч для коммерческого использования. Го в YC с идеями по оценке декарбонизации, оценке усилий по рекультивации земель (как вам идея мониторить 29 миллионов деревьев в рамках проекта AFR100?), и количественному контроль за состоянием лесов.
Данные AWS
Красивое Google Earth Engine
Модель GitHub
Статья ScienceDirect
Помните модель DINOv2, которая могла измерять глубину экспозиции в кадре, и у которой есть удивительно благородное применение - для мониторинга лесов.
Мне это очень понравилось. Одно из важнейших составляющих благополучия - здоровье лёгких, верно? Получается, Meta и World Resources Institute сделали буквально КТ для планеты и первый почти медицинский снимок Земли.
Предиктор высоты крон деревьев - это ViT с SSL (Semi-Supervised Learning), обученный на 18 миллионах спутниковых снимков (в натуральных цветах с разрешением 0,5 м от Maxar Technologies), полученных в период 2009-2020 гг. В качестве group truth использовали данные LiDAR из США (датасет NEON). Средняя абсолютная ошибка - 2.8 метра.
Особенно классно, что она может принимать на вход снимки с дронов, приведённые к разрешению 0,5 м и схожему цветовому балансу.
В общем, исключительно универсальный и масштабируемый для различных экологических инициатив и исследований инструмент.
Сокровище доступно под лицензией Apache 2.0, т.е в т.ч для коммерческого использования. Го в YC с идеями по оценке декарбонизации, оценке усилий по рекультивации земель (как вам идея мониторить 29 миллионов деревьев в рамках проекта AFR100?), и количественному контроль за состоянием лесов.
Данные AWS
Красивое Google Earth Engine
Модель GitHub
Статья ScienceDirect
Q&A с Андреем Карпаты
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным словам, в свободном плаванье, снимает видосы на ютуб и пишет cuda kernels.
Это были безумно интересные и насыщенные 3 часа! Материала много, и мне не терпится им поделиться.
Дальше в канале подробный пересказ этой встречи (скорее всего в нескольких постах).
Q: Какой прогресс стоит ожидать от языковых моделей за следующие 2 года?
GPT-2 была игрушкой, GPT-3 была не очень полезна, GPT-4 - полезна. Резонно предположить, что GPT-5 будет очень полезна. Пока что мы двигаемся по линейному тренду, который в первую очередь обусловлен масштабом данных.
Q: Являются ли большие языковые модели (LLM) по сути извлечениями экспертных знаний?
Да, безусловно! Андрей Карпаты подтвердил, что LLM можно считать инструментом по извлечению экспертных знаний, и привел пример, иллюстрирующий этот тезис:
LLM способны легко переводить код с одного языка программирования на другой, например, он сам переводил свой код на языке C в код на языке Rust. Используя LLM для решения таких задач, пользователи попутно могут узнать много нового о языках и концепциях программирования. Так что получается, люди могут «дистиллировать» часть этой экспертности языковых моделей в себя.
Часть 2.
Часть 3.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным словам, в свободном плаванье, снимает видосы на ютуб и пишет cuda kernels.
Это были безумно интересные и насыщенные 3 часа! Материала много, и мне не терпится им поделиться.
Дальше в канале подробный пересказ этой встречи (скорее всего в нескольких постах).
Q: Какой прогресс стоит ожидать от языковых моделей за следующие 2 года?
GPT-2 была игрушкой, GPT-3 была не очень полезна, GPT-4 - полезна. Резонно предположить, что GPT-5 будет очень полезна. Пока что мы двигаемся по линейному тренду, который в первую очередь обусловлен масштабом данных.
Q: Являются ли большие языковые модели (LLM) по сути извлечениями экспертных знаний?
Да, безусловно! Андрей Карпаты подтвердил, что LLM можно считать инструментом по извлечению экспертных знаний, и привел пример, иллюстрирующий этот тезис:
LLM способны легко переводить код с одного языка программирования на другой, например, он сам переводил свой код на языке C в код на языке Rust. Используя LLM для решения таких задач, пользователи попутно могут узнать много нового о языках и концепциях программирования. Так что получается, люди могут «дистиллировать» часть этой экспертности языковых моделей в себя.
Часть 2.
Часть 3.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Часть 2. Q&A с Андреем Карпаты
Q: Как можно ипользовать AI для взаимодействия с физическим миром?
По сравнению с виртуальными мирами, физический мир намного сложнее:
1. Представление данных: В физическом мире сложнее представить данные в формате, совместимом с AI. Определение соответствующих "токенов" или единиц информации имеет решающее значение для эффективной интеграции.
2. Нехватка данных: По сравнению с виртуальными мирами, у людей есть намного меньше данных о физическом мире (и не понятно что считать данными).
Для интеграции AI в физический мир, имеет смысл:
1. Разбить проблему на более мелкие подзадачки, которые можно решать по отдельности.
2. Для каждой из таких подзадач использовать предварительно обученные модели или компоненты, которые уже обучались на огромном количестве данных, даже если они не имеют прямого отношения к физическому миру.
Q: Сколько накатанных миль достаточно для разработки надежных беспилотников, таких как Autopilot компании Tesla?
Андрей поделился интересным взглядом на развитие технологий автономного вождения. Он рассказал о своей первой поездке в беспилотном автомобиле Waymo, которая состоялась 10 лет назад. Несмотря на то, что вождение было идеальным, Waymo потребовалось десятилетие, чтобы запустить коммерческий продукт, за который платят клиенты. Это свидетельствует о значительной "задержке между демонстрацией и продуктом" - разрыве во времени между созданием рабочего прототипа и выводом на рынок надежного, коммерчески жизнеспособного продукта.
Медленные темпы изменений в этой области поражают воображение, Андрей пошутил, что когда искусственный интеллект общего назначения (AGI) будет готов, его почти никто не заметит (так же как большинство людей на планете не замечают беспилотники). Хотя Waymo добилась значительного прогресса, их юнит экономика пока не работает.
В отличие от Waymo, Tesla использует уникальный подход к технологии автономного вождения. Они сосредоточены на программном обеспечении и полагаются исключительно на компьютерное зрение в своей системе Autopilot, отказываясь от дорогостоящего оборудования, такого как датчики LiDAR. Эта стратегия, ориентированная на программное обеспечение, позволит Tesla быстро масштабироваться, как только она достигнет полной автономности вождения. Когда этот рубеж будет достигнут, весь автопарк Tesla можно будет обновить с помощью нового программного обеспечения, что обеспечит быстрый переход к экосистеме автономного вождения и позволит компании использовать эффект масштаба. Андрей называет этот момент - пробуждение флота (fleet-awakening).
Сложно определить точное количество миль, необходимых для создания надежной системы автономного вождения. Однако очевидно, что оно не возможно без сбора и обработки огромного количества данных о реальном вождении. Различные подходы, применяемые Waymo и Tesla, подчеркивают, что компании используют различные стратегии для вывода на рынок самоуправляемых автомобилей, каждая из которых имеет свои собственные уникальные проблемы и возможности.
Q: Как вы начали создавать образовательные видеоролики об ИИ на YouTube?
Андрей говорит, ну я написал код которым очень гордился, а никто вообще не понял в чем прикол. Пришлось объяснять.
Основные соображения такие:
1. Он осознал, что многие люди не до конца понимают элегантность его кода, поэтому ему захотелось доходчиво пояснить.
2. Андрей подчеркнул важность того, чтобы бы пояснять сложные концепции и проекты. Даже у умных людей часто не хватает времени на то, чтобы вникать в детали. Чем проще объяснишь - тем больше людей сможет воспользоваться этими знаниями.
Делясь своими знаниями через канал на YouTube, Андрей не только помог другим понять его работу, но и создал платформу для более широкого вовлечения и обсуждения. Зацените его канал, на нем уже 446 тысяч подписчиков.
Часть 1.
Часть 3.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Q: Как можно ипользовать AI для взаимодействия с физическим миром?
По сравнению с виртуальными мирами, физический мир намного сложнее:
1. Представление данных: В физическом мире сложнее представить данные в формате, совместимом с AI. Определение соответствующих "токенов" или единиц информации имеет решающее значение для эффективной интеграции.
2. Нехватка данных: По сравнению с виртуальными мирами, у людей есть намного меньше данных о физическом мире (и не понятно что считать данными).
Для интеграции AI в физический мир, имеет смысл:
1. Разбить проблему на более мелкие подзадачки, которые можно решать по отдельности.
2. Для каждой из таких подзадач использовать предварительно обученные модели или компоненты, которые уже обучались на огромном количестве данных, даже если они не имеют прямого отношения к физическому миру.
Q: Сколько накатанных миль достаточно для разработки надежных беспилотников, таких как Autopilot компании Tesla?
Андрей поделился интересным взглядом на развитие технологий автономного вождения. Он рассказал о своей первой поездке в беспилотном автомобиле Waymo, которая состоялась 10 лет назад. Несмотря на то, что вождение было идеальным, Waymo потребовалось десятилетие, чтобы запустить коммерческий продукт, за который платят клиенты. Это свидетельствует о значительной "задержке между демонстрацией и продуктом" - разрыве во времени между созданием рабочего прототипа и выводом на рынок надежного, коммерчески жизнеспособного продукта.
Медленные темпы изменений в этой области поражают воображение, Андрей пошутил, что когда искусственный интеллект общего назначения (AGI) будет готов, его почти никто не заметит (так же как большинство людей на планете не замечают беспилотники). Хотя Waymo добилась значительного прогресса, их юнит экономика пока не работает.
В отличие от Waymo, Tesla использует уникальный подход к технологии автономного вождения. Они сосредоточены на программном обеспечении и полагаются исключительно на компьютерное зрение в своей системе Autopilot, отказываясь от дорогостоящего оборудования, такого как датчики LiDAR. Эта стратегия, ориентированная на программное обеспечение, позволит Tesla быстро масштабироваться, как только она достигнет полной автономности вождения. Когда этот рубеж будет достигнут, весь автопарк Tesla можно будет обновить с помощью нового программного обеспечения, что обеспечит быстрый переход к экосистеме автономного вождения и позволит компании использовать эффект масштаба. Андрей называет этот момент - пробуждение флота (fleet-awakening).
Сложно определить точное количество миль, необходимых для создания надежной системы автономного вождения. Однако очевидно, что оно не возможно без сбора и обработки огромного количества данных о реальном вождении. Различные подходы, применяемые Waymo и Tesla, подчеркивают, что компании используют различные стратегии для вывода на рынок самоуправляемых автомобилей, каждая из которых имеет свои собственные уникальные проблемы и возможности.
Q: Как вы начали создавать образовательные видеоролики об ИИ на YouTube?
Андрей говорит, ну я написал код которым очень гордился, а никто вообще не понял в чем прикол. Пришлось объяснять.
Основные соображения такие:
1. Он осознал, что многие люди не до конца понимают элегантность его кода, поэтому ему захотелось доходчиво пояснить.
2. Андрей подчеркнул важность того, чтобы бы пояснять сложные концепции и проекты. Даже у умных людей часто не хватает времени на то, чтобы вникать в детали. Чем проще объяснишь - тем больше людей сможет воспользоваться этими знаниями.
Делясь своими знаниями через канал на YouTube, Андрей не только помог другим понять его работу, но и создал платформу для более широкого вовлечения и обсуждения. Зацените его канал, на нем уже 446 тысяч подписчиков.
Часть 1.
Часть 3.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Telegram
AI Для Всех
Q&A с Андреем Карпаты
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…
Часть 3. Q&A с Андреем Карпаты
Q: В чем разница между сенсорным восприятием, в частности зрением, и ИИ с точки зрения обработки данных и моделирования?
- Разнообразие восприятия: Существует множество способов восприятия мира, каждый из которых имеет свои уникальные характеристики и проблемы.
- Концентрированное восприятие: Текст - чрезвычайно концентрированная модальность по сравнению с другими модальностями, например зрением.
- Обработка визуальной информации, например видео, требует значительно большего объема памяти, зачастую исчисляемого петабайтами.
- Опыт Tesla: В Tesla значительная часть усилий была направлена на оптимизацию пайплайна поглощения данных для обработки огромного количества визуальных данных.
- Соотношение сигнал/шум: Соотношение сигнал/шум варьируется в разных модальностях. Текстовые данные, как правило, имеют более высокое отношение сигнал/шум, в то время как видео часто содержит больше шума по сравнению с релевантной информацией. В случае с видео шум означает, что лишь небольшая часть пикселей может быть полезна для решения конкретной задачи (например, задний красный фонарь автомобиля занимает всего 6 пикселей), в то время как остальные миллионы пикселей по сути бесполезны.
- Фундаментальные (foundational) модели зрения в настоящее время обучаются с использованием дискриминативных подходов, в отличие от генеративных методов, применяемых при обучении больших языковых моделей (LLM). Это различие в методологии обучения влияет на возможности и сферы применения визуального ИИ по сравнению с языковым ИИ.
Q: Что такое искусственный интеллект общего назначения (AGI) и что общего между AGI и агентами?
- Определение AGI: Общепринятое определение AGI - это компьютерная система, которая может выполнять задачи на уровне человека с высшим образованием.
- Агенты и LLM: Агенты - это подход к автоматизации, который предполагает построение while loops вокруг больших языковых моделей (LLM). Эти циклы позволяют LLM взаимодействовать и выполнять задачи в различных средах.
- Текущие ограничения: В настоящее время агенты не отличаются высокой надежностью, что препятствует их широкому распространению и практическому применению.
- Подход компании Tesla: При разработке автономного вождения в Tesla масштабировали возможности системы по частям, начиная с базовых функций, таких как движение по прямой и удержание полосы, и постепенно переходя к более сложным задачам.
- Проектирование агентов: При создании агентов очень важно продумать пользовательский интерфейс и пользовательский опыт (UI/UX), особенно для сценариев, в которых агент может работать не так, как ожидалось. Проектирование агентов с учетом их надежности (reliability) необходимо для их комерческого успеха.
Часть 1.
Часть 2.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Q: В чем разница между сенсорным восприятием, в частности зрением, и ИИ с точки зрения обработки данных и моделирования?
- Разнообразие восприятия: Существует множество способов восприятия мира, каждый из которых имеет свои уникальные характеристики и проблемы.
- Концентрированное восприятие: Текст - чрезвычайно концентрированная модальность по сравнению с другими модальностями, например зрением.
- Обработка визуальной информации, например видео, требует значительно большего объема памяти, зачастую исчисляемого петабайтами.
- Опыт Tesla: В Tesla значительная часть усилий была направлена на оптимизацию пайплайна поглощения данных для обработки огромного количества визуальных данных.
- Соотношение сигнал/шум: Соотношение сигнал/шум варьируется в разных модальностях. Текстовые данные, как правило, имеют более высокое отношение сигнал/шум, в то время как видео часто содержит больше шума по сравнению с релевантной информацией. В случае с видео шум означает, что лишь небольшая часть пикселей может быть полезна для решения конкретной задачи (например, задний красный фонарь автомобиля занимает всего 6 пикселей), в то время как остальные миллионы пикселей по сути бесполезны.
- Фундаментальные (foundational) модели зрения в настоящее время обучаются с использованием дискриминативных подходов, в отличие от генеративных методов, применяемых при обучении больших языковых моделей (LLM). Это различие в методологии обучения влияет на возможности и сферы применения визуального ИИ по сравнению с языковым ИИ.
Q: Что такое искусственный интеллект общего назначения (AGI) и что общего между AGI и агентами?
- Определение AGI: Общепринятое определение AGI - это компьютерная система, которая может выполнять задачи на уровне человека с высшим образованием.
- Агенты и LLM: Агенты - это подход к автоматизации, который предполагает построение while loops вокруг больших языковых моделей (LLM). Эти циклы позволяют LLM взаимодействовать и выполнять задачи в различных средах.
- Текущие ограничения: В настоящее время агенты не отличаются высокой надежностью, что препятствует их широкому распространению и практическому применению.
- Подход компании Tesla: При разработке автономного вождения в Tesla масштабировали возможности системы по частям, начиная с базовых функций, таких как движение по прямой и удержание полосы, и постепенно переходя к более сложным задачам.
- Проектирование агентов: При создании агентов очень важно продумать пользовательский интерфейс и пользовательский опыт (UI/UX), особенно для сценариев, в которых агент может работать не так, как ожидалось. Проектирование агентов с учетом их надежности (reliability) необходимо для их комерческого успеха.
Часть 1.
Часть 2.
Часть 4.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Telegram
AI Для Всех
Q&A с Андреем Карпаты
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…
Часть 4. Q&A с Андреем Карпаты
Q: Почему вы не работаете в Nvidia, учитывая, что масштаб имеет решающее значение для ИИ и требует большего количества параллельных вычислений?
- Нейронные сети (NN) против обычных компьютеров: NN имеют соврешенно другую структуру вычислений по сравнению с обычными компьютерами. В то время как обычные компьютеры часто используют 32-битную точность с плавающей запятой (Float32), NN могут хорошо работать всего с несколькими битами. Это различие требует значительных изменений в вычислительных процессах.
- Личные интересы: Хотя в университетские годы Андрей не особенно увлекался математикой и алгоритмами, его очень интересовали системы. Он считает, что системы играют решающую роль в развитии и прогрессе ИИ.
- Конкуренция на рынке ускорителей ИИ: Многие компании пытались конкурировать с Nvidia на рынке ускорителей для ИИ. Однако в настоящее время Nvidia занимает доминирующее положение, и ситуация развивается по сценарию "победитель получает все".
- Важность масштаба: Масштаб - самый важный фактор в развитии ИИ. Большие модели и наборы данных, как правило, дают более высокую производительность и впечатляющие результаты.
- Фокус на данных: В настоящее время все больше внимания уделяется созданию и хранению данных для обучения ИИ. Организации серьезно относятся к масштабированию, а некоторые даже подключают атомные электростанции к центрам обработки данных, чтобы обеспечить достаточное энергоснабжение для масштабных рабочих нагрузок ИИ. Эти усилия являются частью пайплайна к AGI (those efforts are down the pipe for some orgs for the next couple of years)
Q: Как далеко может завести нас масштаб больших языковых моделей (LLM)? Есть ли предел для имитационного обучения?
- Современный подход к AGI: AlphaGO, система ИИ, освоившая игру Го, вероятно, является лучшим современным подходом к AGI.
Она включает в себя два этапа:
Этап 1: immitation learning, когда ИИ учится на основе данных и поведения человека.
Этап 2: обучение с подкреплением (RL), когда ИИ играет в игры и учится на собственном опыте.
- LLM и имитационное обучение: В своем нынешнем состоянии LLM находятся только на первой стадии - имитационного обучения. Они учатся на огромных объемах данных, генерируемых человеком, но не участвуют в настоящем RL.
- Ограничения RLHF: RLHF, хотя и имеет в своем названии слово "RL", на самом деле не является RL в смысле Стадии 2. Вместо этого RLHF - это скорее vibe check model, которая алайнит LLM с тем, что нравится человеку. Однако у нее нет конкретной цели, такой как победа или поражение в игре.
- Масштабирование LLM и имитационное обучение: Хотя дальнейшее масштабирование данных для LLM скорее всего приведет к их значительному улучшению, возможно, существует предел того, как далеко этот подход может завести нас с точки зрения достижения AGI.
- Требования к RL: Для того, что бы называть систему - RL системой, она должна иметь четко определенную цель и ключевые метрики для измерения успеха. В случае с языковыми моделями неясно, какой должна быть функция вознаграждения для таких задач, как письмо.
- Психология модели по сравнению с психологией человека: Психология моделей ИИ отличается от психологии людей. Модели могут находить легкими определенные задачи, которые человек считает сложными, и наоборот (а еще существует reward hacking). Полагаться только на человеческую интуицию при разработке ИИ может быть недостаточно, поскольку человек не всегда понимает, что модель знает, а чего не знает.
Часть 1.
Часть 2.
Часть 3.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Q: Почему вы не работаете в Nvidia, учитывая, что масштаб имеет решающее значение для ИИ и требует большего количества параллельных вычислений?
- Нейронные сети (NN) против обычных компьютеров: NN имеют соврешенно другую структуру вычислений по сравнению с обычными компьютерами. В то время как обычные компьютеры часто используют 32-битную точность с плавающей запятой (Float32), NN могут хорошо работать всего с несколькими битами. Это различие требует значительных изменений в вычислительных процессах.
- Личные интересы: Хотя в университетские годы Андрей не особенно увлекался математикой и алгоритмами, его очень интересовали системы. Он считает, что системы играют решающую роль в развитии и прогрессе ИИ.
- Конкуренция на рынке ускорителей ИИ: Многие компании пытались конкурировать с Nvidia на рынке ускорителей для ИИ. Однако в настоящее время Nvidia занимает доминирующее положение, и ситуация развивается по сценарию "победитель получает все".
- Важность масштаба: Масштаб - самый важный фактор в развитии ИИ. Большие модели и наборы данных, как правило, дают более высокую производительность и впечатляющие результаты.
- Фокус на данных: В настоящее время все больше внимания уделяется созданию и хранению данных для обучения ИИ. Организации серьезно относятся к масштабированию, а некоторые даже подключают атомные электростанции к центрам обработки данных, чтобы обеспечить достаточное энергоснабжение для масштабных рабочих нагрузок ИИ. Эти усилия являются частью пайплайна к AGI (those efforts are down the pipe for some orgs for the next couple of years)
Q: Как далеко может завести нас масштаб больших языковых моделей (LLM)? Есть ли предел для имитационного обучения?
- Современный подход к AGI: AlphaGO, система ИИ, освоившая игру Го, вероятно, является лучшим современным подходом к AGI.
Она включает в себя два этапа:
Этап 1: immitation learning, когда ИИ учится на основе данных и поведения человека.
Этап 2: обучение с подкреплением (RL), когда ИИ играет в игры и учится на собственном опыте.
- LLM и имитационное обучение: В своем нынешнем состоянии LLM находятся только на первой стадии - имитационного обучения. Они учатся на огромных объемах данных, генерируемых человеком, но не участвуют в настоящем RL.
- Ограничения RLHF: RLHF, хотя и имеет в своем названии слово "RL", на самом деле не является RL в смысле Стадии 2. Вместо этого RLHF - это скорее vibe check model, которая алайнит LLM с тем, что нравится человеку. Однако у нее нет конкретной цели, такой как победа или поражение в игре.
- Масштабирование LLM и имитационное обучение: Хотя дальнейшее масштабирование данных для LLM скорее всего приведет к их значительному улучшению, возможно, существует предел того, как далеко этот подход может завести нас с точки зрения достижения AGI.
- Требования к RL: Для того, что бы называть систему - RL системой, она должна иметь четко определенную цель и ключевые метрики для измерения успеха. В случае с языковыми моделями неясно, какой должна быть функция вознаграждения для таких задач, как письмо.
- Психология модели по сравнению с психологией человека: Психология моделей ИИ отличается от психологии людей. Модели могут находить легкими определенные задачи, которые человек считает сложными, и наоборот (а еще существует reward hacking). Полагаться только на человеческую интуицию при разработке ИИ может быть недостаточно, поскольку человек не всегда понимает, что модель знает, а чего не знает.
Часть 1.
Часть 2.
Часть 3.
Часть 5.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Часть 5. Q&A с Андреем Карпаты
Q: Каковы перспективы носимых устройств с искусственным интеллектом?
- Текущее положение Apple: В настоящее время Apple испытывает трудности на рынке носимых устройств с искусственным интеллектом, несмотря на наличие многих необходимых компонентов для успеха.
- Преимущества Apple: Одним из ключевых преимуществ Apple являются собственные чипы, который хорошо подходят для приложений искусственного интеллекта и машинного обучения. Используя собственные чипы, Apple может создать мощные и эффективные носимые устройства с искусственным интеллектом.
- Существующая инфраструктура: У Apple уже есть сильная экосистема и инфраструктура, включая аппаратное и программное обеспечение, а также большая пользовательская база. Это ставит их в выгодное положение для успеха на рынке носимых устройств с искусственным интеллектом, если они смогут воспользоваться этими ресурсами.
- Необходим мощный толчок: Чтобы добиться успеха на рынке носимых устройств с искусственным интеллектом, Apple необходимо приложить согласованные усилия и выделить достаточное количество ресурсов на эту сферу. Карпаты надеется, что Apple осознает эту возможность и приложит необходимые усилия, чтобы стать лидером на рынке.
- Библиотека MLX: Apple разработала MLX, фреймворк для исследований в области машинного обучения на кремнии Apple. MLX имеет удобный Python API, похожий на NumPy, а также C++, C и Swift API. Он поддерживает композитные преобразования функций, ленивые вычисления, динамическое построение графов и операции с несколькими устройствами. MLX разработан так, чтобы быть эффективным и легким для исследователей в плане расширения и улучшения. Но с ним есть одна проблема, кажется - это усилия довольно маленькиой и маргинальной группы внутри Apple.
Q: Как должно измениться определение 10x-инженеров и учебная программа по мере совершенствования генерации кода?
- 10x инженеры останутся: Несмотря на прогресс в генерации кода, 10x инженеры будут оставаться ценными до тех пор, пока не будет создан полностью автономный искусственный интеллект (AGI). Их навыки и опыт будут востребованы по мере развития технологий.
- Изменения в программировании: Появление больших языковых моделей (LLM) уже начало менять ландшафт программирования. По мере совершенствования возможностей генерации кода будут меняться методы работы разработчиков и необходимые им навыки.
- Появление "прото-репетиторов": В сфере образования набирают популярность "прото-тьюторы". Эти управляемые искусственным интеллектом обучающие системы способны совершить революцию в том, как студенты учатся и получают знания.
- Проблемы UI/UX: Несмотря на многообещающие возможности прототипов, все еще существуют проблемы, которые необходимо решить с точки зрения пользовательского интерфейса и пользовательского опыта (UI/UX). Разработка эффективного и увлекательного образовательного опыта с использованием ИИ потребует постоянных исследований и разработок.
- Отказ от традиционного школьного образования: Андрей выразил свой скептицизм по поводу будущего традиционного школьного образования в свете этих технологических достижений. Он считает, что образование движется в сторону более автономного и персонализированного подхода, обусловленного ИИ и другими развивающимися технологиями.
- Прогресс на пути к полной автономии: Конечной целью является достижение полной автономии в различных сферах, включая образование и разработку программного обеспечения. По мере того как системы ИИ будут становиться все более сложными и способными, они будут все чаще брать на себя задачи, которые раньше были уделом человеческих экспертов.
Часть 1.
Часть 2.
Часть 3.
Часть 4.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Q: Каковы перспективы носимых устройств с искусственным интеллектом?
- Текущее положение Apple: В настоящее время Apple испытывает трудности на рынке носимых устройств с искусственным интеллектом, несмотря на наличие многих необходимых компонентов для успеха.
- Преимущества Apple: Одним из ключевых преимуществ Apple являются собственные чипы, который хорошо подходят для приложений искусственного интеллекта и машинного обучения. Используя собственные чипы, Apple может создать мощные и эффективные носимые устройства с искусственным интеллектом.
- Существующая инфраструктура: У Apple уже есть сильная экосистема и инфраструктура, включая аппаратное и программное обеспечение, а также большая пользовательская база. Это ставит их в выгодное положение для успеха на рынке носимых устройств с искусственным интеллектом, если они смогут воспользоваться этими ресурсами.
- Необходим мощный толчок: Чтобы добиться успеха на рынке носимых устройств с искусственным интеллектом, Apple необходимо приложить согласованные усилия и выделить достаточное количество ресурсов на эту сферу. Карпаты надеется, что Apple осознает эту возможность и приложит необходимые усилия, чтобы стать лидером на рынке.
- Библиотека MLX: Apple разработала MLX, фреймворк для исследований в области машинного обучения на кремнии Apple. MLX имеет удобный Python API, похожий на NumPy, а также C++, C и Swift API. Он поддерживает композитные преобразования функций, ленивые вычисления, динамическое построение графов и операции с несколькими устройствами. MLX разработан так, чтобы быть эффективным и легким для исследователей в плане расширения и улучшения. Но с ним есть одна проблема, кажется - это усилия довольно маленькиой и маргинальной группы внутри Apple.
Q: Как должно измениться определение 10x-инженеров и учебная программа по мере совершенствования генерации кода?
- 10x инженеры останутся: Несмотря на прогресс в генерации кода, 10x инженеры будут оставаться ценными до тех пор, пока не будет создан полностью автономный искусственный интеллект (AGI). Их навыки и опыт будут востребованы по мере развития технологий.
- Изменения в программировании: Появление больших языковых моделей (LLM) уже начало менять ландшафт программирования. По мере совершенствования возможностей генерации кода будут меняться методы работы разработчиков и необходимые им навыки.
- Появление "прото-репетиторов": В сфере образования набирают популярность "прото-тьюторы". Эти управляемые искусственным интеллектом обучающие системы способны совершить революцию в том, как студенты учатся и получают знания.
- Проблемы UI/UX: Несмотря на многообещающие возможности прототипов, все еще существуют проблемы, которые необходимо решить с точки зрения пользовательского интерфейса и пользовательского опыта (UI/UX). Разработка эффективного и увлекательного образовательного опыта с использованием ИИ потребует постоянных исследований и разработок.
- Отказ от традиционного школьного образования: Андрей выразил свой скептицизм по поводу будущего традиционного школьного образования в свете этих технологических достижений. Он считает, что образование движется в сторону более автономного и персонализированного подхода, обусловленного ИИ и другими развивающимися технологиями.
- Прогресс на пути к полной автономии: Конечной целью является достижение полной автономии в различных сферах, включая образование и разработку программного обеспечения. По мере того как системы ИИ будут становиться все более сложными и способными, они будут все чаще брать на себя задачи, которые раньше были уделом человеческих экспертов.
Часть 1.
Часть 2.
Часть 3.
Часть 4.
Часть 6.
Часть 7.
Часть 8.
Часть 9.
Часть 10.
Часть 11.
Часть 12.
Часть 13.
Продолжение следует
Telegram
AI Для Всех
Q&A с Андреем Карпаты
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…
Вчера сходил на закрытую встречу с Андреем Карпаты - одним из самых интересных людей в мире искусственного интеллекта.
Андрей один из фаундеров OpenAI, и бывший директор по искусственному интеллекту в Tesla. Сейчас он, по его собственным…