Воскресная задача: на этот раз собираем датасет для GPT
Прежде, чем обучать языковую модель, для нее нужно собрать данные. Для этого берется большой кусок текста и на нем мы учим модель предсказывать следующий токен по предыдущему.
В общем, предлагаем потренироваться и ждем ваш код в комментарии!
Прежде, чем обучать языковую модель, для нее нужно собрать данные. Для этого берется большой кусок текста и на нем мы учим модель предсказывать следующий токен по предыдущему.
В общем, предлагаем потренироваться и ждем ваш код в комментарии!
👍28😐8🔥4🤯3❤2😁1
Недавно Google представили свою новую Gemini 1.5 Pro. По качеству она сравнима с GPT-4. Особенного внимания достоин контекст размеров 1 млн (!) токенов, а еще скорость и экономный расход ресурсов.
Таких результатов исследователи достигли за счет использования архитектуры Mixture of Experts. Вот путь исследований корпорации, который привел их к MoE (by Jeff Dean):
2017: Shazeer et al.. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. ICLR 2017. Читать.
2020: Lepikhin et al., GShard: Scaling giant models with conditional computation and automatic sharding. ICLR 2020. Читать.
2021: Carlos Riquelme et al., Scaling vision with sparse mixture of experts, NeurIPS 2021. Читать.
2021: Fedus et al., Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. JMLR 2022. Читать.
2022: Clark et al., Unified scaling laws for routed language models, ICML 2022. Читать.
2022: Zoph et al., Designing effective sparse expert models. Читать.
Таких результатов исследователи достигли за счет использования архитектуры Mixture of Experts. Вот путь исследований корпорации, который привел их к MoE (by Jeff Dean):
2017: Shazeer et al.. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. ICLR 2017. Читать.
2020: Lepikhin et al., GShard: Scaling giant models with conditional computation and automatic sharding. ICLR 2020. Читать.
2021: Carlos Riquelme et al., Scaling vision with sparse mixture of experts, NeurIPS 2021. Читать.
2021: Fedus et al., Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. JMLR 2022. Читать.
2022: Clark et al., Unified scaling laws for routed language models, ICML 2022. Читать.
2022: Zoph et al., Designing effective sparse expert models. Читать.
👍24🔥6❤🔥3
Что будет с AI в 2024?
Весь нынешний движ в ИИ напоминает 90-е с их появлением Интернета. Каждый день что-то новое, за всем уследить почти невозможно (даже мы не всегда справляемся). Чтобы не теряться, вот вам некоторые прогнозы от аналитиков:
– В 2022 индустрия ИИ была на уровне $86.9 миллиардов. По прогнозам, к 2027, она достигнет объема $407 миллиардов.
– Вопреки стереотипу, аналитики утверждают, что ИИ даст миру 97 миллионов новых рабочих мест.
– Про бизнес: 67% предприятий ожидают, что в ближайшие годы внедрят ИИ и оптимизируют с помощью него свои процессы.
– Особенно радующие новости: по словам Джеффри Хинтона, в течение 10 лет ИИ полностью избавит мир от неверных медицинских диагнозов.
– Intel недавно выпустили большую статью (highly recommend), в которой предсказали главные тренды ИИ на 2024. Среди них мультимодальные системы, разработка опенсурс LLM уровня GPT-4, распространение API для ИИ-систем, внедрение agent frameworks и векторных бд, революция Copilot и, конечно, всякого рода alignment.
😻 Теперь вы в курсе.
Весь нынешний движ в ИИ напоминает 90-е с их появлением Интернета. Каждый день что-то новое, за всем уследить почти невозможно (даже мы не всегда справляемся). Чтобы не теряться, вот вам некоторые прогнозы от аналитиков:
– В 2022 индустрия ИИ была на уровне $86.9 миллиардов. По прогнозам, к 2027, она достигнет объема $407 миллиардов.
– Вопреки стереотипу, аналитики утверждают, что ИИ даст миру 97 миллионов новых рабочих мест.
– Про бизнес: 67% предприятий ожидают, что в ближайшие годы внедрят ИИ и оптимизируют с помощью него свои процессы.
– Особенно радующие новости: по словам Джеффри Хинтона, в течение 10 лет ИИ полностью избавит мир от неверных медицинских диагнозов.
– Intel недавно выпустили большую статью (highly recommend), в которой предсказали главные тренды ИИ на 2024. Среди них мультимодальные системы, разработка опенсурс LLM уровня GPT-4, распространение API для ИИ-систем, внедрение agent frameworks и векторных бд, революция Copilot и, конечно, всякого рода alignment.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥7❤🔥4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
POV: ты в роли проджекта на хакатоне
😁100👍11❤6🔥2
Meta* представила SPAR: Personalized Content-Based Recommendation via Long Engagement Attention
Это новый метод для персонализированных рекомендаций по контенту с использованием LLM. Концепция брать что-то из NLP и применять в рексис далеко не новая (BERT4Rec привет!), но это – однозначно новый уровень.
Языковые модели тут используются для анализа долгосрочной истории взаимодействия пользователя и для извлечения из нее его глобальных интересов.
Статья
Это новый метод для персонализированных рекомендаций по контенту с использованием LLM. Концепция брать что-то из NLP и применять в рексис далеко не новая (BERT4Rec привет!), но это – однозначно новый уровень.
Языковые модели тут используются для анализа долгосрочной истории взаимодействия пользователя и для извлечения из нее его глобальных интересов.
Статья
❤28👍7🔥7💅2
То, чего все мы так ждали. Adobe Acrobat внедряет генеративный ИИ для работы с документами.
Инструмент сможет суммаризировать текст, отвечать на вопросы по нему (и даже будет сам предлагать вопросы, которые могли возникли у читателя), порекомендовать что-то дополнительное по итогам прочитанного, и прочее и прочее.
Пока на этапе бета-тестирования.
Инструмент сможет суммаризировать текст, отвечать на вопросы по нему (и даже будет сам предлагать вопросы, которые могли возникли у читателя), порекомендовать что-то дополнительное по итогам прочитанного, и прочее и прочее.
Пока на этапе бета-тестирования.
👍34🔥9👌3❤1
Недавно вышедшая статья исследователей из Тинькофф произвела фурор и заняла первое место в подборке Daily Papers
Статья называется Linear Transformers with Learnable Kernel Functions are Better In-Context Models и она про улучшение модели Based. Оригинальный Based сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, однако плохо справляется с длинным контекстом.
Чтобы это исправить, в статье ребята разработали другую концепцию ядра для модели, и им удалось побить старый скор. Поздравляем коллег!
Статья
Статья называется Linear Transformers with Learnable Kernel Functions are Better In-Context Models и она про улучшение модели Based. Оригинальный Based сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, однако плохо справляется с длинным контекстом.
Чтобы это исправить, в статье ребята разработали другую концепцию ядра для модели, и им удалось побить старый скор. Поздравляем коллег!
Статья
🔥118👍12❤6🍌1
Помните, мы говорили, что Карпатый уволился из OpenAI и шутили про продуктивность?
Так вот – это больше не шутка. Всего за неделю он:
1) Написал from scratch реализацию популярного LLM-ного токенизатора BPE (читайте про нее в нашем посте)
2) Выпустил лекцию про токенизацию в LLM со всеми подробностями на 2 часа.
Ну мед 🍯
Так вот – это больше не шутка. Всего за неделю он:
1) Написал from scratch реализацию популярного LLM-ного токенизатора BPE (читайте про нее в нашем посте)
2) Выпустил лекцию про токенизацию в LLM со всеми подробностями на 2 часа.
Ну мед 🍯
👍91❤14🔥11🤯5❤🔥2⚡1
RNN в картинках
Объясняем как работют рекуррентные нейронные сети по такому рецепту: минимум слов, максимум схем и примеров.
Объясняем как работют рекуррентные нейронные сети по такому рецепту: минимум слов, максимум схем и примеров.
👍53🔥15❤6
Gemini, Gemma, Goose. Это только несколько названий ИИ-продуктов, которые Google презентовала в последнее время.
Goose – это новая внутренняя разработка компании, призванная помочь сотрудникам в программировании. Модель может написать, дописать код, пофиксить баги или провести рефакторинг. Она основана на Gemini и дообучена на коде, созданном в компании за 25 лет.
Gemma – новоиспеченная открытая(!) LLM от Google, ставшая SOTA. Есть коммерческая лицензия, и на тестах модель превосходит Mistral AI 7B и LLaMa 2 на Human Eval и MMLU. Есть в варианте 2B и 7B. А еще Gemma можно развернуть на локалке или в облаке Google.
Goose – это новая внутренняя разработка компании, призванная помочь сотрудникам в программировании. Модель может написать, дописать код, пофиксить баги или провести рефакторинг. Она основана на Gemini и дообучена на коде, созданном в компании за 25 лет.
Gemma – новоиспеченная открытая(!) LLM от Google, ставшая SOTA. Есть коммерческая лицензия, и на тестах модель превосходит Mistral AI 7B и LLaMa 2 на Human Eval и MMLU. Есть в варианте 2B и 7B. А еще Gemma можно развернуть на локалке или в облаке Google.
🔥27👍4❤2