🦙 Llama3-from-scratch
Очень подробный гайд по созданию LLaMa-3 с нуля!
Крутой репозиторий, в котором реализована llama 3 с нуля - умножение матриц с помощью multiple heads, позиционное кодирование (способ кодирования позиции слова внутри эмбеддинга), реализация механизма внимания и все остальное, здесь тщательно описано и объяснено.
Отличный репо для обучения, 3 к звезд за сутки⭐️.
▪Github
@ai_machinelearning_big_data
Очень подробный гайд по созданию LLaMa-3 с нуля!
Крутой репозиторий, в котором реализована llama 3 с нуля - умножение матриц с помощью multiple heads, позиционное кодирование (способ кодирования позиции слова внутри эмбеддинга), реализация механизма внимания и все остальное, здесь тщательно описано и объяснено.
Отличный репо для обучения, 3 к звезд за сутки⭐️.
▪Github
@ai_machinelearning_big_data
🔥43👍12❤3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting
Только что был выпущен код для генерации 3D объектов с помощью Гауссовских сплатов.
Новый фреймворк обеспечивает высокое качество генераций и рендеринга всего по четырем входными изображениями.
▪Github: https://github.com/GaussianObject/GaussianObject
▪Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
▪Project: https://gaussianobject.github.io
@ai_machinelearning_big_data
Только что был выпущен код для генерации 3D объектов с помощью Гауссовских сплатов.
Новый фреймворк обеспечивает высокое качество генераций и рендеринга всего по четырем входными изображениями.
git clone https://github.com/GaussianObject/GaussianObject.git --recursive
▪Github: https://github.com/GaussianObject/GaussianObject
▪Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
▪Project: https://gaussianobject.github.io
@ai_machinelearning_big_data
🔥22👍13❤2
Исследователи из Google DeepMind и Университета Южной Калифорнии представили революционный подход к повышению способности к рассуждению больших языковых моделей (LLM). Их новая система «SELF-DISCOVER», презентованная на этой неделе на arXiV и Hugging Face, обещает существенные улучшения в решении сложных задач рассуждениий, потенциально революционизируя производительность ведущих моделей, таких как GPT-4 от OpenAI и PaLM 2.
Система демонстрирует повышение производительности до 32% по сравнению с традиционными методами, такими как цепочка мыслей (CoT). Этот подход основан на том, что LLM самостоятельно раскрывают внутренние структуры рассуждений, присущие задачам, для решения сложных проблем, например таких, как критическое мышление или пошаговый анализ.
Имитируя человеческие стратегии решения проблем, эта система работает в два этапа. Первый этап включает в себя составление связной структуры рассуждений, свойственной задаче, с использованием набора атомарных модулей рассуждения и примеров задач. На втором этапе – во время декодирования, LLM следуют этой самообнаруженной структуре, чтобы прийти к окончательному решению.
В обширном тестировании различных задач на рассуждение, включая Big-Bench Hard, Thinking for Action и Math, предложенный подход неизменно превосходил традиционные методы. Примечательно, что с помощью GPT-4 он достиг точности 81%, 85% и 73% по трем задачам, превзойдя методы цепочки мыслей и планирования и решения.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥10❤6
This media is not supported in your browser
VIEW IN TELEGRAM
—
curl -sSL https://raw.githubusercontent.com/entropy-research/Devon/main/install.sh | bash
Devon — AI-помощник, которого можно использовать для парного программирования;
open-source аналог Devin.
Использует API Anthropic, или OpenAI, или Groq
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤4🔥2👏1🤔1
🔥🚀 MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.
Превосходит LoRa в задачах с интенсивным использованием памяти, помимо этого, модель достигает сопоставимой производительности в других задачах. Подробности тут.
▪repo: https://github.com/kongds/MoRA
▪abs: https://arxiv.org/abs/2405.12130
@ai_machinelearning_big_data
MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.
Превосходит LoRa в задачах с интенсивным использованием памяти, помимо этого, модель достигает сопоставимой производительности в других задачах. Подробности тут.
▪repo: https://github.com/kongds/MoRA
▪abs: https://arxiv.org/abs/2405.12130
@ai_machinelearning_big_data
👍21❤3🥰1🤬1
⚡️Phi-3-medium-4k-instruct
Майкрософт выпустили новые модели Phi-3!
В том числе модели 7B и 14B.
Также добавлена мультимодальная модель phi!
- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
@ai_machinelearning_big_data
Майкрософт выпустили новые модели Phi-3!
В том числе модели 7B и 14B.
Также добавлена мультимодальная модель phi!
- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
@ai_machinelearning_big_data
👍26🔥8😁2🥰1
Обычно модели AI воспринимаются как "черный ящик", где ввод данных приводит к выводу ответа, но неясно, почему модель выбрала именно этот ответ.
Заглянуть внутрь "черного ящика" это не решение, поскольку внутреннее состояние модели состоит из длинного списка чисел (активации нейронов), которые трудно интерпретировать.
Однако, благодаря применению техники "обучения словаря", сотрудники Anthropic смогли сопоставить паттерны активации нейронов с понятными человеку концепциями, это позволяет ю представлять любое состояния модели через несколько активных признаков вместо множества активных нейронов.
В октябре 2023 года было успешно применено обучение словаря к небольшой "игрушечной" языковой модели.
Эта работа была расширена до больших и сложных моделей, включая Claude Sonnet, что позволило выявить миллионы признаков, отражающих широкий спектр сущностей, таких как города, люди, элементы, научные области и синтаксис языков программирования. Эти признаки могут быть мультимодальными и многоязычными.
Авторы также обнаружили возможность манипулировать этими признаками, усиливая их для изменения поведения модели. Например, усиление признака "Золотые ворота" привело к тому, что модель начала ассоциировать себя с мостом, добавляя определение в любую тему разговора.
Работа над улучшением безопасности моделей AI продолжается, и в Anthropic надеются использовать эти открытия для мониторинга систем AI на предмет нежелательного поведения, для направления их к желаемым результатам или удаления опасных тем.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥18❤7👏1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
—
pip install git+https://github.com/Codium-ai/cover-agent.git
Cover-Agent использует генеративный искусственный интеллект для автоматизации и улучшения генерации тестов (сейчас в основном юнит-тестов).
Cover-Agent может запускаться через терминал, в будущем его планируется интегрировать в популярные CI-платформы.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤3🔥2
Стартовал прием заявок для публикации статей по AI/ ML в научном журнале международной конференцию по искусственному интеллекту AI Journey.
Авторы лучшей научной работы получат вознаграждение в 1 млн рублей, а также получат возможность представить свое исследование перед научным сообществом на площадке конференции AI Journey.
Исследования участников будут опубликованы в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Статьи могут быть написаны на русском или английском языке и должны представлять только не опубликованные ранее сведения. Другие правила предоставления и оформления материалов читайте на сайте. Заявки принимаются до 20 августа.
Авторы лучшей научной работы получат вознаграждение в 1 млн рублей, а также получат возможность представить свое исследование перед научным сообществом на площадке конференции AI Journey.
Исследования участников будут опубликованы в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Статьи могут быть написаны на русском или английском языке и должны представлять только не опубликованные ранее сведения. Другие правила предоставления и оформления материалов читайте на сайте. Заявки принимаются до 20 августа.
❤10🔥4🥰1🥱1