Recurrent Positional Encoding for Transformers
Идея: делать позиционное кодирование с помощью рекуррентной сети. В качестве эмбеддинга текста берется сумма токен-эмбеддингов и обучаемое позиционное предоставление на основе рекуррентной сети.
Предлагается поэкспериментировать с количеством слоев (использовать не менее трёх).
Идея: делать позиционное кодирование с помощью рекуррентной сети. В качестве эмбеддинга текста берется сумма токен-эмбеддингов и обучаемое позиционное предоставление на основе рекуррентной сети.
Предлагается поэкспериментировать с количеством слоев (использовать не менее трёх).
🥴5
Мало кто знает, но ответом на главный вопрос вселенной станет random seed, которым нужно будет проинициализировать gpt5.
🥴18
Читать статьи по DL - не больше чем прокрастинация.
Вот три аргумента:
1. Чтение статей по глубокому обучению может быть просто информационной подачей, которая не приводит к практическим навыкам и знаниям, необходимым для решения реальных задач.
2. Чтение статей может отвлекать от практической работы и изучения кода, что является более эффективным способом изучения глубокого обучения.
3. Чтение статей может создать иллюзию понимания темы, но не дает необходимых навыков и знаний для применения глубокого обучения на практике.
Вот три аргумента:
1. Чтение статей по глубокому обучению может быть просто информационной подачей, которая не приводит к практическим навыкам и знаниям, необходимым для решения реальных задач.
2. Чтение статей может отвлекать от практической работы и изучения кода, что является более эффективным способом изучения глубокого обучения.
3. Чтение статей может создать иллюзию понимания темы, но не дает необходимых навыков и знаний для применения глубокого обучения на практике.
🥴25
У нас было два пакета лайтнинга, семьдесят пять карточек a100, 5 версий бидирекшионал енкодер репрезентатионал тарнсформера или БЕРТ, GPT-2, наполовину наполненная пикабу, и целое море разноцветных классификаторов, бенчмарков и метрик, а так же литр лимончеллы, литр грибовой настойки, ящик «Дальней Дачи», пинта чистой струи бобра, и 12 полуразряженных HQDшок. Не то, чтобы всё это было категорически необходимо в ресерче, но если уж начал копаться в NLP, то к делу надо подходить серьёзно.
🥴25
Перевести датасет обучения кандинского на английский и обучить Stable Diffusion 3.0
🥴11
великая библиотека сидов
аггрегатор информации о зависимости метрик относительно сидов
можно поискать наиболее выгодный сид для своей задачи
аггрегатор информации о зависимости метрик относительно сидов
можно поискать наиболее выгодный сид для своей задачи
🥴20
Генерация аудиодорожек с помощью треска дросселей на видеокарте
Подбираем модель и батчи таким образом, чтобы перегруженные дроссели начинали насвистывать нужную мелодию
Future work: собираем оркестр из distributed кластера
Подбираем модель и батчи таким образом, чтобы перегруженные дроссели начинали насвистывать нужную мелодию
Future work: собираем оркестр из distributed кластера
🥴36