Forwarded from Machinelearning
🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Пример Запуска:
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Python, Java, C++, JavaScript, C#
и другие!Пример Запуска:
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]
# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]
# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)
# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
Forwarded from Machinelearning
Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.
Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.
Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.
Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.
Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.
Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.
Тестовые
GatedDeltaNet-H1 и GatedDeltaNet-H2
дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.
🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github
📌Лицензирование:
🟢Некоммерческое использование: Nvidia Source Code License-NC
🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing
🟡Arxiv
🟡GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #GatedDeltaNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.
Для этого он использует несколько сервисов:
- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.
▪ Github
▪Google Colab
@ai_machinelearning_big_data
#opensource #llm #ai #ml #DeepResearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Он уточнил, что среди инвесторов французских проектов в области ИИ будут компании из Объединенных Арабских Эмиратов, Соединенных Штатов, Канады и самой Франции.
Кроме того, Макрон подчеркнул намерение Парижа сотрудничать с Нью-Дели и Пекином для продвижения технологий искусственного интеллекта. «Мы стремимся к совместной работе с Индией», – сказал он, добавив, что Франция также намерена взаимодействовать с Китаем и Соединенными Штатами, однако не хочет зависеть ни от одной страны.
Относительно обсуждений о возможном запрете использования китайского чат-бота DeepSeek в некоторых странах, Макрон выразил мнение, что запрет технологических решений лишь на основании их происхождения является неоправданным шагом.
Новость
Видео
- Goku: генеративная модель видео на основе потоков.
- Goku+: Модель, которая позиционируется, как модель для генерации видеорекламы и обещает быть в 100 раз дешевле, чем традиционные методы создания видео-рекламы.
Аrxiv
С этим ноутбуком примерно за 2 часа можно обучить модель Qwen 0.5B на математическом наборе данных GSM8K, используя обучение с подкреплением!
Colab Demo
Проект предлагает платформу с готовыми моделями, наборами данных и инструментами для работы с робототехникой на базе PyTorch.
На данный момент доступны предварительно обученные модели, демонстрационные среды для симуляций, а также готовые скрипты для обучения и управления реальными роботами.
Также предоставляются рекомендации по ведению логов и оценке моделей, а также ссылки на исследовательские материалы и примеры кода для профилирования.
Github
Safe Superintellgence(SSI), основанная в июне 2024, еще ничего не выпускает и не зарабатывает, так как первым продуктом обещают сразу ни больше ни меньше — safe AGI.
А пока просто посмотрите на сайт компании, которая УЖЕ привлекла миллиард долларов и собирается привлечь еще.
ssi.inc
Уверенность в себе и команде выглядит именно так
@ai_machinelearning_big_data
#openai #deeplearning #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #qwen #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
ReasonFlux - методика, которая используется как для обучения, так и для инференса, чтобы повысить способность LLM к сложному логическому мышлению. Применение метода позволяет превосходить OpenAI o1-preview и DeepSeek V3 в задачах математического рассуждения.
При использовании в обучении ReasonFlux использует иерархическую структуру с подкреплением на последовательности высокоуровневых шаблонов мышления. Это позволяет базовой LLM научиться планировать оптимальную траекторию шаблонов для решения сложных задач. В процессе обучения ReasonFlux анализирует и обобщает информацию о решении задач, выявляя общие закономерности, и на основе этого создает шаблоны мышления.
Во время инференса ReasonFlux автоматически извлекает релевантные шаблоны мышления и масштабирует их для достижения превосходной производительности в сложных задачах рассуждения. Он динамически выбирает наиболее подходящий шаблон высокого уровня для каждой подзадачи, упрощая поиск путей рассуждений. ReasonFlux использует новую систему масштабирования во время вывода, которая адаптирует шаблоны мышления.
В экспериментальных тестах ReasonFlux-32B достиг 91,2% точности на MATH benchmark, опередив o1-preview на 6,7%. На AIME benchmark модель решила в среднем 56,7% задач, превзойдя o1-preview и DeepSeek-V3 на 27% и 45% соответственно.
Практическая реализация метода доступна в репозитории проекта, в нем cодержится необходимый код и описание для файнтюна LLM на примере SFT-датасета решений GaoKao Bench.
⚠️ Для трейна моделей на SFT-сете проект использует фреймворк LLaMA-Factory.
# Clone the repository
git clone https://github.com/ReasonFlux
cd ReasonFlux
# Create a Conda venv
conda create -n ReasonFlux python==3.9
conda activate ReasonFlux
# Install dependencies
pip install -r requirements.txt
# When you complete your first-stage training, you can try to use simple inference
from reasonflux import ReasonFlux
reasonflux = ReasonFlux(navigator_path='path-to-navigator',
template_matcher_path='jinaai/jina-embeddings-v3',
inference_path='path-to-infernece-model',
template_path='template_library.json')
problem = """Given a sequence {aₙ} satisfying a₁=3, and aₙ₊₁=2aₙ+5 (n≥1), find the general term formula aₙ"""
@ai_machinelearning_big_data
#AI #ML #LLM #ReasonFlux
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна около 5% от размера DeepSeek r1, превосходит ее почти во всех тестах.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель более способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
NVIDIA выпустила новые модели и датасет семейства Nemotron :
Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.
Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).
Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.
Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.
Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Research повышает планку: Новый бенчмарк для оценки LLM на задачах Международных Научных Олимпиад.
Интересный материал об оценке реальных способностей LLM к научному мышлению.
Стандартные бенчмарки вроде MMLU важны, но часто не отражают глубину рассуждений, необходимую для решения сложных научных задач. Google предлагает новый подход.
Существующие метрики оценки LLM недостаточны для измерения способностей к решению нетривиальных научных проблем, требующих многошаговых рассуждений и глубокого понимания предметной области.
Новый бенчмарк "SciOlympiad": Google собрал датасет из задач Международных Научных Олимпиад (ISO) по физике, химии, биологии, математике и информатике. Это задачи экспертного уровня, разработанные для выявления лучших человеческих умов.
▪ Фокус на Reasoning (Рассуждениях): Оценка делается не только по финальному ответу, но и по качеству и корректности "цепочки мыслей" (Chain-of-Thought). Для сложных задач привлекались люди-эксперты для верификации логики рассуждений модели.
📌 ✔️ Результаты state-of-the-art LLM (включая Gemini Ultra):
▪ Модели показывают определенный прогресс, но их производительность значительно ниже уровня победителей-людей на ISO.
▪ Наблюдается сильная вариативность по предметам: модели лучше справляются там, где больше символьных манипуляций (математика, информатика), и хуже – где требуется глубокое концептуальное понимание (физика, химия).
▪ Даже продвинутые LLM часто допускают фундаментальные концептуальные ошибки и сбои в многошаговой логике, которые не свойственны экспертам.
▪ SciOlympiad – это ценный, хоть и очень сложный, бенчмарк для стресс-тестирования реальных научных способностей LLM.
▪ Результаты подчеркивают текущие ограничения LLM в области сложного научного мышления и решения проблем.
▪ Исследование указывает на направления для будущей работы: необходимо совершенствовать не только знания моделей, но и их способности к глубоким, надежным и креативным рассуждениям.
🔗 Статья
#LLM #AI #MachineLearning #Evaluation #Benchmark #ScientificAI #Reasoning #GoogleResearch #NLP
Интересный материал об оценке реальных способностей LLM к научному мышлению.
Стандартные бенчмарки вроде MMLU важны, но часто не отражают глубину рассуждений, необходимую для решения сложных научных задач. Google предлагает новый подход.
Существующие метрики оценки LLM недостаточны для измерения способностей к решению нетривиальных научных проблем, требующих многошаговых рассуждений и глубокого понимания предметной области.
Новый бенчмарк "SciOlympiad": Google собрал датасет из задач Международных Научных Олимпиад (ISO) по физике, химии, биологии, математике и информатике. Это задачи экспертного уровня, разработанные для выявления лучших человеческих умов.
▪ Фокус на Reasoning (Рассуждениях): Оценка делается не только по финальному ответу, но и по качеству и корректности "цепочки мыслей" (Chain-of-Thought). Для сложных задач привлекались люди-эксперты для верификации логики рассуждений модели.
▪ Модели показывают определенный прогресс, но их производительность значительно ниже уровня победителей-людей на ISO.
▪ Наблюдается сильная вариативность по предметам: модели лучше справляются там, где больше символьных манипуляций (математика, информатика), и хуже – где требуется глубокое концептуальное понимание (физика, химия).
▪ Даже продвинутые LLM часто допускают фундаментальные концептуальные ошибки и сбои в многошаговой логике, которые не свойственны экспертам.
▪ SciOlympiad – это ценный, хоть и очень сложный, бенчмарк для стресс-тестирования реальных научных способностей LLM.
▪ Результаты подчеркивают текущие ограничения LLM в области сложного научного мышления и решения проблем.
▪ Исследование указывает на направления для будущей работы: необходимо совершенствовать не только знания моделей, но и их способности к глубоким, надежным и креативным рассуждениям.
🔗 Статья
#LLM #AI #MachineLearning #Evaluation #Benchmark #ScientificAI #Reasoning #GoogleResearch #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.
Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.
Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.
Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.
На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.
Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.
Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.
Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.
⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM