Machinelearning

🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:


import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
    "how to implement quick sort in Python?"
    ]

# No instruction needed for retrieval passages
passages = [
    "def quick_sort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[len(arr) // 2]\n    left = [x for x in arr if x < pivot]\n    middle = [x for x in arr if x == pivot]\n    right = [x for x in arr if x > pivot]\n    return quick_sort(left) + middle + quick_sort(right)",
    "def bubble_sort(arr):\n    n = len(arr)\n    for i in range(n):\n        for j in range(0, n-i-1):\n            if arr[j] > arr[j+1]:\n                arr[j], arr[j+1] = arr[j+1], arr[j]\n    return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())

✅Документация
✅Модель 400M
✅ Модель 2B

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.

@ai_machinelearning_big_data

#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml

23.6K views14:40

Machinelearning

🖥

OpenAI готова представить сверхпродвинутого ИИ-агента на уровне кандидата наук.

Запланировал закрытый брифинг для официальных лиц правительства США в Вашингтоне 30 января, на котором выступит Сэм Альтман.

- Специалисты в области искусственного интеллекта считают, что грядет большой прорыв в создании суперагентов уровня PHD." ...

Журналисты заявляют, что - "Сотрудники OpenAI рассказывали друзьям, что они одновременно и восхищены, и напуганы столь быстрым прогрессом".

📌 Подробнее

PS: Хайп в Твиттере снова вышел из-под контроля.

"Мы не Выпусти ИИ уровня AGI в следующем месяце, да мы его и не создавали.

У нас есть для вас кое-что очень интересное, но, пожалуйста, опустите пенку своих ожиданий и сократите их в 100 раз! " - написал Сэм Альтман

@ai_machinelearning_big_data

#openai #chatgpt #aiagents

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

17.4K views04:33

Machinelearning

🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.

Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.

Вы можете потестить ее на 8 * H200.

Размер примерно ~720GB.

UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥

DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.

🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in

🖥

GitHub: https://github.com/deepseek-ai/DeepSeek-R1

@ai_machinelearning_big_data

#DeepSeek #deepseekv3 #reasoning #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

17.1K viewsedited 09:20

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️

Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.

↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!

Готово!

- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.

Установка:


pip install smolagents

Пример работы:


from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")

▪ GitHub
▪Подробнее

@ai_machinelearning_big_data

#codegen #llm #huggingface #ai #Smolagents

21.0K viewsedited 10:21

Machinelearning

🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

@ai_machinelearning_big_data

#DeepSeek #deepseekr1 #reasoning #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

35.1K views05:23

Machinelearning

👑 Вчера была выпущена еще одна интересная китайская опенсорс модель ризонинга.

Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).

- Контекст 128 тыс. токенов

- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).

→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)

- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME

⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5

#llm #reasoning #ml #Kimi #preview

17.5K views06:14

Machinelearning

⚡️

Tencent выпустили новую версию модели для генерации 3D из текста и изображения - Hunyuan3D 2.0.

Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна для создания правильной геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.

▪ GitHub
▪ HF
▪Demo

@ai_machinelearning_big_data

#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

18.6K views15:03

Machinelearning

💵

Трамп сегодня представит масштабный план по развитию инфраструктуры ИИ.

CBS сообщает, что он включает возвращение проекта Stargate.

OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.

Целью инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.

На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.

Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.

В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.

Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.

AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.

▪️Новость

@ai_machinelearning_big_data

#ai #news

Please open Telegram to view this post

VIEW IN TELEGRAM

17.7K viewsedited 21:51

Machinelearning

🌟 Google только что обновили Gemini 2.0 Flash Thinking

✅ Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)

#1 на арене чат-ботов

👑

Модель показала наивысший результат, обогнав Gemini-Exp-1206

+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219

- №1 по всем направлениям (генерации кода), за исключением управления стилем.

• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%

Модель доступна в ai-gradio

pip install --upgrade "ai-gradio[gemini]"

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

@ai_machinelearning_big_data

#google #gemini

Please open Telegram to view this post

VIEW IN TELEGRAM

24.9K viewsedited 06:01

Machinelearning

🧠Миграция парсера YQL с ANTLR3 на ANTLR4

Выпускник ШАда рассказал, как перевёл парсер YQL с ANTLR3 на ANTLR4.

🔥Почему это важно?

Новый парсер открыл возможности для автодополнения, синтаксической подсветки и генерации парсеров на Go, TypeScript и C++.
Решение задачи упростило поддержку YDB и расширило его функционал.

⚙️ Ключевые моменты:
- Миграция потребовала глубокого изучения работы ANTLR3, ANTLR4 и структуры парсинга в YDB
- В процессе пришлось адаптировать систему парсинга, которая использует protobuf для описания синтаксического дерева.

В итоге удалось внедрить решение, сохранив стабильность системы.

📌 Читайте подробности о процессе, нюансах ANTLR и реализации парсинга в YQL в статье на Хабре.

@ai_machinelearning_big_data

Хабр

Как я сделал PR на 14К строк в проект YDB будучи студентом

В этой статье я хотел бы рассказать о задаче, решение которой легло в основу моей дипломной работы. В ноябре 2023 года я был студентом Физтеха — учился...

14.2K views09:16

Machinelearning

⚡️ IBytedanceTalk только что выпустили UI-TARS модели (+ приложение для ПК / Mac OS) для взаимодействия с интерфейсами.

ИИ-агенты, которые объединяют возможности рассуждений и действий в единой vision-language model для комплексной автоматизации задач на вашем пк на уровне человека.

3️⃣ Доступны в 3-х размерах: 2B, 7B и 72B
⭐ Обученные на базе Qwen2-VL с поддержкой SOFT & DPO
⭐ Версия 72B показывает 82,8% на VisualWebBench (опережая GPT-4 и Claude).
✅ SOTA: Достигает самых высоких результатов на 10 +бенчмарках

▪Модели: https://huggingface.co/bytedance-research/UI-TARS-72B-DPO
▪Статья: https://huggingface.co/papers/2501.12326
▪Code: https://github.com/bytedance/UI-TARS
▪Приложения: https://github.com/bytedance/UI-TARS-desktop https://pic.x.com/pevF7Umtx7

@ai_machinelearning_big_data

16.7K views10:20

About

Blog

Apps

Platform