Github
2.48K subscribers
219 photos
30 videos
6 files
291 links
@workakkk - по всем вопросам

@itchannels_telegram - 🔥лучшие ит-каналы

@data_analysis_ml - работа с данными

@ai_machinelearning_big_data - машинное обучение

@english_forprogrammers - английский для программистов
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Pulse – инструмент, который превращает пиксилезированные фотографии лица в картинки с высоким качеством

Получив входное изображение с низким разрешением, PULSE ищет в выходных данных генеративной модели (StyleGAN) изображения с высоким разрешением, которые перцептивно схожи с входной картинкой

#Python #AI #Interesting

@github_code
👍6🔥21
Lama-Cleanercвободный инструмент для рисования с открытым исходным кодом, основанный на модели SOTA AI

Позволяет удалить всё лишнее с изображения, исправить старое фото или заменить что-то на изображении

Ссылка на проект

@github_code | #Interesting #AI
👍41🔥1
Forwarded from Machinelearning
🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.


📌Лицензирование : MIT License


🟡Arxiv
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Machinelearning
⚡️ Релиз Python 3.13 и Git 2.47 ⚡️

Python 3.13, спустя ровно год с начала разработки, выпущен в релиз. Поддержка версии 3.13 планируется в течение 1.5 лет, и, после окончания этого срока еще 3.5 года версия будет получать критические обновления, связанные с безопасностью.

Ключевые изменения:

🟢экспериментальный компилятор JIT. Запуск в CPython –enable-experimental-jit;

🟢экспериментальный режим сборки CPython без GIL. Запуск –without-gil;

🟢интерактивный интерпретатор с многострочным редактированием, по подобию PyPy;

🟢изменена семантика locals() для функций, генераторов и сопрограмм;

🟢включена в состав модифицированная версия mimalloc от Microsoft;

🟢компилятор теперь очищает лидирующие пробелы из docstring;

🟢в модуле dbm реализован бэкенд dbm.sqlite3 по умолчанию для новых файлов;

🟢typing.TypeIs стала более интуитивной, чем typing.TypeGuard;

🟢typing.ReadOnly позволяет помечать элементы TypeDicts, доступные только для чтения;

🟢warnings.deprecated() добавлена для указания устаревших элементов в системе типов;

🟢удалены ifc, audioop, chunk, cgi, cgitb, crypt, imghdr, mailcap, msilib, nis, nntplib, ossaudiodev, pipes, sndhdr, spwd, sunau, telnetlib, uu, xdrlib и lib2to3 из стандартной библиотеки;

🟢в copy добавлена copy.replace();

🟢в os добавлены функции для работы с таймером через timerfd;

🟢random получил интерфейс CLI;

🟢macOS версий 10.9 - 10.12 больше не поддерживаются.

▶️Страница релиза 3.13 ▶️Документация 3.13


Git выпустил Git 2.47 с функциями и исправлениями ошибок от более чем 83 разработчиков, 28 из которых - новые.

В этой версии основное внимание уделяется повышению производительности и улучшению пользовательского опыта.

Основные изменения:

🟠инкрементные многопакетные индексы: экспериментальная функция, позволяющая сохранять несколько многопакетных индексов в цепочке слоев MIDX;

🟠ускорена идентификация базовой ветви : новый инструмент for-each-ref помогает определять базовую ветвь коммита, сводя к минимуму уникальные коммиты от первого родителя и упрощая идентификацию;

🟠обновлена политика поддержки: в Git 2.47 представлен новый документ, описывающий требования к поддержке для различных платформ, включая стандарты C99 или C11 и стабильные версии зависимостей;

🟠DEVELOPER=1 mode: теперь при компиляции с DEVELOPER=1 наличие неиспользуемых параметров является ошибкой времени компиляции;

🟠остальные улучшения : усовершенствования серверной части reftable, обновление платформы модульного тестирования, усовершенствование git fsck и интеграция кода Visual Studio с git mergetool.

▶️Полный список изменений


@ai_machinelearning_big_data

#AI #ML #Python #Git #Release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Forwarded from Machinelearning
🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования.

ARP - архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая универсальный подход, превосходящий специализированные решения для задач манипулирования.

Политика предсказывает только будущую последовательность действий на основе текущего состояния (или наблюдения), не пытаясь предсказать всю траекторию. Этот метод обучения последовательности действий более достижим в приложениях робототехники и позволяет лучше использовать причинно-следственные связи.

ARP состоит из трех основных компонентов:

🟢Chunking Causal Transformer: CCT лежит в основе АРП и отвечает за авторегрессивную генерацию последовательности действий. Он принимает на вход текущее наблюдение и последовательность прошлых действий и предсказывает следующий фрагмент (chunk) действий.

🟢Модуль эмбединга действий: преобразует действия (дискретные, непрерывные или координаты пикселей) в непрерывные векторные представления (эмбединги), которые могут быть обработаны CCT.

🟢Модуль декодирования действий: преобразует инференс от CCT обратно в соответствующие действия в формате, подходящем для управления роботом.

ARP оценивался в 3 средах (Push-T, ALOHA, RLBench) и сравнивался с современными методами для каждой среды. Во всех случаях ARP продемонстрировал высокую производительность, достигая SOTA-показателей при меньших вычислительных затратах.

ARP был протестирован в реальном эксперименте с роботом, где он успешно выполнил сложную задачу по затягиванию гаек.

В репозитории проекта доступен код для обучения, тестирования в средах Push-T, ALOHA, RLBench и подробные инструкции по настройке окружения под каждую из этих задач.


⚠️ В зависимости от задачи (Push-T, ALOHA или RLBench) необходимо выбрать соответствующий файл конфигурации. Примеры конфигурационных файлов приведены в файле Experiments.md

⚠️ Форматы данных для каждой задачи разные:

🟠Push-T: RGB-изображения 96x96 px;
🟠ALOHA - RGB-изображения 480x640 px;
🟠RLBench - RGBD (RGB+канал Depth) 128 × 128px.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #ARP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Machinelearning
🌟 Oumi: опенсорс-фреймворк полного цикла для LLM.

Oumi - открытая платформа для разработки, файнтюна, оценки и экспериментов с языковыми и мультимодальными моделями, созданная совместными усилиями исследователей из 13 ведущих университетов.

Oumi предоставляет инструменты и рабочие процессы для разработки и запуска масштабных экспериментов на кластере, развертывания моделей в рабочей среде и поддерживает методы распределенного обучения (FSDP, DDP):

🟢обучение и файнтюн моделей от 10M до 405B параметров методами SFT, LoRA, QLoRA и DPO;
🟢поддержку популярных семейств моделей: Llama, DeepSeek, Qwen и Phi;
🟢синтез и курирование обучающих данных с использованием LLM-judge;
🟢быстрое развертывание моделей в средах vLLM и SGLang;
🟢проведение комплексного бенчмаркинга моделей по стандартным тестам;
🟢возможность подключения по API OpenAI, Anthropic и Vertex AI;
🟢интеграция с библиотекой Transformers.

В репозитории проекта собраны готовые ноутбуки и скрипты для каждого из этапов жизненного цикла моделей, а подробная документация по использованию поможет легко освоить эту платформу.

📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Oumi #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Machinelearning
🌟 Step-Audio: платформа интеллектуального речевого взаимодействия.

Step-Audio – платформа с открытым исходным кодом, объединяющая понимание и генерацию речи для поддержки мультиязычных диалогов (китайский, английский и японский).

Step-Audio способна передавать эмоциональные оттенки, региональные диалекты, различные стили речи и вокала.

Основой Step-Audio является 130B мультимодальная модель, которая объединяет в себе функции распознавания и генерации речи, семантического понимания, ведения диалога, клонирования голоса и синтеза речи. Важным компонентом является собственный токенизатор, позволяющий создавать высококачественный звук без традиционного сбора данных вручную.

▶️ Состав релиза:

Step-Audio-Tokenizer - токенизатор речи. Для лингвистической токенизации используется кодер Paraformer, который квантуется в дискретные представления с частотой 16,7 Гц. Для семантической токенизации - токенизатор CosyVoice, специально разработанный для эффективного кодирования характеристик, необходимых для создания естественных и выразительных речевых результатов, работающий на частоте 25 Гц.

Step-Audio-Chat - мультимодальная LLM с 130 млрд. параметров, которая отвечает за понимание и генерацию человеческой речи.

Step-Audio-TTS-3B - TTS-модель, обученная на крупном синтетическом наборе данных с использованием парадигмы LLM-Chat. Модель поддерживает несколько языков, множество эмоциональных выражений и различные элементы управления стилем голоса. Step-Audio-TTS-3B является первой открытой TTS-моделью, способной генерировать певческий вокал.

StepEval-Audio-360 - датасет, собранный при участии профессиональных аннотаторов и содержит весь спектр возможностей: пение, творчество, ролевые игры, логические рассуждения, понимание голоса, следование голосовым инструкциям, игры, управление речевыми эмоциями и языковые способности на китайском, английском и японском языках.

⚠️ Для локального использования понадобится (41.6Гц): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ Наиболее качественный инференс, по словам разработчиков, достигается на 4xA800/H800 GPU с 80GB или больше.


▶️Локальная установка и инференс на примере TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


📌Лицензирование: Apache 2.0 License.


🟡Коллекция на HF
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from Machinelearning
✔️ GitHub Copilot для Xcode запущен для публичного тестирования.

GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.

GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.

Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com

✔️ OpenAI опубликовала SWE-Lancer: бенчмарк для LLM в кодинге.

SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.

SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org

✔️ X повышает цены на Premium+ после выпуска Grok 3.

X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.

Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.

Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com

✔️ Native Sparse Attention - революция в механизмах внимания от Deepseek.

NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org

✔️ Мира Мурати готова рассказать миру, над чем она работает.

Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.

В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.

Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Machinelearning
✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard

Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.

Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.

В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.


Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.

Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.


Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.

Доступ к Ernie 5.1 открыт через онлайн-площадки компании.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Forwarded from Machinelearning
📌 Сколько стоит построить ИИ-ЦОД мощностью 1 ГВт?

Epoch AI опубликовала модельную оценку полной стоимости владения типовым дата-центром для искусственного интеллекта мощностью один гигаватт.

По расчётам, такой объект потребует около $38 млрд первоначальных капитальных вложений и $900 млн операционных расходов в год.

Если капитальные затраты распределить на срок службы оборудования, совокупная стоимость владения составляет примерно $8,5 млрд в год.


Около 60% этой суммы (порядка $5 млрд) приходится на серверы. Расходы на их фоне невелики: даже электроэнергия, крупнейшая операционная статья, по оценке обойдется в $600 млн в год.

Авторы оговариваются, что это упрощённая финмодель, а не оценка конкретного объекта.

Расчёт описывает гипотетический ЦОД крупного американского оператора облачной инфраструктуры на оборудовании NVIDIA GB200 NVL72.

Реальные издержки могут заметно отличаться в зависимости от выбора серверов, проектирования, расположения, схемы финансирования и стратегии энергоснабжения.


Главная неопределённость расчётов связана со сроком службы IT-оборудования.

Базовый сценарий исходит из 5 лет для серверов и сетевой инфраструктуры и 14 лет для здания. При сроке в 3 года годовая стоимость владения возрастает примерно до $12–13 млрд, при 7 - снижается до $7 млрд.

Оценка опирается на статистику государственного энергорегулятора США, показатели энергоэффективности Lawrence Berkeley Lab, стоимость серверов по выкладкам SemiAnalysis, строительные индексы Turner & Townsend и ряд других источников.

Модель предполагает полное питание от энергосети и не учитывает собственную генерацию, налоговые льготы оценены приблизительно.


Обновлённый расчёт даёт стоимость владения $8,5 млн на мегаватт в год против прежних $10,8 млн.

Снижение авторы объясняют переходом на новое оборудование и пересмотром части исходных данных.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1