Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Ребята из AI VK в поиске хардкорного ML-разработчика для отдела музыкальных рекомендаций VK Музыки. AI VK — это департамент, развивающий технологии искусственного интеллекта для ключевых продуктов VK, создает системы рекомендаций и поиска контента на платформах.

Задачи: улучшать качество рекомендаций, запускать новые сценарии, анализировать статистику потребления контента, выдвигать и проверять гипотезы, проводить A/B-тесты.

Предоставляют: гибкий график, команду-топ, интересные задачи, полный соц.пакет.

Откликнуться:
— на сайте VK
— напрямую в лс @ellinatsyra
5
⚡️ Mhubert - 95M параметров, 147 языков! Превосходит MMS 1B в ASR и LID 🤯

> Обучен работе на 90 тысячах часов многоязычных данных (147 языков)
> Использует дискретные речевые модули FAISS IVF (кластеризация на основе faiss)
> Поддержка многоязычнрй пакетной обработки данных
> Для обучения используется в 5-6 раз меньше данных, чем в базовой версии

hf
project

@machinelearning_ru
3👍1🔥1
⚡️ Только что вышла Stable Diffusion3. Самая лучшая бесплатная модель генерации изображений

https://habr.com/ru/news/821301/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1😁1
⚡️ Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Обеспечивает превосходную производительность в различных тестах всего с 2 миллионами обучающих данных

github: https://github.com/yfzhang114/SliME
abs: https://arxiv.org/abs/2406.08487

@machinelearning_ru
👍31🔥1
Forwarded from Machinelearning
⚡️ Nemotron 4 340B!

Nvidia только что выпустила LLM размером 340B , модель близкую
к производительности OpenAI GPT-4 🤯 NVIDIA не претендует на право собственности на какие-либо сгенерированные выходные данные. 💚

🧮 340 миллиардов параметров в контекстном окне 4k
🔢 Обучена на 9 триллионах токенов
🌎 Поддерживает более чем 50 языков и более чем 40 языков программирования
🧠 Трубует 16x H100 в bf16 и ~8x H100 в int4
🤗 Модель доступна на huggingface

Модель: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911
Технический отчет: https://research.nvidia.com/publication/2024-06_nemotron-4-340b

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥2
🚀 WebLLM engine: высокопроизводительный браузерный движок инференса LLM!

Web LLC предотсавляет локальное графическое ускорение с помощью WebGPU, полностью совместимый с OpenAI API и встроенную поддержку web workers для разделения серверных операций.

https://blog.mlc.ai/2024/06/13/webllm-a-high-performance-in-browser-llm-inference-engine

@machinelearning_ru
👍51🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Discovering Preference Optimization Algorithms with and for Large Language Models

Нейросети теперь обучают сами себя — исследователи попросили большие языковые модели (LLM) найти лучшие способы оптимизации своей работы.

В результате ИИ разработал новый подход под названием DiscoPOP.

Этот метод повышает производительность нейросети в суммировании, генерации и выполнении задач. Команда опубликовала код подхода, а также процесс, который позволяет LLM самообучаться.

Полностью автономные ИИ-исследователи, которые могут улучшать свои способности самостоятельно, уже не за горами.

Github


@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥1😱1
🖥 Вышел NumPy 2.0.0. Самые значительные обновления с 2006 года для Python разработчиков

Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.

Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy считается одной из самых популярных библиотек для научных расчетов. Код библиотеки написан на Python с применением оптимизаций на языке C и распространяется под лицензией BSD.

NumPy 2.0.0 является первым значительным обновлением с 2006 года. В новой версии добавлены новые функции и улучшена производительность, а также внесены изменения в ABI, Python API и C-API, нарушающие обратную совместимость. Например, библиотека SciPy, собранная с NumPy 1.x, потребует перекомпиляции для работы с NumPy 2.0. В некоторых случаях для использования NumPy 2.0 в приложениях потребуется внести изменения в код.

Одно из наиболее значимых изменений связано с сохранением точности скалярных выражений.

Например, выражение “np.float32(3) + 3” теперь вернет значение типа float32, а не float64. В выражениях с несколькими типами для результата будет использоваться тип с наивысшей точностью, например, “np.array([3], dtype=np.float32) + np.float64(3)” вернет значение типа float64. Также изменены целочисленные типы по умолчанию на платформе Windows: на 64-разрядных системах теперь используется 64-разрядный целый тип, а на 32-разрядных – 32-разрядный (ранее использовался аналог типа long из C, теперь это эквивалент np.intp).

Некоторые определения в C-API были изменены или удалены, например, структура PyArray_Descr. Максимальное число измерений и аргументов, выставляемое через макросы NPY_MAXDIMS и NPY_MAXARGS, увеличено до 64.

Все комплексные типы переведены на использование стандартных типов из спецификации C99 (cfloat_t, cdouble_t, clongdouble_t). Добавлен новый C API для создания собственных dtype. Также предложены новые упрощённые функции инициализации PyArray_ImportNumPyAPI и PyUFunc_ImportUFuncAPI.

В Python API обеспечено более четкое разделение между публичными и приватными API, представлена новая структура модулей. Около 100 функций, модулей и констант вынесены из основного пространства имен “np”, объявлены устаревшими или удалены. Пространство имен np.lib было очищено. Число объектов в основном пространстве имен сокращено на 10%, а в пространстве имен numpy.lib – на 80%. Пространство имен numpy.core переведено в разряд приватных. Удалены некоторые методы из классов np.ndarray и np.generic. Создано новое пространство имен numpy.stringsf со строковыми операциями.

https://uproger.com/vyshel-numpy-2-0-0-samye-znachitelnye-obnovleniya-s-2006-goda-dlya-python-razrabotchikov/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Multiphase - основанный на физике метод воссоздания реалистичного движения по видеозаписям с монокуляром! #CVPR2024 Работа, проделанная специалистами из СТендфорда

Код: https://github.com/nicolasugrinovic/multiphys
Статья: https://arxiv.org/pdf/2404.11987
Проект: http://iri.upc.edu/people/nugrinovic/multiphys/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍3
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике

> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 КБ.
> Полностью открытый исходный код двух размеров: 230B и 16 B

В таблице Arena-Hard-Auto DeepSeek-Coder-V2 превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.

#DeepSeekCoder

HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

@ai_machinelearning_big_data
🔥11👍72
🔥 Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%

Модель демонстрирует превосходную производительность в различных задачах, включая реконструкцию, классификацию и генерацию.

github: https://github.com/zh460045050/VQGAN-LC
abs: https://arxiv.org/abs/2406.11837

@machinelearning_ru
🔥5👍31
This media is not supported in your browser
VIEW IN TELEGRAM
🍏 На iOS 18 WhisperKit работает на 40% быстрее

Количество токенов на whisper-base увеличено с 165 до 237.

Репозиторий: https://github.com/argmaxinc/WhisperKit
Тест https://testflight.apple.com/join/LPVOyJZW

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
⚡️ ChatGLM: Семейство больших языковых моделей от GLM-130B до GLM4 Со всеми инструментами

GLM-4:
- практически не уступает GPT-4 в области MMLU, математики, GPQA и т.д
- приближается к GPT-4 при выполнениии задач с длинным контекстом

hf: https://huggingface.co/THUDM
repo: https://github.com/THUDM
abs: https://arxiv.org/abs/2406.12793

@machinelearning_ru
👍63🔥2
BigCodeBench, новый бенчмарк для оценки LLM по сложным задачам программирования, ориентированный на реалистичные задачи функционального уровня, требующие использования разнообразных библиотек и сложных рассуждений! 👀

🧩 Содержит 1140 заданий по 5,6 тестовых примеров в каждом, охватывающих 139 библиотек на Python.

Лучшая модель - GPT-4 с 61,1%, за ней следует DeepSeek-Coder-V2.

Лучшая открытая модель - DeepSeek-Coder-V2 с 59,7%, что лучше, чем у Claude 3 Opus или Gemini.

👥 Задачи создаются в три этапа, включая генерацию синтетических данных и перекрестную проверку людьми.

Блог: https://hf.co/blog/leaderboard-bigcodebench
Таблица лидеров: https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard
Код: https://github.com/bigcode-project/bigcodebench

@machinelearning_ru
👍82🔥2
🔥 Mixture of Agents + конвейер FT: превосходят GPT-4, и в 25 раз меньше затрат!

Новая SOTA на - Arena-Hard (84.8) и Alpaca Eval (LC 68.4)

https://docs.openpipe.ai/features/mixture-of-agents

@machinelearning_ru
👍42🔥2
🌟 4K4DGen — панорамная 4D-генерация в разрешении 4K

4K4DGen демонстрирует возможность создания динамических сцен с 360-градусным обзором в разрешении 4K, обеспечивая полное погружение в VR.
Этот метод облегчает анимацию сцены и оптимизирует набор 4D-гауссианов с помощью эффективных техник сплэтчинга.

🟡 Страничка 4K4DGen
🟡 Arxiv

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥2
⚡️Лучший способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

C#: t.me/csharp_ci
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C++ t.me/cpluspluc
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Devops: t.me/devOPSitsec
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
C++ папка: https://t.me/addlist/CdBs5DLepLJmZjY6
C# папка: https://t.me/addlist/u15AMycxRMowZmRi
Java папка: https://t.me/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: https://t.me/addlist/mzMMG3RPZhY2M2Iy
Linux папка: https://t.me/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
🔥4👍1🥰1
⚡️ 100 вопросов c собесов в Data Science и ML

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно:

- желающему получить оффер в сфере DS
- тому, кто уже давно дата-сайнтист, но хочется освежить какие-то алгоритмы/темы
- кто хочет поменять стек на что-то в области анализа и - присматривается к DS

Читать
Видео

@machinelearning_ru
👍10🔥42