229 subscribers
20 photos
2 videos
20 links
Находки, заметки, разработки в областях: R&D, ML, DL, LLM

Автор: @nstrek
Download Telegram
Forwarded from Data Secrets
Результаты исследования ML-сообщества от VK и ИТМО

Помните, мы просили вас поучаствовать в исследовании о состоянии индустрии, лидерах рынка и в целом ML-карьере в России? Так вот теперь мы делимся с вами его результатами!

Откуда ML-щики (то есть вы) берут информацию и какие источники любят? Как выбирают компанию для работы? Кем себя видят в будущем?

Все самые интересные и неожиданные результаты – в карточках. Спойлер: мы попали в топ-4 самых любимых ML-каналов 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Не прошло и недели, а у Mistral новый релиз!

Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.

NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?

С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.

Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12

Веса
Блог

@ai_newz
Forwarded from Data Secrets
Anthropic пару недель назад незаметно выложили на GitHub интерактивный учебник по промптингу в виде ipynb ноутбуков

Особенно полезно для разрабов, которые работают с API LLM: курс разбит на 9 глав с теорией, примерами, упражнениями и ответами на них. Поможет освоить базовые техники, познакомит с такими фичами, как Prompt caching и отдельно научит оптимизировать ответы для кодинга.

Кстати, вот вам интересный факт
: Anthropic – единственная компания, которая опубликовала в общий доступ свои системные промпты (то есть те промпты с базовыми настройками, которые зашиваются разработчиками в модель как дефолтные). Посмотреть на них можно тут.
Одной из причин, благодаря которой я создал блог, стало осознание того, что я не смогу реализовать и одну сотую часть от бесконечного потока идей, которые ко мне приходят - попросту не хватит времени. При этом некоторые идеи обретают вполне себе жизнеспособную форму и вообще хочется делать что-то важное и значимое, да ещё и побольше. Поэтому я решил начать делиться идеями, которые я считаю довольно хорошими и про которые мне однозначно ясно, что конкретно мне выгоднее от них отказаться в пользу проектов, над которыми я уже работаю.

Сегодня хочу поделиться идеей технологичного и благородного предприятия - анализатор состава продуктов по фото.

Идея простая: когда покупаешь продукты в магазине будь то оффлайн или онлайн магазин - не суть, есть возможность посмотреть составы продуктов и выбирать на основе этого, но, во-первых, это делать дико лень, во-вторых, разобраться реально что "полезно", то есть подходит твоему организму, а что нет крайне сложно да и тем более запоминать это в E-шках, которых крайне много и какие-то из них норм, а какие-то мусор. Так вот идея в том чтобы сделать сервис, который принимает на вход текст состава продукта, анализирует его и в соответствии с личными настройками юзера выдаёт вердикт брать или нет и почему. Для сервиса можно сделать два фронтенда - приложение на смартфон с OCR для покупок в оффлайне и расширение для браузера для покупок в онлайне.

Монетизация

Зарабатывать здесь можно на разном, но для того чтобы приложение сделать массовым, благодаря чему создавать бОльшую пользу для общества своей работой, я предлагаю сделать приложение бесплатным, а деньги брать с производителей (или кто там выгодоприобретатель основной от продажи конкретного товара). Брать деньги за продвижение их товара в приложении, но тут важнейший момент заключается в том, что их товар должен подходить клиенту-юзеру приложения. То есть товар и так хороший и человек бы и так бы мог его купить в соответствии с анализом состава проведенным сервисом, а деньги берём лишь за то чтобы этот товар в подборке подходящих стоял выше других подходящих

В России постепенно развивают венчурные инвестиции и есть фонд t.me/fasietalks, в котором можно получить грант на развитие такого проекта. Там есть разные программы с разными условиями и прям сейчас набираю заявки на конкурс по сразу нескольким программам.

Кому идея понравилась - дерзайте! Делайте себя и людей вокруг вас здоровее, энергичнее, красивее и богаче. Можете отметиться в комментах и прям там и набрать себе команду

#делюсь_идеей
👍7
Forwarded from Machinelearning
⚡️ INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.

Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.

Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.

Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.

▶️Детали проекта INTELLECT-1

INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.

В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.

▶️Prime: фреймворк для децентрализованного обучения.

Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:

🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;

🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;

🟢Восстановление чекпоинтов в реальном времени;

🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;

🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.

🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.

🟢Выгрузка тензоров в CPU.

Дорожная карта Prime:

🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;

🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;

🟠Создание фреймворка для инициации децентрализованного цикла обучения.

Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.

Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.

▶️Локальная установка и запуск фреймворка Prime:

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env

# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive

# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml


📌Лицензирование кода : Apache 2.0 License.


🟡Страница проекта
🟡Документация
🟡Arxiv
🟡Датасет
🟡Сообщество в Discord
🟡Дашборд прогресса
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Decentralized #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На госуслугах можно в несколько нажатий подать заявление на самозапрет взятия кредитов и ИЛИ или микрозаймов

Я себе оформил самозапрет, чего и вам желаю.

Закон об этих самозапретах вступил недавно в силу, 1 марта. Так что ВРОДЕ КАК больше не могут взять чужие люди кредит на твои паспортные данные.

Всем добра и позитива! Математика в этом канале обязательно продолжится.
👍51
Forwarded from Denis Sexy IT 🤖
Google выпустил мануал по промпт инженерингу на 68 страниц – в нем все существующие стратегии составления промптов:

https://www.kaggle.com/whitepaper-prompt-engineering

Все кто хотели вкатиться в LLM-парселтанг, время пришло
🔥1
Попробовал я этот ваш барбишоп вайб-кодинг в рамках Agent-режима в Replit и пока, конечно, это игрушка.

Очень приятно наблюдать как агент работает, как он вводит всякие скучные команды в терминале и вносит мелкие правки в код - визуализация процесса на высоте, НО он в итоге делает нерабочий проект в 90% случаев.

Доходит до абсурдного - прошу сделать минимального телеграм-бота, а он за 10 итераций собственного процесса не смог установить нужные зависимости и в итоге решил, что нужно изменить продукт 😂, что нужно делать веб-интерфейс, а то не получается нужные версии двух библиотек поставить.

И это всё только на основе первого промпта, без контекста наработанной кодовой базы и тд. Я поинтересовался почему всё так происходит и предварительно понял, что Replit можно настраивать через некие Workflows, но это нужно основательно разбираться и всё равно не ясно даст ли это нужный эффект, ведь агент по идее по умолчанию должен работать хорошо, тем более когда задача по сути составить один-два файла на 10 строк в сумме.

Короче говоря, бесконечно можно смотреть на огонь, воду и как работают люди боты, но на данном этапе не работают.
2🤔1
#математика
Лемма о малом искажении (Джонсона – Линденштрауса) утверждает, что множество точек многомерного пространства можно отобразить в пространство меньшей размерности так, что расстояния между точками почти не изменятся. Интересно, что этого можно добиться ортогональными проекциями.

Этот красивый результат упоминается даже в помощи sklearn, а доказательство можно найти в книге Roman Vershynin
«High-Dimensional Probability An Introduction with Applications in Data Science» (кстати, скоро выходит 2е издание).

П.С. Картинка к посту из материалов Джефри Гордона.
Forwarded from XOR
Исследователи из MIT создали «таблицу Менделеева» по ML-алгоритмам 🤔

Периодическая таблица показывает, как связаны более 20 алгоритмов, а пустые ячейки подсказывают, какие только предстоит создать.

«Это не просто метафора. Мы начинаем видеть МО как систему со структурой, которую мы можем исследовать, а не просто угадывать наш следующий шаг»., - говорит аспирантка MIT и главный автор статьи Шаден Альшаммари.


@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Decompile with LLM или идея как уничтожить проприетарный софт, а с ним и капитализм.

Надеюсь, что это не приведёт к тому, что всё на свете станет облачным и даже к скомпилированным программам не будут давать доступа

https://github.com/albertan017/LLM4Decompile
🔥3
1👍1💯1
Forwarded from Complete AI
Поздравляю всех с великим праздником — С Днём Победы⭐️

Вечная память всем героям, которые отдали жизнь ради счастья и спокойствия будущих поколений! Мы будем нести историю из поколения в поколение🙏

Желаю всем мира и добра!🕊️
11👎5🤔1
Forwarded from epsilon correct
У High-Dimensional Probability Вершинина стал доступен драфт второго издания. Добавили больше 200 упражнений и сделали книгу более удобоваримой. 🥁

Как по мне, лучшая книга по основам вероятностных методов в приложениях к нашему с вами любимому датасаенсу.

pdf
Please open Telegram to view this post
VIEW IN TELEGRAM