Forwarded from Data Secrets
Результаты исследования ML-сообщества от VK и ИТМО
Помните, мы просили вас поучаствовать в исследовании о состоянии индустрии, лидерах рынка и в целом ML-карьере в России? Так вот теперь мы делимся с вами его результатами!
Откуда ML-щики (то есть вы) берут информацию и какие источники любят? Как выбирают компанию для работы? Кем себя видят в будущем?
Все самые интересные и неожиданные результаты – в карточках. Спойлер:мы попали в топ-4 самых любимых ML-каналов 😊
Помните, мы просили вас поучаствовать в исследовании о состоянии индустрии, лидерах рынка и в целом ML-карьере в России? Так вот теперь мы делимся с вами его результатами!
Откуда ML-щики (то есть вы) берут информацию и какие источники любят? Как выбирают компанию для работы? Кем себя видят в будущем?
Все самые интересные и неожиданные результаты – в карточках. Спойлер:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Не прошло и недели, а у Mistral новый релиз!
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
Forwarded from Data Secrets
Anthropic пару недель назад незаметно выложили на GitHub интерактивный учебник по промптингу в виде ipynb ноутбуков
Особенно полезно для разрабов, которые работают с API LLM: курс разбит на 9 глав с теорией, примерами, упражнениями и ответами на них. Поможет освоить базовые техники, познакомит с такими фичами, как Prompt caching и отдельно научит оптимизировать ответы для кодинга.
Кстати, вот вам интересный факт: Anthropic – единственная компания, которая опубликовала в общий доступ свои системные промпты (то есть те промпты с базовыми настройками, которые зашиваются разработчиками в модель как дефолтные). Посмотреть на них можно тут.
Особенно полезно для разрабов, которые работают с API LLM: курс разбит на 9 глав с теорией, примерами, упражнениями и ответами на них. Поможет освоить базовые техники, познакомит с такими фичами, как Prompt caching и отдельно научит оптимизировать ответы для кодинга.
Кстати, вот вам интересный факт: Anthropic – единственная компания, которая опубликовала в общий доступ свои системные промпты (то есть те промпты с базовыми настройками, которые зашиваются разработчиками в модель как дефолтные). Посмотреть на них можно тут.
Одной из причин, благодаря которой я создал блог, стало осознание того, что я не смогу реализовать и одну сотую часть от бесконечного потока идей, которые ко мне приходят - попросту не хватит времени. При этом некоторые идеи обретают вполне себе жизнеспособную форму и вообще хочется делать что-то важное и значимое, да ещё и побольше. Поэтому я решил начать делиться идеями, которые я считаю довольно хорошими и про которые мне однозначно ясно, что конкретно мне выгоднее от них отказаться в пользу проектов, над которыми я уже работаю.
Сегодня хочу поделиться идеей технологичного и благородного предприятия - анализатор состава продуктов по фото.
Идея простая: когда покупаешь продукты в магазине будь то оффлайн или онлайн магазин - не суть, есть возможность посмотреть составы продуктов и выбирать на основе этого, но, во-первых, это делать дико лень, во-вторых, разобраться реально что "полезно", то есть подходит твоему организму, а что нет крайне сложно да и тем более запоминать это в E-шках, которых крайне много и какие-то из них норм, а какие-то мусор. Так вот идея в том чтобы сделать сервис, который принимает на вход текст состава продукта, анализирует его и в соответствии с личными настройками юзера выдаёт вердикт брать или нет и почему. Для сервиса можно сделать два фронтенда - приложение на смартфон с OCR для покупок в оффлайне и расширение для браузера для покупок в онлайне.
Монетизация
Зарабатывать здесь можно на разном, но для того чтобы приложение сделать массовым, благодаря чему создавать бОльшую пользу для общества своей работой, я предлагаю сделать приложение бесплатным, а деньги брать с производителей (или кто там выгодоприобретатель основной от продажи конкретного товара). Брать деньги за продвижение их товара в приложении, но тут важнейший момент заключается в том, что их товар должен подходить клиенту-юзеру приложения. То есть товар и так хороший и человек бы и так бы мог его купить в соответствии с анализом состава проведенным сервисом, а деньги берём лишь за то чтобы этот товар в подборке подходящих стоял выше других подходящих
В России постепенно развивают венчурные инвестиции и есть фонд t.me/fasietalks, в котором можно получить грант на развитие такого проекта. Там есть разные программы с разными условиями и прям сейчас набираю заявки на конкурс по сразу нескольким программам.
Кому идея понравилась - дерзайте! Делайте себя и людей вокруг вас здоровее, энергичнее, красивее и богаче. Можете отметиться в комментах и прям там и набрать себе команду
#делюсь_идеей
Сегодня хочу поделиться идеей технологичного и благородного предприятия - анализатор состава продуктов по фото.
Идея простая: когда покупаешь продукты в магазине будь то оффлайн или онлайн магазин - не суть, есть возможность посмотреть составы продуктов и выбирать на основе этого, но, во-первых, это делать дико лень, во-вторых, разобраться реально что "полезно", то есть подходит твоему организму, а что нет крайне сложно да и тем более запоминать это в E-шках, которых крайне много и какие-то из них норм, а какие-то мусор. Так вот идея в том чтобы сделать сервис, который принимает на вход текст состава продукта, анализирует его и в соответствии с личными настройками юзера выдаёт вердикт брать или нет и почему. Для сервиса можно сделать два фронтенда - приложение на смартфон с OCR для покупок в оффлайне и расширение для браузера для покупок в онлайне.
Монетизация
Зарабатывать здесь можно на разном, но для того чтобы приложение сделать массовым, благодаря чему создавать бОльшую пользу для общества своей работой, я предлагаю сделать приложение бесплатным, а деньги брать с производителей (или кто там выгодоприобретатель основной от продажи конкретного товара). Брать деньги за продвижение их товара в приложении, но тут важнейший момент заключается в том, что их товар должен подходить клиенту-юзеру приложения. То есть товар и так хороший и человек бы и так бы мог его купить в соответствии с анализом состава проведенным сервисом, а деньги берём лишь за то чтобы этот товар в подборке подходящих стоял выше других подходящих
В России постепенно развивают венчурные инвестиции и есть фонд t.me/fasietalks, в котором можно получить грант на развитие такого проекта. Там есть разные программы с разными условиями и прям сейчас набираю заявки на конкурс по сразу нескольким программам.
Кому идея понравилась - дерзайте! Делайте себя и людей вокруг вас здоровее, энергичнее, красивее и богаче. Можете отметиться в комментах и прям там и набрать себе команду
#делюсь_идеей
👍7
Forwarded from Machinelearning
Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.
Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.
Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.
Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.
INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.
В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.
Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:
ElasticDeviceMesh
: распределенная абстракция для отказоустойчивой связи;Int8 All-Reduce
: квантование псевдоградиентов;PyTorch FSDP2
/ DTensor ZeRO-3
: шардинг весов модели.Дорожная карта Prime:
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.
# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env
# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive
# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralized #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На госуслугах можно в несколько нажатий подать заявление на самозапрет взятия кредитов и ИЛИ или микрозаймов
Я себе оформил самозапрет, чего и вам желаю.
Закон об этих самозапретах вступил недавно в силу, 1 марта. Так что ВРОДЕ КАК больше не могут взять чужие люди кредит на твои паспортные данные.
Всем добра и позитива! Математика в этом канале обязательно продолжится.
Я себе оформил самозапрет, чего и вам желаю.
Закон об этих самозапретах вступил недавно в силу, 1 марта. Так что ВРОДЕ КАК больше не могут взять чужие люди кредит на твои паспортные данные.
Всем добра и позитива! Математика в этом канале обязательно продолжится.
👍5❤1
Forwarded from Denis Sexy IT 🤖
Google выпустил мануал по промпт инженерингу на 68 страниц – в нем все существующие стратегии составления промптов:
https://www.kaggle.com/whitepaper-prompt-engineering
Все кто хотели вкатиться в LLM-парселтанг, время пришло
https://www.kaggle.com/whitepaper-prompt-engineering
Все кто хотели вкатиться в LLM-парселтанг, время пришло
Kaggle
Prompt Engineering
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
🔥1
Попробовал я этот ваш барбишоп вайб-кодинг в рамках Agent-режима в Replit и пока, конечно, это игрушка.
Очень приятно наблюдать как агент работает, как он вводит всякие скучные команды в терминале и вносит мелкие правки в код - визуализация процесса на высоте, НО он в итоге делает нерабочий проект в 90% случаев.
Доходит до абсурдного - прошу сделать минимального телеграм-бота, а он за 10 итераций собственного процесса не смог установить нужные зависимости и в итоге решил, что нужно изменить продукт 😂, что нужно делать веб-интерфейс, а то не получается нужные версии двух библиотек поставить.
И это всё только на основе первого промпта, без контекста наработанной кодовой базы и тд. Я поинтересовался почему всё так происходит и предварительно понял, что Replit можно настраивать через некие Workflows, но это нужно основательно разбираться и всё равно не ясно даст ли это нужный эффект, ведь агент по идее по умолчанию должен работать хорошо, тем более когда задача по сути составить один-два файла на 10 строк в сумме.
Короче говоря, бесконечно можно смотреть на огонь, воду и как работаютлюди боты, но на данном этапе не работают.
Очень приятно наблюдать как агент работает, как он вводит всякие скучные команды в терминале и вносит мелкие правки в код - визуализация процесса на высоте, НО он в итоге делает нерабочий проект в 90% случаев.
Доходит до абсурдного - прошу сделать минимального телеграм-бота, а он за 10 итераций собственного процесса не смог установить нужные зависимости и в итоге решил, что нужно изменить продукт 😂, что нужно делать веб-интерфейс, а то не получается нужные версии двух библиотек поставить.
И это всё только на основе первого промпта, без контекста наработанной кодовой базы и тд. Я поинтересовался почему всё так происходит и предварительно понял, что Replit можно настраивать через некие Workflows, но это нужно основательно разбираться и всё равно не ясно даст ли это нужный эффект, ведь агент по идее по умолчанию должен работать хорошо, тем более когда задача по сути составить один-два файла на 10 строк в сумме.
Короче говоря, бесконечно можно смотреть на огонь, воду и как работают
❤2🤔1
Forwarded from Small Data Science for Russian Adventurers
#математика
Лемма о малом искажении (Джонсона – Линденштрауса) утверждает, что множество точек многомерного пространства можно отобразить в пространство меньшей размерности так, что расстояния между точками почти не изменятся. Интересно, что этого можно добиться ортогональными проекциями.
Этот красивый результат упоминается даже в помощи sklearn, а доказательство можно найти в книге Roman Vershynin
«High-Dimensional Probability An Introduction with Applications in Data Science» (кстати, скоро выходит 2е издание).
П.С. Картинка к посту из материалов Джефри Гордона.
Лемма о малом искажении (Джонсона – Линденштрауса) утверждает, что множество точек многомерного пространства можно отобразить в пространство меньшей размерности так, что расстояния между точками почти не изменятся. Интересно, что этого можно добиться ортогональными проекциями.
Этот красивый результат упоминается даже в помощи sklearn, а доказательство можно найти в книге Roman Vershynin
«High-Dimensional Probability An Introduction with Applications in Data Science» (кстати, скоро выходит 2е издание).
П.С. Картинка к посту из материалов Джефри Гордона.
Forwarded from XOR
Исследователи из MIT создали «таблицу Менделеева» по ML-алгоритмам 🤔
Периодическая таблица показывает, как связаны более 20 алгоритмов, а пустые ячейки подсказывают, какие только предстоит создать.
@xor_journal
Периодическая таблица показывает, как связаны более 20 алгоритмов, а пустые ячейки подсказывают, какие только предстоит создать.
«Это не просто метафора. Мы начинаем видеть МО как систему со структурой, которую мы можем исследовать, а не просто угадывать наш следующий шаг»., - говорит аспирантка MIT и главный автор статьи Шаден Альшаммари.
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Decompile with LLM или идея как уничтожить проприетарный софт, а с ним и капитализм.
Надеюсь, что это не приведёт к тому, что всё на свете станет облачным и даже к скомпилированным программам не будут давать доступа
https://github.com/albertan017/LLM4Decompile
Надеюсь, что это не приведёт к тому, что всё на свете станет облачным и даже к скомпилированным программам не будут давать доступа
https://github.com/albertan017/LLM4Decompile
GitHub
GitHub - albertan017/LLM4Decompile: Reverse Engineering: Decompiling Binary Code with Large Language Models
Reverse Engineering: Decompiling Binary Code with Large Language Models - albertan017/LLM4Decompile
🔥3
Forwarded from Complete AI
Поздравляю всех с великим праздником — С Днём Победы⭐️
Вечная память всем героям, которые отдали жизнь ради счастья и спокойствия будущих поколений! Мы будем нести историю из поколения в поколение🙏
Желаю всем мира и добра!🕊️
Вечная память всем героям, которые отдали жизнь ради счастья и спокойствия будущих поколений! Мы будем нести историю из поколения в поколение🙏
Желаю всем мира и добра!🕊️
❤11👎5🤔1
Forwarded from epsilon correct
У High-Dimensional Probability Вершинина стал доступен драфт второго издания. Добавили больше 200 упражнений и сделали книгу более удобоваримой. 🥁
Как по мне, лучшая книга по основам вероятностных методов в приложениях к нашему с вами любимому датасаенсу.
pdf
Как по мне, лучшая книга по основам вероятностных методов в приложениях к нашему с вами любимому датасаенсу.
Please open Telegram to view this post
VIEW IN TELEGRAM