Aspiring Data Science
370 subscribers
425 photos
11 videos
10 files
1.87K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from asisakov
А что если данные закончатся?

Прочитал недавно конспект небольшого интервью с Андреем Карпаты. Интересный был тезис, что пока что мы наблюдаем линейный рост качества моделей от использования все большего количества данных, при этом большая часть информации ещё не применялась в обучении.

Когда минимум 40 часов в неделю занимаешься прогнозированием, то автоматом через секунду в голове возникает вопрос - а что дальше? Что будет, когда закончатся все данные, до которых мы можем дотянуться?

Вообще, на вопросы про возможные ограничения ресурсов (например, нехватка GPU) уже отвечали тут, тут и тут. Ну и ещё пара предпосылок тут и тут.

Как их можно объединить в контексте данных:

1. Экспоненциальный рост объема данных, требуемых для тренировки все более мощных LLM. Каждое новое поколение моделей требует на порядок больше данных для обучения.

2. Ограниченность открытых данных. Хотя объем информации в интернете огромен, не весь этот контент подходит для обучения LLM из-за проблем с качеством, зашумленностью, лицензиями и другими ограничениями.
3. Необходимость в специализированных данных под конкретные задачи и предметные области, где одной крупной базовой LLM уже недостаточно, и нужны узкоспециализированные модели, требующие переобучения на под свой домен.

Каким можно увидеть развитие ситуации?
(Что-то из этого уже реализуется)

1. Генерация синтетических данных и получение новых:
1.1. Создание продвинутых моделей и сред (environment) для генерации реалистичных данных на основе ограниченных исходных выборок, с учетом особенностей имеющихся данных.
1.2. Использование генеративных моделей для создания синтетических данных, неотличимых от реальных примеров.
1.3. Привлечение экспертов для валидации и улучшения качества синтетически сгенерированных данных - особо важно на старте замкнутых систем с генерациями данных.

2. Улучшение эффективного переноса знаний (transfer learning) для LLM:
2.1. Обучение одной универсальной модели как учителя для других более маленьких и узконаправленных моделей. Может выступать как маршрутизатор к нужной модели. Мб реализуемо и через RAG.
2.2. Разработка более эффективных архитектур и алгоритмов - очевидно. Например, чтобы было меньше забывания.
2.3. Переход к новой парадигме передачи и хранения информации в LLM.

3. Инкрементальное обучение и генерация/разметка данных человеком:
3.1. Запрос у пользователей недостающей по их мнению информации в ответе, обработка обратной связи в процессе работы с моделью.
3.2. Активное обучение, где LLM самостоятельно выбирает наиболее информативные примеры для обогащения данных из потока пользовательских логов.

Возможные проблемы:

1. Снижение качества новых LLM из-за отсутствия разнообразия в данных - больше параметров, но качество то же самое.

2. Сложности с низкоресурсными языками и специфическими доменами, где совсем мало информации - можем натренировать модели проводить исследования и накапливать данные в этих областях.

3. Монополизация данных.
Крупные корпорации, обладающие гигантскими датасетами, получат подавляющее преимущество. Конечно, многие прорывы в области LLM были совершены некоммерческими организациями вроде OpenAI (которая перестала быть некоммерческой) или StabilityAI.

4. Генерация недостоверной информации и обход проверок с целью скормить некачественные данные для обучения. И также большое количество разбирательств из-за использования закрытых данных. Может в конце и придём к тому, что любые данные станут открытыми.

Может уже в ближайшем будущем нам будут платить за то, чтобы мы генерили качественную информацию и также ее проверяли 😂

P. S. По дефолту я думаю, что вы прочли все посты, которые я репосчу в свой соседний канал, поэтому никаких пояснений к тому, что я пишу, не требуется. Но если у вас возникает непонимание чего-либо, то обязательно интересуйтесь в комментариях!

#llm #thoughts
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
#llm #ai

"DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека."

https://3dnews.ru/1116020/kitayskiy-razrabotchik-predstavil-otkrituyu-iimodel-deepseek-v3-kotoraya-prevzoshla-liderov-rinka