Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Tensor Banana
Влияние ширины PCIe на LLM и flux

GPU:
- 3090 на pcie-4.0@x4
- 2080ti на pcie-2.0@x0.5
- 3060 на pcie-2.0@x0.5

3090 сидит на отдельном GPU 750w.
2080ti + 3060 сидят на GPU 750w.

Последние 2 карты сидят на x1 через сплиттер, поэтому по факту там половина скорости от x1. На pcie x16 не тестил, на моем мини-пк его нет (есть x4 + x4 + x1). На одном из x4 сидит ssd.

Затестим скорость LLM и Flux в зависимости от количества линий pcie, на которых сидит моя 3090.

Gemma-27b-Q6 (21 GB), 3090 power_60%_250w
pcie4.0@x1, IN 730 t/s, OUT 19.57 t/s
pcie4.0@x4, IN 780 t/s, OUT 20.43 t/s

Flux, 1024, 20steps, 3090 power_60%_250w
pcie4.0@x1, 00:28, 1.44s/it
pcie4.0@x4, 00:25, 1.29s/it

Flux lora train, 3090 power_60%_250w
pcie4.0@x1, 5.00s/it
pcie4.0@x4, 5.00s/it


Видим, что при работе в соло с небольшими LLM или Flux практически нет просадки. Скорость изначальной загрузки модели в память, конечно, проседает, но не супер критично (гемма-27 загружается за 1-2 минуты). Заметьте, что скорость обработки входного промта до сих пор быстрая - 323 t/s, хотя тоже просела.

Флакс из-за медленной шины pcie просел на 10%. А вот тренировка лоры вообще не заметила изменений.

Работа в связке из 3-х карт с большими LLM.

А теперь затестим Gemma-27b-Q6 (21 GB) на одной карте и затем через layer-split 50/50. Просадка есть, но минимальная.
3090, 250w, solo - 20 t/s
2080ti, 200w, solo - 15 t/s
3090+2080ti pcie4.0@x4 + pcie2.0@x1, 50/50 - 14 t/s


А теперь задействуем все 3 карты. pcie x4+x0.5+x0.5. 2 карты с power limit 80% и 3090 - 60% (250w)
qwen-72b-q5(51 GB) - 7.00 t/s
Llama-3.3-70B-Q5_K_M (47 GB) - 7.27 t/s.


для сравнения, с реддита:
70B-gguf_Q4 (43 GB), 2x 3090 - 15.5 t/s
70b-awq_4b (40 GB), 4x 3060 pcie3.0@8 - 14 t/s
3.3-70b_Q4, mac mini M4 Max 64gb - 7 t/s
квенов-72b не нашел

SAINEMO-reMIX-12B_q6 (9 GB)
3090, pcie 4.0x4 - 43 t/s

То есть в теории, из-за медленной шины, я теряю какую-то скорость, но я не сказал, бы что она критичная. Сравним для моей 3090 power_60%_250w, размер LLM и скорость:
9 GB, solo - 43 t/s
21 GB, solo - 20 t/s
51 GB, split_3 - 7 t/s
При увеличении размера LLM в 2 раза скорость падает в 2 раза (это норма), и скорость pcie в этом случаем особо не дает влияния.


3090 в соло режиме с маленькой LLM жрет все выделенные ей 250W (TDP у нее 420, но я ей столько не даю). То же самое и 2080ti - в соло ест отведенные 191W из 200w. Но с большой LLM раскиданной по всем картам видно, что чипы потребляют лишь половину максимальной мощности (смотрим скрин). Возможно, в остальное время они ждут друг друга или хз что там происходит.

Кстати, свежую llama-3.3-70b для русского РП не рекомендую, она сухая и зацензуренная. А вот SAINEMO-reMIX-12B (9GB) весьма рекомендую. Это смесь разных nemo-12b: saiga_nemo + vikhr_nemo + 2 англоязычных РП микса. Сейчас либо ее использую, либо magnum-v4-72b-Q5 (51GB). Athene-72b не так понравилась, цензуры больше чем в магнуме.
https://huggingface.co/mradermacher/SAINEMO-reMIX-GGUF/tree/main


Выводы: число линий pcie для маленьких LLM - пофиг. Для больших LLM - важно, но не супер критично. Для флакса (генерации и тренировки) - тоже пофиг. Получается, pcie x16 переоценен? Даешь всем по сплиттеру, который делит x1 на 4 и будет счастье? 😀
Forwarded from Инжиниринг Данных (Dmitry)
Давайте расскажу, что мы добавили на сайт dataengineer.ru

1. К ресурсу присоединились котрибьютеры и еще общаюсь с топ-экспертеми в разных областях, чтобы смогли добавлять самые полезные ресурсы для вас.
2. Завели табличку дата сообществ, пока туда добавляют котрибьютеры свои сообщества
3. Завели секция по поиску работы
4. Добавили уже несколько ключевых white papers для нашей индустрии
5. Стали добавлять книги.

И теперь по скилам и инструментам:
1. Добавили еще ресурсов в SQL
2. Новая секция большая про визуализацию данных
3. В секцию BI добавили видео - что такое BI
4. Добавили ресурсов про хранилище данных.
5. Вводная информация про моделирование данных
6. Добавили отечественных вендоров для облака
7. Создали секцию про DevOps (CI/CD, git, Linting, Docker, Kubernetes/Minikube). Секция новая пока, в процессе доработки.
8. Секция про IDE и CLI для инженеров и аналитиков.
9. Секция про AI в контексте инструментов для повседневной работы и помощи в работе.
10. Раздел про API
11. Языки программировани, пока только про Python
12. Apache Spark готова.

До других разделов у нас еще не дошли руки.

Планирую еще добавить разделы про:
- Безопасность
- Privacy/Compliance
- Сети
- Примеры архитектурных решений для аналитики (Open Source, Commercial, On-Premise, Cloud)
- Примеры решений в зависимости от размера компаний (от стартапа до большого Enterprise)

В существующие разделы нужно добавить рекомендации про инструменты (BI, хранилища данных, ETL и тп).

Пока просто собираем и добавляем самые лучшие ресурсы в одно место, потом начнется самое сложное, создать Road map для профессий и привязать его к ресурсам.
Forwarded from 5 minutes of data
Lineage для кода: Визуализация зависимостей в Python-проектах

В мире данных мы привыкли к инструментам вроде dbt и datahub, которые отлично справляются с построением графов зависимостей для таблиц в базах данных. Но что делать, когда нужно разобраться в структуре кодовой базы?

Проблема

Недавно я столкнулся с задачей анализа старого проекта, где:

- Множество взаимосвязанных модулей
- Отсутствие тестов
- Сложная логика взаимодействия компонентов

Решение: pydeps 🛠

В поисках инструмента для визуализации зависимостей я обнаружил pydeps - Python-модуль, который:

- Анализирует структуру проекта
- Строит наглядный граф зависимостей
- Экспортирует результат в SVG-формат

Преимущества использования

- Быстрое понимание архитектуры проекта
- Визуальное отслеживание зависимостей
- Помощь в рефакторинге и написании тестов

💡 Этот инструмент особенно полезен при работе с legacy-кодом или при погружении в новый проект.


pip install pydeps
pydeps your_project_path
Топ вопросов на собеседовании по SQL- Часть 2

Ехххууууууу...... Вот и 2я часть подоспела. Затянул я её конечно за 30 минут, извиняйте 😖, старался как можно короче!

В следующей части поговорим о теоритически-практических вопросах собеседования.

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.

С таким набором и на собес не страшно💀

😘 Ссылка на видео.
😵 Презентация.
Please open Telegram to view this post
VIEW IN TELEGRAM
Топ вопросов на собеседовании по SQL- Часть 3

Топовая 3 часть, подоспела к вам ребзя. В ней я решил не просто сделать презентацию😊, а сделать небольшой интерактивчик😎, так что если захочешь потыкаться, все ссылки ниже👇.

В следующей части продолжим говорить о теоритически-практических вопросах собеседования, которые не привязать к определённым темам, поэтому будет "сборная солянка". 🥘 Ммммм....

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.🆘

Ну тут уже можно сказать, что SQL часть собеседования ты прошёл на 5️⃣.

😘 Ссылка на видео.
😵 Презентация.
🔙 Блокнот по вопросам NULL.
🔙 Блокнот по агрегационным вопросам.

Не забывайте и про другие части🧑‍🎓:

😘 Часть 1.
😘 Часть 2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from КПД
Собственноручно проверил наличие супервеса (см. оригинальную статью и разбор от gonzo-обзоры ML статей) в Llama-3.2-1B.

Aномальный вес находится в позиции (400 - выходной канал, 1417 - входной канал) в model.layers.1.mlp.down_proj.

Не столь ярко выражен (перплексия на Wikitext-2 (8k context length) выросла с 8.375 до 8.625 при занулении данного веса), но все же очень много для всего одно веса.

[Google Colab для желающих поиграться]
Архитектурная ката: support сервис | Саша Поломодов, Сергей Баранов, Игорь Антонов, Паша Лакосников

Проектируем масштабируемую и отказоустойчивую систему поддержки клиентов, работающую через чат. Разбираемся как обеспечить связь клиента и оператора поддержки в режиме реального времени с минимальными задержками.

Полезные ссылки
- https://t.me/antonovjs
- https://t.me/book_cube
- @TellMeAboutTech
- https://archdays.ru/
- Объединение ИТ-Архитекторов https://t.me/ru_arc?roistat_visit=299360
- https://storming.ru/?roistat_visit=299360
- https://regexcrossword.com/
- https://www.rabbitmq.com/
- Хорошее видео про event storming https://youtu.be/r5M3lJ9IHMI?si=YYju5NQnIzYlBBRw
- http://agilemindset.ru/микросервисы/

Видео уже на YouTube
Промт (текстовый запрос):

“Ты выступаешь в роли моего персонального коуча по автоматизации рабочих задач с использованием нейросетей. Наша цель — найти рутинные задачи в моей работе, которые можно автоматизировать с помощью ChatGPT, чтобы сэкономить время и повысить эффективность.

Твой стиль работы:

Дружеский и поддерживающий, чтобы не перегружать меня лишней информацией.
Подавай советы короткими и конкретными блоками, без сложных терминов.
Задавай по одному вопросу за раз, чтобы мне было легко отвечать.

Как будем работать:

Начни с 2-3 простых вопросов, чтобы узнать, какие повторяющиеся задачи я выполняю на работе.
На каждый мой ответ предлагай конкретные советы:
Как именно ChatGPT может помочь мне автоматизировать эту задачу.
Какие инструменты или методы можно использовать.
После первых шагов предложи углубиться в детали или уточнить задачи.

Примеры вопросов для начала:

Какие задачи ты выполняешь каждый день, которые отнимают много времени?
Есть ли задачи, которые требуют много ручного труда или повторений?
С какими типами документов или данных ты работаешь чаще всего?

Важно: Не перегружай меня большим количеством информации сразу. Показывай ценность нейросетей через простые и понятные шаги. Мы будем идти от простого к сложному.
Forwarded from НейроБаза | Алексей Яндутов (Alexey Yandutov)
Как создать подкаст за минуту и учиться быстрее

Месяц назад разбирал статьи по NLP, чтобы рассказать на семинаре поиска в Яндексе. На котором еженедельно делаем доклады по последним научным статьям по нейронкам.

📌Статья meta про подход обучения моделей, которые пишут код. Сгенерированный код запускается на каждой итерации, а результат (ошибки или пройденные тесты) используется как обратная связь. Это похоже на то, как мы учимся программировать: пишем, видим ошибки и тесты, исправляемся.

Но суть не в этом, понятнее расскажет подкаст выше

При чтении статьи вспомнил про NotebookLLM, где можно залить длинные документы, видео, аудио и презентации, и модель Gemini от Google ответит по ним. Но эффект “вау” в том, что можно создать живой подкаст по вашим документам!


📌 Оставил в посте кусочек оригинала подкаста и перевод на русский, созданный через ElevenLabs (правда перевод потерял свою живость). Ощущение как будто слушаешь шоу, хотя это глубокая техническая статья. Конечно, детали опущены, но так объяснить популярным языком — я бы не смог.


Где может быть полезно:
- Учёба и исследования: помогает постепенно погружаться в материал

- Английский: создавайте и слушайте подкасты о том, что нравится. Мой репетитор была в восторге и сказала, что посоветует ученикам

- Брейншторм и новые идеи

📍 Кстати это бесплатно: чтобы сделать подкаст достаточно зайти на NotebookLLM, нужен только впн.
Забавно поделать подкасты на абсурдные темы.

Кто попробовал, напишите - на какую тему сделали и как вам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM