Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Инжиниринг Данных (Dmitry)
Давайте расскажу, что мы добавили на сайт dataengineer.ru

1. К ресурсу присоединились котрибьютеры и еще общаюсь с топ-экспертеми в разных областях, чтобы смогли добавлять самые полезные ресурсы для вас.
2. Завели табличку дата сообществ, пока туда добавляют котрибьютеры свои сообщества
3. Завели секция по поиску работы
4. Добавили уже несколько ключевых white papers для нашей индустрии
5. Стали добавлять книги.

И теперь по скилам и инструментам:
1. Добавили еще ресурсов в SQL
2. Новая секция большая про визуализацию данных
3. В секцию BI добавили видео - что такое BI
4. Добавили ресурсов про хранилище данных.
5. Вводная информация про моделирование данных
6. Добавили отечественных вендоров для облака
7. Создали секцию про DevOps (CI/CD, git, Linting, Docker, Kubernetes/Minikube). Секция новая пока, в процессе доработки.
8. Секция про IDE и CLI для инженеров и аналитиков.
9. Секция про AI в контексте инструментов для повседневной работы и помощи в работе.
10. Раздел про API
11. Языки программировани, пока только про Python
12. Apache Spark готова.

До других разделов у нас еще не дошли руки.

Планирую еще добавить разделы про:
- Безопасность
- Privacy/Compliance
- Сети
- Примеры архитектурных решений для аналитики (Open Source, Commercial, On-Premise, Cloud)
- Примеры решений в зависимости от размера компаний (от стартапа до большого Enterprise)

В существующие разделы нужно добавить рекомендации про инструменты (BI, хранилища данных, ETL и тп).

Пока просто собираем и добавляем самые лучшие ресурсы в одно место, потом начнется самое сложное, создать Road map для профессий и привязать его к ресурсам.
Forwarded from 5 minutes of data
Lineage для кода: Визуализация зависимостей в Python-проектах

В мире данных мы привыкли к инструментам вроде dbt и datahub, которые отлично справляются с построением графов зависимостей для таблиц в базах данных. Но что делать, когда нужно разобраться в структуре кодовой базы?

Проблема

Недавно я столкнулся с задачей анализа старого проекта, где:

- Множество взаимосвязанных модулей
- Отсутствие тестов
- Сложная логика взаимодействия компонентов

Решение: pydeps 🛠

В поисках инструмента для визуализации зависимостей я обнаружил pydeps - Python-модуль, который:

- Анализирует структуру проекта
- Строит наглядный граф зависимостей
- Экспортирует результат в SVG-формат

Преимущества использования

- Быстрое понимание архитектуры проекта
- Визуальное отслеживание зависимостей
- Помощь в рефакторинге и написании тестов

💡 Этот инструмент особенно полезен при работе с legacy-кодом или при погружении в новый проект.


pip install pydeps
pydeps your_project_path
Топ вопросов на собеседовании по SQL- Часть 2

Ехххууууууу...... Вот и 2я часть подоспела. Затянул я её конечно за 30 минут, извиняйте 😖, старался как можно короче!

В следующей части поговорим о теоритически-практических вопросах собеседования.

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.

С таким набором и на собес не страшно💀

😘 Ссылка на видео.
😵 Презентация.
Please open Telegram to view this post
VIEW IN TELEGRAM
Топ вопросов на собеседовании по SQL- Часть 3

Топовая 3 часть, подоспела к вам ребзя. В ней я решил не просто сделать презентацию😊, а сделать небольшой интерактивчик😎, так что если захочешь потыкаться, все ссылки ниже👇.

В следующей части продолжим говорить о теоритически-практических вопросах собеседования, которые не привязать к определённым темам, поэтому будет "сборная солянка". 🥘 Ммммм....

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.🆘

Ну тут уже можно сказать, что SQL часть собеседования ты прошёл на 5️⃣.

😘 Ссылка на видео.
😵 Презентация.
🔙 Блокнот по вопросам NULL.
🔙 Блокнот по агрегационным вопросам.

Не забывайте и про другие части🧑‍🎓:

😘 Часть 1.
😘 Часть 2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from КПД
Собственноручно проверил наличие супервеса (см. оригинальную статью и разбор от gonzo-обзоры ML статей) в Llama-3.2-1B.

Aномальный вес находится в позиции (400 - выходной канал, 1417 - входной канал) в model.layers.1.mlp.down_proj.

Не столь ярко выражен (перплексия на Wikitext-2 (8k context length) выросла с 8.375 до 8.625 при занулении данного веса), но все же очень много для всего одно веса.

[Google Colab для желающих поиграться]
Архитектурная ката: support сервис | Саша Поломодов, Сергей Баранов, Игорь Антонов, Паша Лакосников

Проектируем масштабируемую и отказоустойчивую систему поддержки клиентов, работающую через чат. Разбираемся как обеспечить связь клиента и оператора поддержки в режиме реального времени с минимальными задержками.

Полезные ссылки
- https://t.me/antonovjs
- https://t.me/book_cube
- @TellMeAboutTech
- https://archdays.ru/
- Объединение ИТ-Архитекторов https://t.me/ru_arc?roistat_visit=299360
- https://storming.ru/?roistat_visit=299360
- https://regexcrossword.com/
- https://www.rabbitmq.com/
- Хорошее видео про event storming https://youtu.be/r5M3lJ9IHMI?si=YYju5NQnIzYlBBRw
- http://agilemindset.ru/микросервисы/

Видео уже на YouTube
Промт (текстовый запрос):

“Ты выступаешь в роли моего персонального коуча по автоматизации рабочих задач с использованием нейросетей. Наша цель — найти рутинные задачи в моей работе, которые можно автоматизировать с помощью ChatGPT, чтобы сэкономить время и повысить эффективность.

Твой стиль работы:

Дружеский и поддерживающий, чтобы не перегружать меня лишней информацией.
Подавай советы короткими и конкретными блоками, без сложных терминов.
Задавай по одному вопросу за раз, чтобы мне было легко отвечать.

Как будем работать:

Начни с 2-3 простых вопросов, чтобы узнать, какие повторяющиеся задачи я выполняю на работе.
На каждый мой ответ предлагай конкретные советы:
Как именно ChatGPT может помочь мне автоматизировать эту задачу.
Какие инструменты или методы можно использовать.
После первых шагов предложи углубиться в детали или уточнить задачи.

Примеры вопросов для начала:

Какие задачи ты выполняешь каждый день, которые отнимают много времени?
Есть ли задачи, которые требуют много ручного труда или повторений?
С какими типами документов или данных ты работаешь чаще всего?

Важно: Не перегружай меня большим количеством информации сразу. Показывай ценность нейросетей через простые и понятные шаги. Мы будем идти от простого к сложному.
Forwarded from НейроБаза | Алексей Яндутов (Alexey Yandutov)
Как создать подкаст за минуту и учиться быстрее

Месяц назад разбирал статьи по NLP, чтобы рассказать на семинаре поиска в Яндексе. На котором еженедельно делаем доклады по последним научным статьям по нейронкам.

📌Статья meta про подход обучения моделей, которые пишут код. Сгенерированный код запускается на каждой итерации, а результат (ошибки или пройденные тесты) используется как обратная связь. Это похоже на то, как мы учимся программировать: пишем, видим ошибки и тесты, исправляемся.

Но суть не в этом, понятнее расскажет подкаст выше

При чтении статьи вспомнил про NotebookLLM, где можно залить длинные документы, видео, аудио и презентации, и модель Gemini от Google ответит по ним. Но эффект “вау” в том, что можно создать живой подкаст по вашим документам!


📌 Оставил в посте кусочек оригинала подкаста и перевод на русский, созданный через ElevenLabs (правда перевод потерял свою живость). Ощущение как будто слушаешь шоу, хотя это глубокая техническая статья. Конечно, детали опущены, но так объяснить популярным языком — я бы не смог.


Где может быть полезно:
- Учёба и исследования: помогает постепенно погружаться в материал

- Английский: создавайте и слушайте подкасты о том, что нравится. Мой репетитор была в восторге и сказала, что посоветует ученикам

- Брейншторм и новые идеи

📍 Кстати это бесплатно: чтобы сделать подкаст достаточно зайти на NotebookLLM, нужен только впн.
Забавно поделать подкасты на абсурдные темы.

Кто попробовал, напишите - на какую тему сделали и как вам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Advertising
У меня наконец дошли руки до LLM. Поэтому по мере их изучения буду делиться заметками по теме.

Сегодня начнем с теории: Что такое базовые (base) и инструктивные (instruct) модели?

Базовые LLM
Эти модели обучаются на больших объемах текстовых данных. Они обладают обширными знаниями об языке и умеют генерировать текст на высоком уровне. Но их основная задача — просто предсказать следующий токен (слово) в заданном контексте. В связи с чем, они не очень "умны" и плохо следуют указаниям. Например, при запросе «Cтолица Франции?» базовая LLM может выдать: «Столица Индии?».

Инструктивные LLM
Это базовые LLM дообученные на различных NLP задачах, в режиме supervised с помощью инструкций. Инструкции эти задаются на естественном языке и имеют вид пар: запрос - правильный ответ. В результате такого обучения LLM гораздо лучше выполняют указания и больше подходят для практического применения (QnA-системы, чат-боты, различные AI-асситенты и т.д.). И они уже на вопрос «Столица Франции?» скорее ответят «Париж» или «Столица Франции — Париж».

Так зачем выпускают базовые модели если инструктивные гораздо полезнее? Базовая модель предназначена для того, чтобы вы смогли дообучить ее под свои задачи или датасет.

Примеры:
- Gemma 2: google/gemma-2-9b и google/gemma-2-9b-it
- Qwen2: Qwen/Qwen2-7B и Qwen/Qwen2-7B-Instruct

Также на Толоке есть интересная статья с подробным описанием base vs instruct LLMs.
Forwarded from Quant Researcher
🚀 Торговля Вегой: Как использовать волатильность в своих стратегиях!

Наблюдая All-time high по BTC сразу вспоминается статья, как эффективно использовать Вегу в торговле опционами, особенно в условиях высокой implied-волатильности (IV).

📈 Почему Вега важна?

Вега измеряет, насколько цена опциона изменится при изменении implied-волатильности на 1%. Это критически важно, так как высокая IV указывает на ожидаемые значительные колебания цен. Важно помнить, что IV имеет разную волатильность в разных экспирациях.

Корректировка срока действия опционов в зависимости от волатильности:

Важно адаптировать вега-экспирации к уровню IV:

Высокая IV -> котроткие экспирации. Мы хотим владеть Гаммой вместо Веги, которая overpriced в момент высокой IV. Это позволяет заработать на повторном прыжке, так как цена опционов с короткой гаммой быстрее меняется, чем цена котрастов с далекой вегой.

Средняя IV -> плавный роллинг короткой гаммы в далекие вега-экспирации. Далекая вега на релаксации после прыжка может еще дорого стоить.

Никзая IV -> лучшее время покупать подешевевшую вегу.

В момент Vol-jump-а эта стратегия фиксирует профит и роллит позицию в коротку гамму. Это и есть динамическая long-vol стратегия, которая имеет ниже cost of carry, чем константный роллинг далеких экспираций.

Quant Researcher