❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_103
🔠Q_103: В чем плюсы и минусы Kaffka Streams ?
✔️Ответ:
Минусы Kafka Streams:
1. В сравнении с некоторыми другими стриминговыми платформами Kafka Streams может оказаться менее функциональным и гибким в использовании.
2. Перед использованием Kafka Streams необходимо настроить кластер Kafka, что может потребовать дополнительных ресурсов и усилий.
3. Kafka Streams является частью экосистемы Kafka и непосредственно зависит от нее, что может ограничить выбор других платформ или решений.
4. Kafka Streams не предоставляет встроенного функционала для обработки алгоритмов машинного обучения, что может потребовать его интеграции с другими инструментами или библиотеками.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_103: В чем плюсы и минусы Kaffka Streams ?
✔️Ответ:
Минусы Kafka Streams:
1. В сравнении с некоторыми другими стриминговыми платформами Kafka Streams может оказаться менее функциональным и гибким в использовании.
2. Перед использованием Kafka Streams необходимо настроить кластер Kafka, что может потребовать дополнительных ресурсов и усилий.
3. Kafka Streams является частью экосистемы Kafka и непосредственно зависит от нее, что может ограничить выбор других платформ или решений.
4. Kafka Streams не предоставляет встроенного функционала для обработки алгоритмов машинного обучения, что может потребовать его интеграции с другими инструментами или библиотеками.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104
🔠Q_104: Как устроена Kaffka Streams ? (Часть_1)
✔️Ответ:
Концептуально Kafka Streams состоит из следующих элементов:
1. Потоки (Streams): Kafka Streams позволяет работать с непрерывным потоком данных, поступающих в брокер Kafka. Он может выполнять такие операции, как фильтрация, преобразование, агрегация и присоединение данных в режиме реального времени.
2. Компактные темы (Compact Topics): В Kafka Streams используются специальные "компактные" темы, которые автоматически удаляют устаревшие данные и поддерживают сжатие и дедупликацию данных.
3. Топология (Topology): Это описание преобразований и операций, которые необходимы для обработки данных в Kafka Streams. Топология может быть организована в виде графа, где узлы представляют операции обработки данных, а ребра - потоки данных.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_104: Как устроена Kaffka Streams ? (Часть_1)
✔️Ответ:
Концептуально Kafka Streams состоит из следующих элементов:
1. Потоки (Streams): Kafka Streams позволяет работать с непрерывным потоком данных, поступающих в брокер Kafka. Он может выполнять такие операции, как фильтрация, преобразование, агрегация и присоединение данных в режиме реального времени.
2. Компактные темы (Compact Topics): В Kafka Streams используются специальные "компактные" темы, которые автоматически удаляют устаревшие данные и поддерживают сжатие и дедупликацию данных.
3. Топология (Topology): Это описание преобразований и операций, которые необходимы для обработки данных в Kafka Streams. Топология может быть организована в виде графа, где узлы представляют операции обработки данных, а ребра - потоки данных.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104
🔠Q_104: Как устроена Kaffka Streams ? (Часть_2)
✔️Ответ:
4. Распределение (Distribution): Kafka Streams легко масштабируется и поддерживает распределение работы между несколькими экземплярами приложений Kafka Streams. Он использует встроенные возможности распределения и репликации данных в Apache Kafka, чтобы обеспечить высокую пропускную способность и отказоустойчивость.
5. Хранилища состояния (State Stores): Kafka Streams позволяет создавать и поддерживать распределенные хранилища состояния, которые могут быть использованы для сохранения временных данных и промежуточных результатов операций.
6. Задержки (Windowing): Kafka Streams имеет возможность выполнять агрегацию и аналитику данных на основе временных окон. Это позволяет выполнять рассчеты на основе данных за определенный временной промежуток или событий, произошедших за последние N секунд.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_104: Как устроена Kaffka Streams ? (Часть_2)
✔️Ответ:
4. Распределение (Distribution): Kafka Streams легко масштабируется и поддерживает распределение работы между несколькими экземплярами приложений Kafka Streams. Он использует встроенные возможности распределения и репликации данных в Apache Kafka, чтобы обеспечить высокую пропускную способность и отказоустойчивость.
5. Хранилища состояния (State Stores): Kafka Streams позволяет создавать и поддерживать распределенные хранилища состояния, которые могут быть использованы для сохранения временных данных и промежуточных результатов операций.
6. Задержки (Windowing): Kafka Streams имеет возможность выполнять агрегацию и аналитику данных на основе временных окон. Это позволяет выполнять рассчеты на основе данных за определенный временной промежуток или событий, произошедших за последние N секунд.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_105
🔠Q_105: Что такое stateful-обработка в Apache Kafka ?
✔️Ответ:
Stateful-обработка в Apache Kafka относится к способу обработки сообщений, при котором состояние (state) хранится и используется в процессе обработки сообщений.
В традиционной преобразовательной обработке сообщений, каждое сообщение обрабатывается независимо и не учитывает состояния предыдущих сообщений. Однако, в некоторых случаях, может быть необходимо учитывать предыдущие сообщения для более сложной логики обработки. Stateful-обработка позволяет сохранять и использовать состояние в процессе обработки сообщений для реализации более сложной логики.
Примеры использования stateful-обработки в Apache Kafka могут включать вычисление агрегированных данных по времени, дедупликацию сообщений, распределенную обработку запросов и т.д.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_105: Что такое stateful-обработка в Apache Kafka ?
✔️Ответ:
Stateful-обработка в Apache Kafka относится к способу обработки сообщений, при котором состояние (state) хранится и используется в процессе обработки сообщений.
В традиционной преобразовательной обработке сообщений, каждое сообщение обрабатывается независимо и не учитывает состояния предыдущих сообщений. Однако, в некоторых случаях, может быть необходимо учитывать предыдущие сообщения для более сложной логики обработки. Stateful-обработка позволяет сохранять и использовать состояние в процессе обработки сообщений для реализации более сложной логики.
Примеры использования stateful-обработки в Apache Kafka могут включать вычисление агрегированных данных по времени, дедупликацию сообщений, распределенную обработку запросов и т.д.
#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_106
🔠Q_106: что такое MapRCDP ?
✔️Ответ:
MapR-CDP (MapR Converged Data Platform) — это инновационная платформа для обработки и анализа данных, предоставляемая компанией MapR Technologies. MapR-CDP объединяет в себе возможности распределенного хранения данных, аналитики, искусственного интеллекта/машинного обучения и потоковой обработки данных в реальном времени в единой интегрированной системе.
Основные компоненты платформы включают в себя распределенную файловую систему MapR-FS, базу данных MapR-DB и систему потоковой обработки данных MapR Streams. MapR-CDP позволяет организациям эффективно управлять большими объемами данных, проводить анализ данных в реальном времени и применять машинное обучение и искусственный интеллект для получения ценных инсайтов.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_106: что такое MapRCDP ?
✔️Ответ:
MapR-CDP (MapR Converged Data Platform) — это инновационная платформа для обработки и анализа данных, предоставляемая компанией MapR Technologies. MapR-CDP объединяет в себе возможности распределенного хранения данных, аналитики, искусственного интеллекта/машинного обучения и потоковой обработки данных в реальном времени в единой интегрированной системе.
Основные компоненты платформы включают в себя распределенную файловую систему MapR-FS, базу данных MapR-DB и систему потоковой обработки данных MapR Streams. MapR-CDP позволяет организациям эффективно управлять большими объемами данных, проводить анализ данных в реальном времени и применять машинное обучение и искусственный интеллект для получения ценных инсайтов.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107
🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_1)
✔️Ответ:
1. MapR-FS (файловая система): MapR использует свою распределенную файловую систему, которая обеспечивает высокую производительность и надежность. MapR-FS обеспечивает прозрачный доступ к данным в реальном времени и поддерживает ACID-транзакции для обеспечения консистентности данных.
2. MapR Control System: Это центральное управляющее приложение, которое позволяет администраторам мониторить и управлять распределенными кластерами MapR.
3. MapR Streams: Это распределенная платформа для обработки потоков данных в реальном времени. Она упрощает разработку и развертывание приложений, которые могут обрабатывать большие объемы данных в режиме реального времени.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_1)
✔️Ответ:
1. MapR-FS (файловая система): MapR использует свою распределенную файловую систему, которая обеспечивает высокую производительность и надежность. MapR-FS обеспечивает прозрачный доступ к данным в реальном времени и поддерживает ACID-транзакции для обеспечения консистентности данных.
2. MapR Control System: Это центральное управляющее приложение, которое позволяет администраторам мониторить и управлять распределенными кластерами MapR.
3. MapR Streams: Это распределенная платформа для обработки потоков данных в реальном времени. Она упрощает разработку и развертывание приложений, которые могут обрабатывать большие объемы данных в режиме реального времени.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107
🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_2)
✔️Ответ:
4. MapR-DB: Это распределенная база данных, основанная на Apache HBase. MapR-DB предоставляет высокую производительность и надежность для хранения и обработки структурированных данных.
5. MapR-XD: Это распределенное хранилище данных для хранения больших объемов данных. MapR-XD предоставляет высокую пропускную способность и масштабируемость для обработки данных.
6. Apache Hadoop и другие инструменты: MapR также включает в себя Apache Hadoop, Spark, Drill и другие инструменты для обработки данных.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_2)
✔️Ответ:
4. MapR-DB: Это распределенная база данных, основанная на Apache HBase. MapR-DB предоставляет высокую производительность и надежность для хранения и обработки структурированных данных.
5. MapR-XD: Это распределенное хранилище данных для хранения больших объемов данных. MapR-XD предоставляет высокую пропускную способность и масштабируемость для обработки данных.
6. Apache Hadoop и другие инструменты: MapR также включает в себя Apache Hadoop, Spark, Drill и другие инструменты для обработки данных.
#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
https://www.kubeflow.org/docs/components/pipelines/ - удобный оркестратор для ML задач под Kubernents
#tools #github #optimization #ml #kubernets
#tools #github #optimization #ml #kubernets
Kubeflow
Kubeflow Pipelines
Documentation for Kubeflow Pipelines.
Большой гайд по планированию. Как впихнуть в сутки 40 часов и оставить время на личную жизнь?
Планирование времени включает в себя определение приоритетов и распределение задач. Важно учитывать личные предпочтения и биологические ритмы. Определение "антагонистов" и "протагонистов" "Антагонисты" - это процессы, которые отнимают ресурсы, не принося взамен ничего. "Протагонисты" - это процессы, которые восстанавливают ресурсы и должны быть увеличены.
Необходимо определить, какие задачи являются "антагонистами" и "протагонистами". Важно минимизировать "антагонисты" и увеличить "протагонисты".
Планирование должно включать в себя буферы, "съесть лягушку", дробление, режим дня, cheat day и протагонисты. Буферы помогают избежать неожиданных ситуаций и обеспечивают защиту от стресса. "Съесть лягушку" - это выполнение самых сложных задач в начале дня для повышения самооценки. Дробление учебных блоков помогает избежать переутомления.
Режим дня включает в себя 8 часов сна и стабильное время подъема и отхода ко сну. Cheat day - это эмоциональная разгрузка в выходные. Протагонисты включают спорт, работу, отдых и минимизацию "антагонистов".
Необходимо обратить внимание на высокую нагрузку, учебу в дороге, жаворонков и сов, спорт и бессонницу.
Концентрация и баланс между вредным и приятным в жизни важны для эффективного планирования. Чередование задач помогает поддерживать интерес и избегать монотонности. Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.
#articles #ml #dl #read #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Большой гайд по планированию. Как впихнуть в сутки 40 часов и оставить время на личную жизнь?
Всем привет, на связи команда Skill Vortex! Пару недель назад один знакомый нашего коллектива обратился с вопросом про планирование и тайм менеджмент. Перед ним стояла задача – каким-то чудом...
Links: https://github.com/meta-llama/llama-recipes
*Meta - экстремисткая огранизация запрещена в РФ,
#tools #github #optimization #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - meta-llama/llama-cookbook: Welcome to the Llama Cookbook! This is your go to guide for Building with Llama: Getting started…
Welcome to the Llama Cookbook! This is your go to guide for Building with Llama: Getting started with Inference, Fine-Tuning, RAG. We also show you how to solve end to end problems using Llama mode...
#tools #github #optimization #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - CyberAlbSecOP/Awesome_GPT_Super_Prompting: ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM…
ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM Prompt Security, Super Prompts, Prompt Hack, Prompt Security, Ai Prompt Engineering, Adversarial Machine Learning. - Cybe...
❤2
https://github.com/leptonai/leptonai - быстрый запуск AI приложений, быстрое развертывание, быстрая адаптация, напоминает HugginnFace
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - leptonai/leptonai: A Pythonic framework to simplify AI service building
A Pythonic framework to simplify AI service building - leptonai/leptonai
👍2
https://github.com/kyegomez/BitNet - масштабирование 1-битных трансформеров на LLM.
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch - kyegomez/BitNet
https://github.com/pyro-ppl/numpyro - библиотека для вероятностного программирования.
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - pyro-ppl/numpyro: Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU.
Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU. - pyro-ppl/numpyro
Cotype Nano - русскоязычная SLM от МТС.
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
▶️ Набор моделей:
🟢 Cotype-Nano - 1.54 млрд. параметров;
🟠 Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;
🟠 Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;
🟠 Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.
📌 Лицензирование: Apache 2.0 License.
🟡 Статья на Habr
🟡 Набор моделей на HF
#AI #ML #SLM #RuLLM #MTS
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Cotype-Nano - a MTSAIR Collection
Small and strong 1.5B models
✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
#Anthropic #ml #reasoning
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
#Anthropic #ml #reasoning
huggingface.co
Gemma 3 QAT - a google Collection
Quantization Aware Trained (QAT) Gemma 3 checkpoints. The model preserves similar quality as half precision while using 3x less memory
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Model statistics of the 50 most downloaded entities on Hugging Face
A Blog post by Loïck BOURDOIS on Hugging Face