DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_103

🔠Q_103: В чем плюсы и минусы Kaffka Streams ?

✔️Ответ:

Минусы Kafka Streams:
1. В сравнении с некоторыми другими стриминговыми платформами Kafka Streams может оказаться менее функциональным и гибким в использовании.
2. Перед использованием Kafka Streams необходимо настроить кластер Kafka, что может потребовать дополнительных ресурсов и усилий.
3. Kafka Streams является частью экосистемы Kafka и непосредственно зависит от нее, что может ограничить выбор других платформ или решений.
4. Kafka Streams не предоставляет встроенного функционала для обработки алгоритмов машинного обучения, что может потребовать его интеграции с другими инструментами или библиотеками.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

35 viewsDenoiseLABPost, 07:00

👍 8 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104

🔠Q_104: Как устроена Kaffka Streams ? (Часть_1)

✔️Ответ:

Концептуально Kafka Streams состоит из следующих элементов:

1. Потоки (Streams): Kafka Streams позволяет работать с непрерывным потоком данных, поступающих в брокер Kafka. Он может выполнять такие операции, как фильтрация, преобразование, агрегация и присоединение данных в режиме реального времени.

2. Компактные темы (Compact Topics): В Kafka Streams используются специальные "компактные" темы, которые автоматически удаляют устаревшие данные и поддерживают сжатие и дедупликацию данных.

3. Топология (Topology): Это описание преобразований и операций, которые необходимы для обработки данных в Kafka Streams. Топология может быть организована в виде графа, где узлы представляют операции обработки данных, а ребра - потоки данных.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

39 viewsDenoiseLABPost, 08:00

👍 6 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104

🔠Q_104: Как устроена Kaffka Streams ? (Часть_2)

✔️Ответ:

4. Распределение (Distribution): Kafka Streams легко масштабируется и поддерживает распределение работы между несколькими экземплярами приложений Kafka Streams. Он использует встроенные возможности распределения и репликации данных в Apache Kafka, чтобы обеспечить высокую пропускную способность и отказоустойчивость.

5. Хранилища состояния (State Stores): Kafka Streams позволяет создавать и поддерживать распределенные хранилища состояния, которые могут быть использованы для сохранения временных данных и промежуточных результатов операций.

6. Задержки (Windowing): Kafka Streams имеет возможность выполнять агрегацию и аналитику данных на основе временных окон. Это позволяет выполнять рассчеты на основе данных за определенный временной промежуток или событий, произошедших за последние N секунд.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

41 viewsDenoiseLABPost, 07:00

👍 6 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_105

🔠Q_105: Что такое stateful-обработка в Apache Kafka ?

✔️Ответ:

Stateful-обработка в Apache Kafka относится к способу обработки сообщений, при котором состояние (state) хранится и используется в процессе обработки сообщений.

В традиционной преобразовательной обработке сообщений, каждое сообщение обрабатывается независимо и не учитывает состояния предыдущих сообщений. Однако, в некоторых случаях, может быть необходимо учитывать предыдущие сообщения для более сложной логики обработки. Stateful-обработка позволяет сохранять и использовать состояние в процессе обработки сообщений для реализации более сложной логики.

Примеры использования stateful-обработки в Apache Kafka могут включать вычисление агрегированных данных по времени, дедупликацию сообщений, распределенную обработку запросов и т.д.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

50 viewsDenoiseLABPost, 08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_106

🔠Q_106: что такое MapRCDP ?

✔️Ответ:

MapR-CDP (MapR Converged Data Platform) — это инновационная платформа для обработки и анализа данных, предоставляемая компанией MapR Technologies. MapR-CDP объединяет в себе возможности распределенного хранения данных, аналитики, искусственного интеллекта/машинного обучения и потоковой обработки данных в реальном времени в единой интегрированной системе.

Основные компоненты платформы включают в себя распределенную файловую систему MapR-FS, базу данных MapR-DB и систему потоковой обработки данных MapR Streams. MapR-CDP позволяет организациям эффективно управлять большими объемами данных, проводить анализ данных в реальном времени и применять машинное обучение и искусственный интеллект для получения ценных инсайтов.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

42 viewsDenoiseLABPost, 07:00

👍 6 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107

🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_1)

✔️Ответ:

1. MapR-FS (файловая система): MapR использует свою распределенную файловую систему, которая обеспечивает высокую производительность и надежность. MapR-FS обеспечивает прозрачный доступ к данным в реальном времени и поддерживает ACID-транзакции для обеспечения консистентности данных.

2. MapR Control System: Это центральное управляющее приложение, которое позволяет администраторам мониторить и управлять распределенными кластерами MapR.

3. MapR Streams: Это распределенная платформа для обработки потоков данных в реальном времени. Она упрощает разработку и развертывание приложений, которые могут обрабатывать большие объемы данных в режиме реального времени.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

44 viewsDenoiseLABPost, 08:00

👍 4 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107

🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_2)

✔️Ответ:

4. MapR-DB: Это распределенная база данных, основанная на Apache HBase. MapR-DB предоставляет высокую производительность и надежность для хранения и обработки структурированных данных.

5. MapR-XD: Это распределенное хранилище данных для хранения больших объемов данных. MapR-XD предоставляет высокую пропускную способность и масштабируемость для обработки данных.

6. Apache Hadoop и другие инструменты: MapR также включает в себя Apache Hadoop, Spark, Drill и другие инструменты для обработки данных.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse

43 viewsDenoiseLABPost, 07:00

👍 1 👎🤔💬

DenoiseLAB

https://www.kubeflow.org/docs/components/pipelines/ - удобный оркестратор для ML задач под Kubernents

#tools #github #optimization #ml #kubernets

Kubeflow

Kubeflow Pipelines

Documentation for Kubeflow Pipelines.

78 viewsedited 18:58

DenoiseLAB

🔄

🔄Читаем статьи за вас №2:

Большой гайд по планированию. Как впихнуть в сутки 40 часов и оставить время на личную жизнь?

🗣Основы планирования времени

Планирование времени включает в себя определение приоритетов и распределение задач. Важно учитывать личные предпочтения и биологические ритмы. Определение "антагонистов" и "протагонистов" "Антагонисты" - это процессы, которые отнимают ресурсы, не принося взамен ничего. "Протагонисты" - это процессы, которые восстанавливают ресурсы и должны быть увеличены.

🗣Анализ текущего расписания
Необходимо определить, какие задачи являются "антагонистами" и "протагонистами". Важно минимизировать "антагонисты" и увеличить "протагонисты".

🗣Составление нормального расписания

Планирование должно включать в себя буферы, "съесть лягушку", дробление, режим дня, cheat day и протагонисты. Буферы помогают избежать неожиданных ситуаций и обеспечивают защиту от стресса. "Съесть лягушку" - это выполнение самых сложных задач в начале дня для повышения самооценки. Дробление учебных блоков помогает избежать переутомления.
Режим дня включает в себя 8 часов сна и стабильное время подъема и отхода ко сну. Cheat day - это эмоциональная разгрузка в выходные. Протагонисты включают спорт, работу, отдых и минимизацию "антагонистов".

🗣Поиск недостатков в расписании
Необходимо обратить внимание на высокую нагрузку, учебу в дороге, жаворонков и сов, спорт и бессонницу.

🗣Универсальные советы
Концентрация и баланс между вредным и приятным в жизни важны для эффективного планирования. Чередование задач помогает поддерживать интерес и избегать монотонности. Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.

➡️links: https://habr.com/ru/articles/774964/
#articles #ml #dl #read #analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Большой гайд по планированию. Как впихнуть в сутки 40 часов и оставить время на личную жизнь?

Всем привет, на связи команда Skill Vortex! Пару недель назад один знакомый нашего коллектива обратился с вопросом про планирование и тайм менеджмент. Перед ним стояла задача – каким-то чудом...

79 views11:24

DenoiseLAB

🔠

🔠: Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.

Links: https://github.com/meta-llama/llama-recipes

*Meta - экстремисткая огранизация запрещена в РФ,

#tools #github #optimization #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - meta-llama/llama-cookbook: Welcome to the Llama Cookbook! This is your go to guide for Building with Llama: Getting started…

Welcome to the Llama Cookbook! This is your go to guide for Building with Llama: Getting started with Inference, Fine-Tuning, RAG. We also show you how to solve end to end problems using Llama mode...

75 viewsedited 11:47

DenoiseLAB

⚡️

https://github.com/CyberAlbSecOP/Awesome_GPT_Super_Prompting - невероятно огромный пак по работе с промптами для LLM. Очень много полезных инструментов, методик и подходов. Если вы занимаетесь LLM, то обязательно к прочтению.

#tools #github #optimization #ml #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - CyberAlbSecOP/Awesome_GPT_Super_Prompting: ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM…

ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM Prompt Security, Super Prompts, Prompt Hack, Prompt Security, Ai Prompt Engineering, Adversarial Machine Learning. - Cybe...

❤2

87 views12:19

DenoiseLAB

https://github.com/leptonai/leptonai - быстрый запуск AI приложений, быстрое развертывание, быстрая адаптация, напоминает HugginnFace

#tools #github #optimization #ml #llm

GitHub

GitHub - leptonai/leptonai: A Pythonic framework to simplify AI service building

A Pythonic framework to simplify AI service building - leptonai/leptonai

👍2

75 viewsedited 08:07

DenoiseLAB

https://github.com/kyegomez/BitNet - масштабирование 1-битных трансформеров на LLM.

#tools #github #optimization #ml #llm

GitHub

GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch - kyegomez/BitNet

86 viewsedited 11:51

DenoiseLAB

https://github.com/pyro-ppl/numpyro - библиотека для вероятностного программирования.

#tools #github #optimization #ml #llm

GitHub

GitHub - pyro-ppl/numpyro: Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU.

Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU. - pyro-ppl/numpyro

85 views16:58

DenoiseLAB

Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢

Cotype-Nano - 1.54 млрд. параметров;

🟠

Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠

Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠

Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡

Статья на Habr

🟡

Набор моделей на HF

#AI #ML #SLM #RuLLM #MTS

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

Cotype-Nano - a MTSAIR Collection

Small and strong 1.5B models

94 views06:31

DenoiseLAB

✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.

В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.

Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.

Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com

#Anthropic #ml #reasoning

huggingface.co

Gemma 3 QAT - a google Collection

Quantization Aware Trained (QAT) Gemma 3 checkpoints. The model preserves similar quality as half precision while using 3x less memory

187 views06:21

DenoiseLAB

🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face

Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.

🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.

Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.

📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M

Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.

🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%

Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%

Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%

📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.

🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок

Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.

🟠

Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats

#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

Model statistics of the 50 most downloaded entities on Hugging Face

A Blog post by Loïck BOURDOIS on Hugging Face

169 views06:40

About

Blog

Apps

Platform