DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_103

🔠Q_103: В чем плюсы и минусы Kaffka Streams ?

✔️Ответ:

Минусы Kafka Streams:
1. В сравнении с некоторыми другими стриминговыми платформами Kafka Streams может оказаться менее функциональным и гибким в использовании.
2. Перед использованием Kafka Streams необходимо настроить кластер Kafka, что может потребовать дополнительных ресурсов и усилий.
3. Kafka Streams является частью экосистемы Kafka и непосредственно зависит от нее, что может ограничить выбор других платформ или решений.
4. Kafka Streams не предоставляет встроенного функционала для обработки алгоритмов машинного обучения, что может потребовать его интеграции с другими инструментами или библиотеками.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104

🔠Q_104: Как устроена Kaffka Streams ? (Часть_1)

✔️Ответ:

Концептуально Kafka Streams состоит из следующих элементов:

1. Потоки (Streams): Kafka Streams позволяет работать с непрерывным потоком данных, поступающих в брокер Kafka. Он может выполнять такие операции, как фильтрация, преобразование, агрегация и присоединение данных в режиме реального времени.

2. Компактные темы (Compact Topics): В Kafka Streams используются специальные "компактные" темы, которые автоматически удаляют устаревшие данные и поддерживают сжатие и дедупликацию данных.

3. Топология (Topology): Это описание преобразований и операций, которые необходимы для обработки данных в Kafka Streams. Топология может быть организована в виде графа, где узлы представляют операции обработки данных, а ребра - потоки данных.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_104

🔠Q_104: Как устроена Kaffka Streams ? (Часть_2)

✔️Ответ:

4. Распределение (Distribution): Kafka Streams легко масштабируется и поддерживает распределение работы между несколькими экземплярами приложений Kafka Streams. Он использует встроенные возможности распределения и репликации данных в Apache Kafka, чтобы обеспечить высокую пропускную способность и отказоустойчивость.

5. Хранилища состояния (State Stores): Kafka Streams позволяет создавать и поддерживать распределенные хранилища состояния, которые могут быть использованы для сохранения временных данных и промежуточных результатов операций.

6. Задержки (Windowing): Kafka Streams имеет возможность выполнять агрегацию и аналитику данных на основе временных окон. Это позволяет выполнять рассчеты на основе данных за определенный временной промежуток или событий, произошедших за последние N секунд.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_105

🔠Q_105: Что такое stateful-обработка в Apache Kafka ?

✔️Ответ:

Stateful-обработка в Apache Kafka относится к способу обработки сообщений, при котором состояние (state) хранится и используется в процессе обработки сообщений.

В традиционной преобразовательной обработке сообщений, каждое сообщение обрабатывается независимо и не учитывает состояния предыдущих сообщений. Однако, в некоторых случаях, может быть необходимо учитывать предыдущие сообщения для более сложной логики обработки. Stateful-обработка позволяет сохранять и использовать состояние в процессе обработки сообщений для реализации более сложной логики.

Примеры использования stateful-обработки в Apache Kafka могут включать вычисление агрегированных данных по времени, дедупликацию сообщений, распределенную обработку запросов и т.д.

#work #kafka #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_106

🔠Q_106: что такое MapRCDP ?

✔️Ответ:

MapR-CDP (MapR Converged Data Platform) — это инновационная платформа для обработки и анализа данных, предоставляемая компанией MapR Technologies. MapR-CDP объединяет в себе возможности распределенного хранения данных, аналитики, искусственного интеллекта/машинного обучения и потоковой обработки данных в реальном времени в единой интегрированной системе.

Основные компоненты платформы включают в себя распределенную файловую систему MapR-FS, базу данных MapR-DB и систему потоковой обработки данных MapR Streams. MapR-CDP позволяет организациям эффективно управлять большими объемами данных, проводить анализ данных в реальном времени и применять машинное обучение и искусственный интеллект для получения ценных инсайтов.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107

🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_1)

✔️Ответ:

1. MapR-FS (файловая система): MapR использует свою распределенную файловую систему, которая обеспечивает высокую производительность и надежность. MapR-FS обеспечивает прозрачный доступ к данным в реальном времени и поддерживает ACID-транзакции для обеспечения консистентности данных.

2. MapR Control System: Это центральное управляющее приложение, которое позволяет администраторам мониторить и управлять распределенными кластерами MapR.

3. MapR Streams: Это распределенная платформа для обработки потоков данных в реальном времени. Она упрощает разработку и развертывание приложений, которые могут обрабатывать большие объемы данных в режиме реального времени.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_107

🔠Q_107: Каков состав и архитектура MapRCDP ? (Часть_2)

✔️Ответ:

4. MapR-DB: Это распределенная база данных, основанная на Apache HBase. MapR-DB предоставляет высокую производительность и надежность для хранения и обработки структурированных данных.

5. MapR-XD: Это распределенное хранилище данных для хранения больших объемов данных. MapR-XD предоставляет высокую пропускную способность и масштабируемость для обработки данных.

6. Apache Hadoop и другие инструменты: MapR также включает в себя Apache Hadoop, Spark, Drill и другие инструменты для обработки данных.

#work #maprdcp #ml #dl #learning #machine #bigdata #coding #apache #data #warehouse
🔄🔄🔄Читаем статьи за вас №2:

Большой гайд по планированию. Как впихнуть в сутки 40 часов и оставить время на личную жизнь?

🗣Основы планирования времени

Планирование времени включает в себя определение приоритетов и распределение задач. Важно учитывать личные предпочтения и биологические ритмы. Определение "антагонистов" и "протагонистов" "Антагонисты" - это процессы, которые отнимают ресурсы, не принося взамен ничего. "Протагонисты" - это процессы, которые восстанавливают ресурсы и должны быть увеличены.

🗣Анализ текущего расписания
Необходимо определить, какие задачи являются "антагонистами" и "протагонистами". Важно минимизировать "антагонисты" и увеличить "протагонисты".

🗣Составление нормального расписания

Планирование должно включать в себя буферы, "съесть лягушку", дробление, режим дня, cheat day и протагонисты. Буферы помогают избежать неожиданных ситуаций и обеспечивают защиту от стресса. "Съесть лягушку" - это выполнение самых сложных задач в начале дня для повышения самооценки. Дробление учебных блоков помогает избежать переутомления.
Режим дня включает в себя 8 часов сна и стабильное время подъема и отхода ко сну. Cheat day - это эмоциональная разгрузка в выходные. Протагонисты включают спорт, работу, отдых и минимизацию "антагонистов".

🗣Поиск недостатков в расписании
Необходимо обратить внимание на высокую нагрузку, учебу в дороге, жаворонков и сов, спорт и бессонницу.

🗣Универсальные советы
Концентрация и баланс между вредным и приятным в жизни важны для эффективного планирования. Чередование задач помогает поддерживать интерес и избегать монотонности. Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.

➡️links: https://habr.com/ru/articles/774964/
#articles #ml #dl #read #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔠🔠🔠🔠🔠: Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.

Links: https://github.com/meta-llama/llama-recipes

*Meta - экстремисткая огранизация запрещена в РФ,

#tools #github #optimization #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️⚡️⚡️https://github.com/CyberAlbSecOP/Awesome_GPT_Super_Prompting - невероятно огромный пак по работе с промптами для LLM. Очень много полезных инструментов, методик и подходов. Если вы занимаетесь LLM, то обязательно к прочтению.

#tools #github #optimization #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
2
https://github.com/leptonai/leptonai - быстрый запуск AI приложений, быстрое развертывание, быстрая адаптация, напоминает HugginnFace

#tools #github #optimization #ml #llm
👍2
Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢Cotype-Nano - 1.54 млрд. параметров;

🟠Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡Статья на Habr
🟡Набор моделей на HF

#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.

В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.

Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.

Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com


#Anthropic #ml #reasoning
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face

Исследование  показывает, какие организации и типы моделей определяют экосистему открытых моделей


🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face,  но именно они собирают более 80% из 45 миллиардов скачиваний

Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров - 
именно эти модели формируют лицо всего open-source ИИ.

📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров 
- 86.3% — < 500M 
- 70% — < 200M 
- 40% — < 100M 

Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.

🧠 Популярные направления:
- NLP — 58.1% 
- Computer Vision — 21.2% 
- Audio — 15.1% 
- Multimodal — 3.3% 
- Time Series — 1.7%

Кто создаёт самые скачиваемые модели:
-  Компании - 63.2%  (Google лидер)
-  Университеты - 20.7% 
-  Индивидуальные авторы - 12.1% 
-  НКО - 3.8% 
-  Прочие лаборатории - 0.3%

Какие типы моделей побеждают:
Текстовые энкодеры - 45% всех загрузок 
Декодеры - всего 9.5% 
Энкодер-декодеры - 3%

📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки  для интеграции в собственные продукты.

🇺🇸 Лидеры по странам: 
США доминируют по всем категориям: 
- встречаются 18 раз среди топ-50 скачиваний 
- на США приходится 56.4% всех загрузок

Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям,  мкоторые реально работают в продуктах и проектах.

🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats

#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM