DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🔄🔄🔄Читаем статьи за Вас №19:

📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.

📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.

📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.

📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.

📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.

📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.

📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.

📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.

📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.

📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.

📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.

📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.

https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db
Закрытая конференция Хабр для IT Журналистов, на которой я был. Самые топы из топов, эти люди стараются для вас.

На первой фотке Алексей aka Boomburum - главред Хабра уже 13 лет как.

https://vk.ru/album516931653_306871440
Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.

Регистрация уже открыта

Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.

Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки

Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.

Успейте подать заявку до 4 октября

Реклама. Фонд «Энергия без Границ». ИНН 7704278904. erid: LjN8K8Kqh
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Роболапки в каждый дом!

Котаны с huggingface & therobotstudio запили новый DIY-набор для роборук, за треть стоимости предыдущей версии.

Одна рука теперь обойдется в 125$, но нужен 3д принтер.

Не могу нарадоваться тренду на опенсорс роботикс и это вот все

Git с моделями и списком деталей
Git lerobot (soft для рук)
Lerobot discord
Технический директор OpenAI Мира Мурати покидает стартап

И опять двадцать пять: на этот раз из OpenAI уходят CTO Мира Мурати, директор по исследованиям Боб МакГрю и вице-президент по исследованиям Баррет Зоф.

В посте в Твиттере Альтман написал, что это было собственное независимое решение каждого из сотрудников, и расстались все полюбовно  🤨

Теперь в OpenAI  смена руководства полным ходом. Новым вице-президентом по исследованиям будет Марк Чен, место главного научного сотрудника займет Якуб Пачоцки, на должность главного ИБ-специалиста поставили Мэтта Найта, а Джош Ачиам будет руководителем отдела «mission alignment» (вместо давно ушедшего Яна Лейке).

Вот такая текучка
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Сегодня Hugging Face пробил 1 млн загруженных моделей!
Please open Telegram to view this post
VIEW IN TELEGRAM
4 октября встречаемся в Цифровом деловом пространстве!

Здесь снова пройдет фестиваль, который не оставит равнодушным никого и подарит незабываемые эмоции, — «Ночь инноваций». Участников ждут выступления топовых спикеров, яркие кейсы использования мультимедиа технологий в бизнесе и творчестве, VR-зона, шоу дронов, аромапутешествие и возможность выиграть лимитированный аромат «Агент инноваций». Завершится фестиваль презентацией нового трека от DJ Smash под специально созданные к выступлению артиста лазерное шоу и видеомэппинг.

Ну и самое главное — интерактивная выставка российских разработчиков. Каждый сможет все пощупать, примерить, покликать. Одним словом, полностью погрузиться в мир мультимедийных разработок.

Переходите на сайт, изучайте программу и регистрируйтесь.

Среди спикеров:

▫️DJ Smash, композитор и музыкальный продюсер
▫️Валерия Гай Германика, кинорежиссер и телеведущая
▪️Гавриил Гордеев, генеральный продюсер онлайн-кинотеатра Okko
▪️Юрий Усачев, композитор, DJ и продюсер. Основатель и участник поп-группы «Гости из будущего» и техно-фолк проекта Zventa Sventana
▪️Виктор Абрамов, директор музыкального лейбла VK Records, экс-креативный директор группы компаний Black Star
▪️Илья Бачурин, сооснователь кинотелевизионной студии «Главкино», генеральный директор ГБУК Москвы «Москонцерт»

Все подробности — на сайте фестиваля.
🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm

🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1🥰1
🌟 Ax — построение LLM-агентов на базе исследования Стэнфорда — DSP (demonstrate, search, predict)

npm install @ax-llm/ax

Ax позволяет несложно создавать интеллектуальных агентов, реализовывать бесшовную интеграцию с несколькими LLM и VectorDB для создания конвейеров RAG или агентов, способных решать сложные задачи.

🖥 GitHub
🟡 Доки
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔄🔄🔄Читаем статьи за Вас №20:

📚Функции потерь
Выпуклые функции чаще встречаются в классическом машинном обучении
Невыпуклые функции используются в нейронных сетях
Методы для выпуклых функций могут сходиться в локальном оптимуме для невыпуклых случаев

📚Классический градиентный спуск
Итеративный метод оптимизации для минимизации ошибки модели
Пакетный градиентный спуск хорошо масштабируется, но медленный на больших наборах данных
Мини-пакетный и стохастический градиентный спуск ускоряют процесс, но менее стабильны

📚Более быстрые и точные оптимизаторы
Momentum учитывает предыдущие градиенты для ускорения сходимости
Nesterov momentum вычисляет градиенты в направлении момента
AdaGrad снижает градиент вдоль крутых направлений, но может останавливаться слишком рано
RMSProp агрегирует градиенты на экспоненциально взвешенное скользящее среднее
Adam объединяет Momentum и RMSProp, сходится быстрее и лучше

📚Недостатки Adam и его модификаций
Adam сложен в анализе и чувствителен к шуму
Требует больших объемов памяти
При прерывании обучения необходимо восстанавливать все параметры

📚Модификации Adam
AdaMax использует экспоненциально взвешенную норму бесконечности
Nadam использует другую поправку на смещение
AdamW добавляет L2-регуляризацию
Yogi обновляет вектор второго момента с учётом разности второго момента и квадрата градиента
Adan использует модифицированный New Nesterov Momentum

📚Сравнение оптимизаторов
SDG, Momentum и Nesterov momentum менее стабильны
AdaGrad требует более высокого значения learning rate
RMSprop хорошо сработал в обоих случаях
Адаптивные методы стабильнее, но медленнее

📚Проблемы адаптивных методов
Адаптивные методы могут не сходиться при приближении к критическим точкам
AMSGrad и AdamNC решают проблему, но требуют дополнительных расходов памяти
AdamX учитывает различия в гиперпараметрах, но также требует дополнительных расходов памяти

📚Стратегии изменения скорости обучения
Плавное затухание, экспоненциальное затухание, дискретное сокращение
Warm Restart включает циклическое изменение скорости обучения
CosineAnnealingWarmRestarts регулирует скорость обучения на основе "косинусного отжига"

📚Работа с большими мини-пакетами
Большие батчи могут приводить к переобучению
Широкие локальные минимумы обеспечивают лучшую обобщающую способность
Маленькие батчи могут приводить к недообучению
Layer-wise Adaptive Rate Scaling (LARS)
Использует momentum для подбора скорости обучения для каждого слоя.
Плохо справляется со сложными моделями, такими как BERT.

📚LAMB (Layer-wise Adaptive Moments Based optimizer)
Использует двойную стратегию нормализации: нормализация каждого измерения и послойная нормализация.
Улучшает обучение модели BERT на больших батчах.

📚Проксимальные методы
Заменяют исходную задачу оптимизации на серию подзадач.
Метод проксимальной минимизации: регуляризация Тихонова, градиентный поток, итеративное уточнение.
Проксимальный градиентный метод (PGM): forward-backward splitting, majorization-minimization, fixed point iteration.
ISTA (Iterative Shrinkage(Soft)-Thresholding Algorithm): обновление проксимального градиента для L1-регуляризованной задачи наименьших квадратов.

📚Методы второго порядка
Используют информацию о вторых производных для более точного нахождения минимума.
Метод Ньютона: разложение в ряд Тейлора, квадратичная скорость сходимости, чувствительность к выбору начальной точки.
Регуляризация гессиана для решения проблемы с положительно определённой матрицей.

📚Высокая требовательность к вычислительным ресурсам
Метод Ньютона требует больших вычислительных затрат из-за квадратичной зависимости от числа параметров.
Альтернативные методы, такие как метод сопряжённых градиентов и BFGS, используют преимущества метода Ньютона, но требуют меньше памяти.
📚Метод сопряжённых градиентов
Использует спуск в сопряжённых направлениях, что позволяет избежать зигзагообразных траекторий.
Направления выбираются с учётом предыдущего значения, что гарантирует поиск минимума за ограниченное число итераций.
В нелинейном случае выполняется процедура рестарта для лучшей адаптации к изменениям в ландшафте функции потерь.

📚BFGS (Broyden–Fletcher–Goldfarb–Shanno)
Основан на аппроксимации обратного гессиана матрицей, которая итеративно уточняется.
Уравнение секущей позволяет найти решение, которое можно упростить с помощью взвешенной нормы Фробениуса.
BFGS использует аппроксимацию гессиана, что делает его более эффективным, но требует больше памяти.

📚SR1 (Symmetric Rank-1)
Использует обновление ранга 1, что сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
Полезен при невыполнении стандартных предположений BFGS или для методов определения доверительной области.

📚L-BFGS (Limited-memory BFGS)
Использует последние пары векторов и начальное приближение для аппроксимации гессиана.
Имеет линейные затраты на память и итерацию.
Метод выбора матрицы позволяет оценить размер истинного гессиана.

https://habr.com/ru/articles/813221/
#articles #analysis #model #eda #vectorization #db
Llama 3.2 появилась на Vision Арене

К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.

Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o .
Внезапно: губернатор Калифорнии все-таки не подписал закон о регуляции ИИ. Вместо этого он наложил на него вето

Причина: он считает закон недостаточно адаптивным, потому что в нем строгие стандарты применяются даже к самым базовым функциям, НО только для крупных моделей. При этом для моделей поменьше не учтены почти никакие нюансы. Подробнее о законопроекте мы писали тут.

«SB 1047 сосредоточен только на самых дорогих и масштабных моделях, хотя меньшие, специализированные
модели могут оказаться такими же или даже более опасными. Я согласен — мы не можем позволить себе ждать, пока произойдет крупная катастрофа. Калифорния не откажется от своей ответственности. Однако я не согласен, что для обеспечения общественной безопасности мы должны согласиться на решение, которое идет вразрез с эмпирическим анализом траектории развития ИИ.»

Вот так. Сам губернатор обещает внести «разумный» законопроект уже в течение года.
Замкнутый круг by Дженсен Хуанг: CEO Nvidia сказал, что нам потребуются AI агенты, чтобы противостоять темной стороне AI агентов

Мысль вот в чем: AI будет производить фейки и взламывать ресурсы с нечеловеческой скоростью, поэтому справиться с этим люди не смогут сами, и им понадобятся другие "добрые" ИИ. "Это похоже на белых хакеров",  –  говорит Хуанг.

Тут как говорится, чтобы выйти из зоны комфорта надо сначада войти в хону комфорта, а у нас агентов нет )))
This media is not supported in your browser
VIEW IN TELEGRAM
🥰42🍓2
🛞Кибер-учения от Cyber Camp, регайтесь пока есть возможность ))
Please open Telegram to view this post
VIEW IN TELEGRAM
3
🍀Читаем статьи за Вас №21:

🤓Мониторинг с Grafana. Best practices

🥺Введение в мониторинг
Мониторинг важен для понимания поведения сервисов и выявления проблем.
Каждый должен иметь свой собственный мониторинг, универсальных метрик не существует.

🥺Универсальный алгоритм создания дашборда
Определите, кто будет смотреть на дашборд, в каком случае и с какой целью.
Изучите инструмент: метрики, DSL, готовые шаблоны.
Начните с малого, дорабатывайте и автоматизируйте.

🥺Стратегии мониторинга
USE: мониторинг железа, сетевых интерфейсов, контроллеров.
RED: мониторинг приложений, метрики по запросам, ошибкам и времени выполнения.
4 Golden Signals: мониторинг задержек, объема трафика, ошибок и насыщения.

🥺Best practices
Базовая настройка: UTC timezone, отсутствие автоапдейта, небольшой time range при открытии.
Работа с панелями: repeat по переменным, переменные для интервалов агрегации, период агрегации в названии графика.
Отображение: используйте весь набор метрик, учитывайте порядок значений, устанавливайте абсолютные границы вертикальной оси.
Stacked time series: настройка Stacked для суммирования значений всех подов/пулов/серверов.

🥺Общие настройки и инструменты
Shared Crosshair и Shared Tooltip позволяют видеть значения на разных графиках одновременно.
Shared Crosshair tooltip можно включить с помощью hot key.
Сортировка значений на графике важна для анализа данных.

🥺Анализ данных
Сравнение перцентилей и медианы упрощает анализ данных.
Гистограммы по бакетам могут быть неточными из-за конфигурации бакетов.
Отклонения от среднего помогают найти аномалии в нагрузке.

🥺Нейминг метрик
Метрики должны соответствовать формату Prometheus.
Имена метрик должны быть простыми и понятными.
Высокая кардиналити метрик может быть проблемой.

🥺Редактирование и аннотации
Используйте редактор json для массового изменения графиков.
Аннотации помогают отслеживать деплои и другие события.
Добавляйте ссылки на детальные дашборды и логи для удобства.

🥺Общие советы по мониторингу
Проводите командное ревью дашбордов.
Используйте логи и трейсы для мониторинга.
Собирайте дашборды под конкретные цели.
Делитесь информацией о командных мониторингах.

https://habr.com/ru/companies/karuna/articles/771134/
#articles #analysis #model #eda #vectorization #graphana
Please open Telegram to view this post
VIEW IN TELEGRAM