DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
В Минцифры подтвердили, что Google ограничил создание новых аккаунтов с помощью российских мобильных номеров.

При этом подтверждение авторизации через SMS для уже созданных аккаунтов ещё работает. В министерстве посоветовали пользователям Google создать резервные копии данных, задействовать дополнительные способы двухфакторной аутентификации или перейти на российские почтовые платформы.

Ранее пользователи Google заявляли, что при регистрации аккаунтов не приходили сообщения для верификации.
🤔1💔1
🔄🔄🔄Читаем статьи за Вас №17

📚Функции потерь и градиентный спуск
Функции потерь делятся на выпуклые и невыпуклые, с разными подходами к оптимизации.
Градиентный спуск - численный метод оптимизации, основанный на минимизации ошибки модели.
Существуют различные подходы к градиентному спуску, включая пакетный, мини-пакетный и стохастический.

📚Более быстрые и точные оптимизаторы
Momentum и Nesterov momentum - стохастические оптимизации, улучшающие сходимость и точность.
AdaGrad и RMSProp - адаптивные методы градиентного спуска с различными подходами к обновлению параметров.
Adam и его модификации - комбинация Momentum и RMSProp с улучшенными характеристиками сходимости и устойчивости к гиперпараметрам.

📚Обзор алгоритмов оптимизации
Adam - популярный алгоритм, но сложен в анализе и чувствителен к шуму.
Требует больших объемов памяти и может быть чувствителен к прерыванию обучения.
Существуют модификации Adam, улучшающие его характеристики.

📚Сравнение оптимизаторов
SDG, Momentum и Nesterov momentum менее стабильны и зависят от начальных значений learning rate.
RMSprop и Adam-подобные методы показали лучшие результаты в обоих случаях.
Адаптивные методы могут быть более стабильными и быстрыми, но не всегда универсальными.

📚Проблемы адаптивных методов
При приближении к критическим точкам адаптивные методы могут не сходиться.
AMSGrad и AdamNC предлагают решения для улучшения сходимости.
AdamX учитывает различия в гиперпараметрах и избегает проблем с сходимостью.

📚Стратегии изменения скорости обучения
Существуют различные стратегии изменения скорости обучения, включая плавное затухание и экспоненциальное затухание.
Важно аккуратно подбирать learning rate, чтобы избежать преждевременного выхода на плато или расхождения.

📚Работа с большими мини-пакетами
Большие мини-пакеты могут привести к переобучению и ухудшению обобщающей способности модели.
Использование маленьких батчей может привести к недообучению и более шумным оценкам градиента.

📚Layer-wise Adaptive Rate Scaling (LARS)
LARS использует локальный learning rate для каждого слоя, что позволяет использовать большие партии без потери качества.
Однако LARS плохо справляется с моделями с важными слоями, такими как BERT, из-за нестабильности градиентов.
Layer-wise Adaptive Moments Based optimizer (LAMB)
LAMB применяет двойную стратегию нормализации для более точной настройки весов модели.
LAMB позволяет значительно улучшить обучение BERT, сокращая время обучения и увеличивая размер пакета.
LAMB имеет модификации для ускорения обучения и повышения стабильности.

📚Проксимальные методы
Проксимальные методы заменяют сложные задачи оптимизации на более простые, аппроксимируя новое решение к текущему.
Проксимальный градиентный метод (PGM) используется для решения задач с гладкой и негладкой функциями.
ISTA (Iterative Shrinkage(Soft)-Thresholding Algorithm) позволяет получить разреженную модель и имеет модификации для ускорения сходимости.

📚Методы второго порядка
Методы второго порядка используют информацию о вторых производных для более точного нахождения точек минимума.
Метод Ньютона обеспечивает квадратичную скорость сходимости и устойчив к плохо обусловленным задачам.
Однако метод Ньютона чувствителен к выбору начальной точки и требует подбора шага.

📚Требования к вычислительным ресурсам
Метод Ньютона требует больших вычислительных затрат из-за квадратичной зависимости от параметров.

📚Альтернативы методу Ньютона
Метод сопряжённых градиентов использует сопряжённые направления для поиска минимума.
BFGS (Broyden-Fletcher-Goldfarb-Shanno) является квазиньютоновским методом с итеративным уточнением обратного гессиана.
SR1 (Symmetric Rank-1) сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
L-BFGS (Limited-memory BFGS) использует последние пары векторов для аппроксимации гессиана, что снижает затраты на память и итерацию.
Shampoo сочетает точность алгоритмов второго порядка с скоростью алгоритмов первого порядка, используя произведение градиентов для формирования предобусловленной матрицы.
📚Сложности и ограничения
BFGS и SR1 требуют больших вычислительных затрат для хранения матриц.
L-BFGS и Shampoo требуют значительных вычислительных ресурсов для работы с полносвязными и эмбэддинг слоями.
Шампунь требует больших вычислительных затрат при вычислении p-х корней матриц.

📚Улучшения в алгоритме "Шампунь"
Вычисление предобуславливателей каждые несколько сотен шагов для повышения точности.
Использование эффективных итерационных методов для вычисления корней вместо СВД.
Применение предобуславливателей или для улучшения точности.
Параллельное решение на GPU для повышения производительности.

📚Тензорная форма и практическое применение
Алгоритм "Шампунь" реализован в тензорной форме для работы с тензорами произвольной размерности.
В будущем ожидается рост популярности и значимости алгоритма в различных областях инженерии и науки.

https://habr.com/ru/articles/813221/

#articles #analysis #model #eda
This media is not supported in your browser
VIEW IN TELEGRAM
Парень выложил видео, как проходит собеседование у ИИ-аватара.

Больше всего удивил тот факт, что парня никто не предупреждал об этом. Выглядит это очень жутко и неэтично.

Из «роботы заберут у нас работу» до «роботы дадут нам работу» один шаг
Forwarded from Код Дурова
🚘 Цифровые релоканты //

Холдинг VK объявил, что с момента запуска проекта Xmail более 1,6 миллиона россиян перенесли свои почтовые ящики с сервиса Gmail на отечественный Xmail.

Сервис Xmail был запущен в августе 2023 года на фоне слухов ограничения Gmail для россиян. С его помощью пользователи могут перенести свои почтовые ящики Google на новый отечественный домен, сохранив все письма и другие данные.

Ранее Минцифры РФ рекомендовало российским пользователям Google создавать резервные копии данных на фоне слухов об ограничениях со стороны компании. При этом сама компания внедрение каких-либо санкций отрицает.

@d_code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №18:

📚Задачи рекомендательных систем
Рекомендация комфортных маршрутов учитывает различные аспекты поездки. Рекомендация свежих новостей требует понимания содержания статьи. Рекомендация ресторанов включает в себя не только выбор ресторана, но и конкретных блюд. Рекомендация товаров для разных групп людей требует индивидуального подхода.

📚Методы оценки качества рекомендательных систем
Онлайн-оценка качества включает в себя проверку на пользователях.
Оффлайн-оценка качества использует метрики ранжирования, такие как MAP@k и nDCG@k.

📚Данные для рекомендательных систем
Explicit feedback включает в себя явные оценки пользователей.
Implicit feedback включает в себя неявные предпочтения, такие как просмотры и клики.

📚Обучение рекомендательных систем
Bayesian Personalized Ranking использует положительные примеры для обучения. Weighted Approximate-Rank Pairwise учитывает адаптивный learning rate.

📚Расширение рекомендательных систем
Холодный старт включает в себя рекомендации для новых пользователей и товаров. Long Tail включает в себя рекомендации для малоизвестных товаров. Exploration vs Exploitation балансирует между повторением и разнообразием рекомендаций.

📚Неперсонализированные рекомендации
Сортировка по популярности включает в себя вычитание лайков из дислайков. Сортировка по среднему рейтингу учитывает количество оценок, но не их процентное соотношение. Доверительный интервал позволяет учитывать количество оценок и их процентное соотношение.

📚Методы выделения часто встречающихся множеств товаров
Pattern mining включает в себя различные методы для выделения часто встречающихся множеств товаров. Алгоритмы pattern mining выполняют сокращенный поиск в ширину и отсекают редкие множества.

📚Основы рекомендательных систем
Content-Based подход использует историю действий пользователя для создания вектора предпочтений. Collaborative Filtering использует матрицу оценок для ранжирования похожих пользователей и айтемов.

📚Методы и алгоритмы
Matrix Factorization позволяет разложить матрицу оценок на произведение трех матриц, игнорируя пропуски.
Netflix Prize стимулировал развитие рекомендательных систем, требуя улучшения метрики RMSE на 10%.
Нейросети используются для учета дополнительных данных о пользователях и айтемах.

📚Применение и развитие
Netflix Prize не использовал полученное решение, так как оно было слишком дорогим и не принесло значительного улучшения.
В современных рекомендательных системах используются различные архитектуры и подходы, включая DSSM и Attentive Collaborative Filtering.

https://habr.com/ru/companies/jetinfosystems/articles/453792/
#articles #analysis #model #eda
🔄🔄🔄Читаем статьи за Вас №19:

📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.

📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.

📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.

📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.

📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.

📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.

📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.

📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.

📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.

📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.

📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.

📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.

https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db
Закрытая конференция Хабр для IT Журналистов, на которой я был. Самые топы из топов, эти люди стараются для вас.

На первой фотке Алексей aka Boomburum - главред Хабра уже 13 лет как.

https://vk.ru/album516931653_306871440
Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.

Регистрация уже открыта

Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.

Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки

Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.

Успейте подать заявку до 4 октября

Реклама. Фонд «Энергия без Границ». ИНН 7704278904. erid: LjN8K8Kqh
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Роболапки в каждый дом!

Котаны с huggingface & therobotstudio запили новый DIY-набор для роборук, за треть стоимости предыдущей версии.

Одна рука теперь обойдется в 125$, но нужен 3д принтер.

Не могу нарадоваться тренду на опенсорс роботикс и это вот все

Git с моделями и списком деталей
Git lerobot (soft для рук)
Lerobot discord
Технический директор OpenAI Мира Мурати покидает стартап

И опять двадцать пять: на этот раз из OpenAI уходят CTO Мира Мурати, директор по исследованиям Боб МакГрю и вице-президент по исследованиям Баррет Зоф.

В посте в Твиттере Альтман написал, что это было собственное независимое решение каждого из сотрудников, и расстались все полюбовно  🤨

Теперь в OpenAI  смена руководства полным ходом. Новым вице-президентом по исследованиям будет Марк Чен, место главного научного сотрудника займет Якуб Пачоцки, на должность главного ИБ-специалиста поставили Мэтта Найта, а Джош Ачиам будет руководителем отдела «mission alignment» (вместо давно ушедшего Яна Лейке).

Вот такая текучка
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Сегодня Hugging Face пробил 1 млн загруженных моделей!
Please open Telegram to view this post
VIEW IN TELEGRAM
4 октября встречаемся в Цифровом деловом пространстве!

Здесь снова пройдет фестиваль, который не оставит равнодушным никого и подарит незабываемые эмоции, — «Ночь инноваций». Участников ждут выступления топовых спикеров, яркие кейсы использования мультимедиа технологий в бизнесе и творчестве, VR-зона, шоу дронов, аромапутешествие и возможность выиграть лимитированный аромат «Агент инноваций». Завершится фестиваль презентацией нового трека от DJ Smash под специально созданные к выступлению артиста лазерное шоу и видеомэппинг.

Ну и самое главное — интерактивная выставка российских разработчиков. Каждый сможет все пощупать, примерить, покликать. Одним словом, полностью погрузиться в мир мультимедийных разработок.

Переходите на сайт, изучайте программу и регистрируйтесь.

Среди спикеров:

▫️DJ Smash, композитор и музыкальный продюсер
▫️Валерия Гай Германика, кинорежиссер и телеведущая
▪️Гавриил Гордеев, генеральный продюсер онлайн-кинотеатра Okko
▪️Юрий Усачев, композитор, DJ и продюсер. Основатель и участник поп-группы «Гости из будущего» и техно-фолк проекта Zventa Sventana
▪️Виктор Абрамов, директор музыкального лейбла VK Records, экс-креативный директор группы компаний Black Star
▪️Илья Бачурин, сооснователь кинотелевизионной студии «Главкино», генеральный директор ГБУК Москвы «Москонцерт»

Все подробности — на сайте фестиваля.
🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm

🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1🥰1
🌟 Ax — построение LLM-агентов на базе исследования Стэнфорда — DSP (demonstrate, search, predict)

npm install @ax-llm/ax

Ax позволяет несложно создавать интеллектуальных агентов, реализовывать бесшовную интеграцию с несколькими LLM и VectorDB для создания конвейеров RAG или агентов, способных решать сложные задачи.

🖥 GitHub
🟡 Доки
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔄🔄🔄Читаем статьи за Вас №20:

📚Функции потерь
Выпуклые функции чаще встречаются в классическом машинном обучении
Невыпуклые функции используются в нейронных сетях
Методы для выпуклых функций могут сходиться в локальном оптимуме для невыпуклых случаев

📚Классический градиентный спуск
Итеративный метод оптимизации для минимизации ошибки модели
Пакетный градиентный спуск хорошо масштабируется, но медленный на больших наборах данных
Мини-пакетный и стохастический градиентный спуск ускоряют процесс, но менее стабильны

📚Более быстрые и точные оптимизаторы
Momentum учитывает предыдущие градиенты для ускорения сходимости
Nesterov momentum вычисляет градиенты в направлении момента
AdaGrad снижает градиент вдоль крутых направлений, но может останавливаться слишком рано
RMSProp агрегирует градиенты на экспоненциально взвешенное скользящее среднее
Adam объединяет Momentum и RMSProp, сходится быстрее и лучше

📚Недостатки Adam и его модификаций
Adam сложен в анализе и чувствителен к шуму
Требует больших объемов памяти
При прерывании обучения необходимо восстанавливать все параметры

📚Модификации Adam
AdaMax использует экспоненциально взвешенную норму бесконечности
Nadam использует другую поправку на смещение
AdamW добавляет L2-регуляризацию
Yogi обновляет вектор второго момента с учётом разности второго момента и квадрата градиента
Adan использует модифицированный New Nesterov Momentum

📚Сравнение оптимизаторов
SDG, Momentum и Nesterov momentum менее стабильны
AdaGrad требует более высокого значения learning rate
RMSprop хорошо сработал в обоих случаях
Адаптивные методы стабильнее, но медленнее

📚Проблемы адаптивных методов
Адаптивные методы могут не сходиться при приближении к критическим точкам
AMSGrad и AdamNC решают проблему, но требуют дополнительных расходов памяти
AdamX учитывает различия в гиперпараметрах, но также требует дополнительных расходов памяти

📚Стратегии изменения скорости обучения
Плавное затухание, экспоненциальное затухание, дискретное сокращение
Warm Restart включает циклическое изменение скорости обучения
CosineAnnealingWarmRestarts регулирует скорость обучения на основе "косинусного отжига"

📚Работа с большими мини-пакетами
Большие батчи могут приводить к переобучению
Широкие локальные минимумы обеспечивают лучшую обобщающую способность
Маленькие батчи могут приводить к недообучению
Layer-wise Adaptive Rate Scaling (LARS)
Использует momentum для подбора скорости обучения для каждого слоя.
Плохо справляется со сложными моделями, такими как BERT.

📚LAMB (Layer-wise Adaptive Moments Based optimizer)
Использует двойную стратегию нормализации: нормализация каждого измерения и послойная нормализация.
Улучшает обучение модели BERT на больших батчах.

📚Проксимальные методы
Заменяют исходную задачу оптимизации на серию подзадач.
Метод проксимальной минимизации: регуляризация Тихонова, градиентный поток, итеративное уточнение.
Проксимальный градиентный метод (PGM): forward-backward splitting, majorization-minimization, fixed point iteration.
ISTA (Iterative Shrinkage(Soft)-Thresholding Algorithm): обновление проксимального градиента для L1-регуляризованной задачи наименьших квадратов.

📚Методы второго порядка
Используют информацию о вторых производных для более точного нахождения минимума.
Метод Ньютона: разложение в ряд Тейлора, квадратичная скорость сходимости, чувствительность к выбору начальной точки.
Регуляризация гессиана для решения проблемы с положительно определённой матрицей.

📚Высокая требовательность к вычислительным ресурсам
Метод Ньютона требует больших вычислительных затрат из-за квадратичной зависимости от числа параметров.
Альтернативные методы, такие как метод сопряжённых градиентов и BFGS, используют преимущества метода Ньютона, но требуют меньше памяти.
📚Метод сопряжённых градиентов
Использует спуск в сопряжённых направлениях, что позволяет избежать зигзагообразных траекторий.
Направления выбираются с учётом предыдущего значения, что гарантирует поиск минимума за ограниченное число итераций.
В нелинейном случае выполняется процедура рестарта для лучшей адаптации к изменениям в ландшафте функции потерь.

📚BFGS (Broyden–Fletcher–Goldfarb–Shanno)
Основан на аппроксимации обратного гессиана матрицей, которая итеративно уточняется.
Уравнение секущей позволяет найти решение, которое можно упростить с помощью взвешенной нормы Фробениуса.
BFGS использует аппроксимацию гессиана, что делает его более эффективным, но требует больше памяти.

📚SR1 (Symmetric Rank-1)
Использует обновление ранга 1, что сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
Полезен при невыполнении стандартных предположений BFGS или для методов определения доверительной области.

📚L-BFGS (Limited-memory BFGS)
Использует последние пары векторов и начальное приближение для аппроксимации гессиана.
Имеет линейные затраты на память и итерацию.
Метод выбора матрицы позволяет оценить размер истинного гессиана.

https://habr.com/ru/articles/813221/
#articles #analysis #model #eda #vectorization #db
Llama 3.2 появилась на Vision Арене

К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.

Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o .