DenoiseLAB – Telegram

DenoiseLAB

486 subscribers

1.33K photos

159 videos

3 files

1.57K links

Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.

Download Telegram

About

Blog

Apps

Platform

486 subscribers

☄️

☄️

☄️Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.

Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

🖥

🟡

Доки

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #lib

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - flairNLP/flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)

A very simple framework for state-of-the-art Natural Language Processing (NLP) - flairNLP/flair

60 viewsedited 07:17

☄️

☄️

☄️

Apple только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Модель | Код | Датасет | Статья

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #models

Please open Telegram to view this post

VIEW IN TELEGRAM

apple/DCLM-7B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

63 viewsedited 07:20

✨✨✨Тройка крутых статей
https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

https://huggingface.co/papers/2407.09435

https://huggingface.co/papers/2407.09025

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#articles #nlp

Please open Telegram to view this post

VIEW IN TELEGRAM

Microsoft Research

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena - Microsoft Research

66 viewsedited 07:23

https://kod.ru/openai-otsienila-siebia-v-100-mlrd-dollarov - я царь, я так вижу ))) OpenAI оценила себя в 100 млрд притом что доходы в 50 раз ниже.

Код Дурова

OpenAI оценила себя в 100 млрд долларов

OpenAI ведет переговоры о привлечении финансирования, в рамках которого компания будет оценена более чем в 100 миллиардов долларов.

74 views08:14

https://arxiv.org/pdf/2406.06608 - супер огромный учебник по промптам от стандартных запросов до взлома.

🔥1

67 viewsedited 08:19

https://www.nzz.ch/visuals/vegan-links-so-wuerde-chatgpt-in-sachsen-und-thueringen-waehlen-ld.1845641?mktcid=smch&mktcval=twpost_31-08-2024 - в целом все ожидаемо, сообщается что ChatGPT будет голосовать за веганство, зеленых и левых. Субьективность... а не, не слышали.

Neue Zürcher Zeitung

Woke, vegan & links: So würde Chat-GPT in Sachsen und Thüringen wählen

Die NZZ hat die KI hundert Mal den «Wahl-O-Mat» zu den Wahlen in Sachsen und Thüringen absolvieren lassen. Das Ergebnis war immer das gleiche.

68 views09:57

https://qwenlm.github.io/blog/qwen2-vl/ - Qwen2-VL вышел в релиз

- работа с динамическим разрешением входных изображений

- мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией

Qwen2-VL: To See the World More Clearly

DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD
After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compared with Qwen-VL,…

68 viewsedited 10:55

🔄

🔄

🔄Читаем статьи за Вас №3:

🗣Проблема нормализации данных

Нормализация данных необходима для сравнения признаков с разными диапазонами значений.
Стандартизация и робастная нормализация часто используются, но имеют недостатки.

🗣Стандартизация

Среднее арифметическое значение используется для центрирования данных.
Медиана предпочтительнее среднего арифметического для разных распределений.
Стандартное отклонение не всегда подходит для равномерного влияния признаков.

🗣Межквартильный интервал

Интервал между 75-м и 25-м процентилями используется для нормализации.
Проблема "хвостов" распределений может привести к искажению результатов.

🗣Размах значений

Размах значений признака используется для нормализации, но может быть искажен выбросами.
Проблема выбросов требует их удаления или учета в новом диапазоне.

🗣Автоматическое определение выбросов

Межквартильный метод используется для автоматического определения выбросов.
Проблема длинных "хвостов" может потребовать индивидуального подхода.

🗣Скорректированный интервал

Метод скорректированного интервала учитывает асимметрию распределения и обеспечивает равномерное влияние признаков.
Метод эффективен для центрирования и вписывания данных в заданный диапазон.

🗣Сравнение методов

Метод скорректированного интервала превосходит другие методы по универсальности и эффективности.
Демонстрационный класс AdjustedScaler доступен для экспериментов.

https://github.com/newchronik/adjdatatools - прикольный инструмент для корректировки данных, в целом не такая замысловатая формула, но очень хорошее объяснение, как правильно проводить анализ смещений в данных при нормализации и стандартизации.
вот тут еще есть статейка: https://habr.com/ru/articles/527334/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - newchronik/adjdatatools: This library contains adjusted tools for data preprocessing and working with mixed data types

This library contains adjusted tools for data preprocessing and working with mixed data types - newchronik/adjdatatools

🔥1

69 views19:36

🔄

🔄

🔄Читаем статьи за Вас №4:

🗣Отравление данных

Отравление данных — это метод атаки, при котором в модель вводятся паттерны, приводящие к неправильной классификации данных.
Отравление данных может использоваться для создания бэкдоров в моделях машинного обучения.

🗣Примеры и последствия отравления данных

Отравление данных может привести к неправильной классификации изображений, например, собак и торговых марок.
Отравление данных может быть использовано для управления системами, такими как беспилотные автомобили, через триггеры.

🗣Методы и проблемы отравления данных

Исследователи разрабатывают новые методы отравления данных, такие как TrojanNet, которые позволяют создавать бэкдоры без изменения исходной модели.
Методы отравления данных могут быть эффективными, но требуют доступа к исходным данным и могут снижать точность модели.

🗣Обеспечение безопасности моделей машинного обучения

Обеспечение безопасности моделей ИИ сложнее, чем традиционных программ, и требует разработки специализированных инструментов.
Важно проверять источники моделей и внедрять их только из надежных источников.

https://habr.com/ru/companies/piter/articles/661083/
https://github.com/trx14/TrojanNet

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Что такое отравление данных при помощи машинного обучения?

Любому очевидно, что ниже показаны три совершенно разные картинки: птица, собака и лошадь. Но с точки зрения алгоритма машинного обучения , все три могут восприниматься как одинаковые: ведь на каждом...

67 views19:59

🔄

🔄

🔄Читаем статьи за Вас №5:

Применение факторного анализа

🗣Факторный анализ позволяет увидеть степень влияния различных аспектов и сформировать группы тесно связанных параметров.

Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.

🗣Определение количества факторов

Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.

🗣Интерпретация и анализ результатов

Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.

https://habr.com/ru/articles/687338/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Факторный анализ для интерпретации исследования клиентского опыта

Что исследуем Вы провели опрос клиентского опыта в вашей компании. В данном случае на каждый вопрос клиенты отвечали по 10 бальной шкале, где 1 - совсем неудовлетворен, а 10 - полностью удовлетворен....

84 views20:33

🔄

🔄

🔄Читаем статьи за Вас №6:

🗣Анализ продуктовых фичей

Продуктовый аналитик занимается анализом пользовательского поведения и интерфейса продукта.
Исследования фичей включают новые релизы и старые функции, которые ранее не были затронуты.
Основная задача — определить, нравится ли пользователям новая функция и приносит ли она прибыль.

🗣Структура анализа
Продукт состоит из множества механик и фичей, управление которыми осуществляется через микро-показатели.
Улучшение каждой части системы приводит к улучшению всего продукта.
Для оценки эффективности фичей используются 5 метрик, которые описывают результаты взаимодействия пользователя с функцией.

🗣Базовые метрики
Adoption Rate (заметность) измеряет количество взаимодействий с функцией за день по отношению к общему количеству активных пользователей.
Engagement Rate (выполнение задачи) оценивает количество пользователей, выполнивших ключевую задачу функции за день.
Stickiness (закрепление функции) показывает, насколько часто пользователи возвращаются к функции в течение дня.
Conversion Rate (конверсия) оценивает долю конвертировавшихся пользователей функции в общем объеме пользователей.
Monetization Impact (влияние на доходы) оценивает влияние функции на доходы от приложения.

🗣Применение метрик
Все метрики в совокупности дают представление о характере функции и её влиянии на бизнес-цели.
Для анализа используется график Spider/Radar, который позволяет визуализировать сильные и слабые стороны продукта.
На основе графика можно наметить план детального исследования функций.

🗣Практическое применение
Метрики помогают определить, какие функции популярны среди пользователей и как они влияют на доходы.
Анализ метрик позволяет выявить проблемы с дизайном функций и определить направления для улучшения.
Система метрик может быть адаптирована для разных типов продуктов и использоваться для ранжирования функций.

https://habr.com/ru/articles/807585/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Базовый анализ продуктовых фичей

Привет, я работаю продуктовым аналитиком и мои задачи, в большей степени, связаны с анализом пользовательского поведения в продукте. Пожалуй, чаще всего, мне приходится работать с разного рода...

85 viewsedited 11:19

This media is not supported in your browser

VIEW IN TELEGRAM

Нейросетка генерит морских чудищь. Вау, все супер реалистично и невероятно круто !!!

91 views11:57

AI Tutor Pro — ИИ-репетитор для ЛЮБОЙ области. Вбивайте нужную тему — и получайте ключевые тезисы
Typeset — ИИ-поисковик с научной базой. Умеет чатиться с PDF
Qwen2-Math — мощнейшая нейронка из Китая для математики. Уничтожает задачки любой сложности
MathGPT Pro — щелкает математические задачи в любом формате: по тексту, фото и даже по голосовому описанию
Vocalo — прокачает ваш английский до уровня носителя
Explainpaper — разжует ЧТО УГОДНО простыми словами. Закидываем в него учебник и всё понимаем
Answer AI — решает задачки по фотке, помогает с сочинениями и пересказывает длинные параграфы
Undetectable AI — переведет любой ИИ-текст на человечий и спрячет от антиплагиата
BypassGPT — работает аналогично предыдущей
Scite — ChatGPT для рисерча. Выдаст любую инфу для рефератов вместе с источниками
InternLM2-Math-7B — решит пример и опишет весь ход его решения
Explorer — делает красивые наглядные доклады на любую тему. От вас требуется только заголовок
Claude 3.5 Sonnet — старина Claude умеет превращать любую инфу в интерактивный учебник. Промпт по ссылке.
Cheatography — сайт с 6000 шпаргалок по чему угодно
LanguageTool — исправляет любые ошибки в тексте: от грамматических до стилистических.

Не заходи без шапочки из фольги и пары надежных проксей. Интернет, уязвимости, полезные сервисы и IT-безопасность.

Сотрудничество: @holartem

Канал включён в перечень РКН: https://rkn.link/FLO

116 views04:49

This media is not supported in your browser

VIEW IN TELEGRAM

"Портериану" переложили сетками на "Во все тяжкие". Наконец-то франшиза приобрела нормальный оттенок )))

89 viewsedited 05:30

Исследователи из Университета Миннесоты Твин-Ситис разработали новую архитектуру аппаратного обеспечения под названием Computational Random-Access Memory (CRAM), направленную на значительное снижение энергопотребления.

Об этом сообщается в статье, опубликованной в журнале npj Unconventional Computing. В традиционных подходах используется энергоемкая передача данных между логическими блоками и памятью, тогда как CRAM обрабатывает информацию непосредственно в массиве памяти, основываясь на технологии спинтронных устройств, которые используют спин электронов для хранения данных.

CRAM может уменьшить потребление энергии в области искусственного интеллекта в 1000 раз, что является решением одной из ключевых проблем — высоких затрат на энергоресурсы. Международное энергетическое агентство (IEA) прогнозирует, что потребление энергии в ИИ удвоится, увеличившись с 460 ТВт/ч в 2022 году до 1000 ТВт/ч к 2026 году, что соответствует общему потреблению электроэнергии в Японии.

https://neurohive.io/ru/papers/cram-novaya-apparatnaya-arhitektura-snizhaet-energopotreblenie-ii-v-1000-raz/

#articles #tools #analysis #math

Neurohive - Нейронные сети

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

CRAM способен сократить использование энергии ИИ в 1000 раз, решая одну из главных проблем в этой области: потребление энергоресурсов.

79 viewsedited 15:32

This media is not supported in your browser

VIEW IN TELEGRAM

Ну, этого стоило ожидать рано или поздно, так что лучше поздно )))

🔥1

82 views04:00

https://2024.cybercamp.su/?utm_source=jet&utm_medium=email&utm_campaign=cc24&utm_term=base

2024.cybercamp.su

Практическая онлайн-конференция
для кибербезопасников. Проводим
третий год подряд!

70 views15:09

🔄

🔄

🔄Читаем статьи за Вас №7:

🗣Основы продуктовой аналитики

Продуктовая аналитика включает в себя сбор и анализ данных о продукте для улучшения его качества.
Аналитики используют данные для выявления проблем и возможностей продукта.

🗣Процесс исследования

Исследование начинается с определения проблемы и постановки целей.
Необходимо сформулировать вопросы для исследования и определить ограничения.
После сбора данных следует их анализ и подготовка плана исследования.

🗣Анализ данных

Перед анализом данных необходимо их очистить и обработать.
В процессе анализа следует искать закономерности и зависимости.
Визуализация данных является важным этапом для создания понятного отчета.

🗣Выводы и рекомендации

В конце исследования необходимо подвести итоги и сформулировать рекомендации.
Отчет должен быть оформлен в удобном для всех участников формате.

🗣Оформление отчета

Существуют различные форматы отчетов, но важно, чтобы они были понятны для читателей.
Рекомендуется использовать R для написания отчетов и R Quarto для рендеринга в PDF.

https://habr.com/ru/articles/781466/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Краткое руководство по анализу данных и проведению продуктовых исследований

Обложка любезно предоставлена DALL-E Привет. Я занимаюсь продуктовой аналитикой уже довольно давно, и так получилось, что чаще всего в работе мне прилетают именно продуктовые рисёрчи. Иногда нужно...

👍1

67 views15:19

🔄

🔄

🔄Читаем статьи за Вас №8:

🗣Основы продуктовой аналитики

Цифры играют ключевую роль в развитии бизнеса, но их одного недостаточно.
Продуктовый аналитик является связующим звеном между бизнесом и данными.
Аналитик решает множество задач, включая анализ поведения пользователей и генерацию гипотез.

🗣Преобразование данных в инсайты

Продуктовый аналитик должен уметь превращать данные в полезные для бизнеса выводы.
Пример: анализ воронки продаж цветочного магазина для улучшения конверсии.

🗣Процесс продуктовой аналитики

Постановка задачи: определение проблемы, например, низкая конверсия на этапе оплаты.
Поиск информации: изучение исторических данных и уточнение у продакт-менеджера.
Анализ данных: критическое мышление и визуализация данных для выявления проблем.
Формулирование гипотез: выявление причин проблем и разработка решений.
Валидация гипотез: проверка идей с помощью здравого смысла и данных.
Решение проблемы: разработка и внедрение решений совместно с другими специалистами.

🗣Заключительный этап

Преобразование данных в практические инсайты: умение видеть связи и генерировать гипотезы.
Важность продуктовой аналитики: значительный вклад в развитие бизнеса и стоимость компании.

https://habr.com/ru/articles/794670/

#articles #analysis

Please open Telegram to view this post

VIEW IN TELEGRAM

Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса

Денис Middle Product Analyst, MTC Привет Хабр! Меня зовут Денис, я продуктовый аналитик из МТС, ex-Tinkoff. Также я ментор и любитель конференций, на которых я периодически появляюсь и даже что-то...

74 views06:25

https://selectel.ru/blog/events/kubernetes-meetup-2024/?m-message-key-id=3846074087973453824&m-message-click-id=f3450814-d14f-43ed-80a5-616cad1c5a27&utm_source=mindbox_reg&utm_medium=email&utm_campaign=Events_Invitation_040924

Академия Selectel

Kubernetes MeetUp

Поделимся современными практиками, кейсами и стратегиями решения бизнес-задач с помощью Kubernetes.

67 views09:50