DenoiseLAB

https://hightech.plus/2024/08/26/ibm-zakrivaet-nauchnie-centri-v-kitae--bez-raboti-ostanutsya-bolee-1000-sotrudnikov - IBM закрывает научные разработки в Китае, а значит конкуренция в областии ИИ, перешагнула самый высокий барьер.

В чем суть, научные связи и коммуникации одни из самых прочных в социальных отношениях, они могут многое пережить и перенести. Но когда такое массовое начинается, речь уже идет о национальной безопасности.

Хайтек+

IBM закрывает научные центры в Китае — без работы останутся более 1000 сотрудников

Компания IBM подтвердила закрытие своего исследовательского центра в Китае, из-за чего без работы останутся более 1000 сотрудников по всей стране. Работники в Пекине, Шанхае, Даляне и других городах были внезапно лишены доступа к исследовательским и тестовым…

76 views10:09

DenoiseLAB

https://mimesis.name/en/master/ - генератор фейковых данных, генерим синтетику правильно.

68 views12:22

DenoiseLAB

https://habr.com/ru/articles/839016/ - написал статейку как мы участвовали на Хакатоне и как мы взяли 3 место там.

Хабр

Как на изи «влететь» на Хак и затащить его на flow-режиме

Введение и задача Добрый день, уважаемые читатели Хабр.ру! Я хотел бы поделится с вами отчетом по хакатону ( Practice & Scale AI : Рерайтинг текста на уровне, позволяющем...

82 views15:53

DenoiseLAB

Персидский залив за последние 48 часов температура +65,6 градуса. Исторический рекорд.
Жаркова-то че-то )))) Впервые в истории +65. Вау....

74 views09:59

DenoiseLAB

https://www.cnews.ru/news/line/2024-08-28_mts_ai_predstavil_obnovlennuyu - МТС выкатили свою сетку

CNews.ru

MTS AI представил обновленную LLM Cotype Pro с низким потреблением вычислительных мощностей - CNews

MTS AI, центр развития технологий искусственного интеллекта в России, выпустил обновленную версию своей большой...

72 views10:45

DenoiseLAB

☄️

☄️Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.

Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

🖥

GitHub

🟡

Доки

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #lib

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - flairNLP/flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)

A very simple framework for state-of-the-art Natural Language Processing (NLP) - flairNLP/flair

60 viewsedited 07:17

DenoiseLAB

☄️

Apple только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Модель | Код | Датасет | Статья

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #models

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

apple/DCLM-7B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

63 viewsedited 07:20

DenoiseLAB

✨✨✨Тройка крутых статей
https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

https://huggingface.co/papers/2407.09435

https://huggingface.co/papers/2407.09025

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#articles #nlp

Please open Telegram to view this post

VIEW IN TELEGRAM

Microsoft Research

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena - Microsoft Research

66 viewsedited 07:23

DenoiseLAB

https://kod.ru/openai-otsienila-siebia-v-100-mlrd-dollarov - я царь, я так вижу ))) OpenAI оценила себя в 100 млрд притом что доходы в 50 раз ниже.

Код Дурова

OpenAI оценила себя в 100 млрд долларов

OpenAI ведет переговоры о привлечении финансирования, в рамках которого компания будет оценена более чем в 100 миллиардов долларов.

74 views08:14

DenoiseLAB

https://arxiv.org/pdf/2406.06608 - супер огромный учебник по промптам от стандартных запросов до взлома.

🔥1

67 viewsedited 08:19

DenoiseLAB

https://www.nzz.ch/visuals/vegan-links-so-wuerde-chatgpt-in-sachsen-und-thueringen-waehlen-ld.1845641?mktcid=smch&mktcval=twpost_31-08-2024 - в целом все ожидаемо, сообщается что ChatGPT будет голосовать за веганство, зеленых и левых. Субьективность... а не, не слышали.

Neue Zürcher Zeitung

Woke, vegan & links: So würde Chat-GPT in Sachsen und Thüringen wählen

Die NZZ hat die KI hundert Mal den «Wahl-O-Mat» zu den Wahlen in Sachsen und Thüringen absolvieren lassen. Das Ergebnis war immer das gleiche.

68 views09:57

DenoiseLAB

https://qwenlm.github.io/blog/qwen2-vl/ - Qwen2-VL вышел в релиз

- работа с динамическим разрешением входных изображений

- мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией

Qwen

Qwen2-VL: To See the World More Clearly

DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD
After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compared with Qwen-VL,…

68 viewsedited 10:55

DenoiseLAB

🔄

🔄Читаем статьи за Вас №3:

🗣Проблема нормализации данных

Нормализация данных необходима для сравнения признаков с разными диапазонами значений.
Стандартизация и робастная нормализация часто используются, но имеют недостатки.

🗣Стандартизация

Среднее арифметическое значение используется для центрирования данных.
Медиана предпочтительнее среднего арифметического для разных распределений.
Стандартное отклонение не всегда подходит для равномерного влияния признаков.

🗣Межквартильный интервал

Интервал между 75-м и 25-м процентилями используется для нормализации.
Проблема "хвостов" распределений может привести к искажению результатов.

🗣Размах значений

Размах значений признака используется для нормализации, но может быть искажен выбросами.
Проблема выбросов требует их удаления или учета в новом диапазоне.

🗣Автоматическое определение выбросов

Межквартильный метод используется для автоматического определения выбросов.
Проблема длинных "хвостов" может потребовать индивидуального подхода.

🗣Скорректированный интервал

Метод скорректированного интервала учитывает асимметрию распределения и обеспечивает равномерное влияние признаков.
Метод эффективен для центрирования и вписывания данных в заданный диапазон.

🗣Сравнение методов

Метод скорректированного интервала превосходит другие методы по универсальности и эффективности.
Демонстрационный класс AdjustedScaler доступен для экспериментов.

https://github.com/newchronik/adjdatatools - прикольный инструмент для корректировки данных, в целом не такая замысловатая формула, но очень хорошее объяснение, как правильно проводить анализ смещений в данных при нормализации и стандартизации.
вот тут еще есть статейка: https://habr.com/ru/articles/527334/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - newchronik/adjdatatools: This library contains adjusted tools for data preprocessing and working with mixed data types

This library contains adjusted tools for data preprocessing and working with mixed data types - newchronik/adjdatatools

🔥1

69 views19:36

DenoiseLAB

🔄

🔄Читаем статьи за Вас №4:

🗣Отравление данных

Отравление данных — это метод атаки, при котором в модель вводятся паттерны, приводящие к неправильной классификации данных.
Отравление данных может использоваться для создания бэкдоров в моделях машинного обучения.

🗣Примеры и последствия отравления данных

Отравление данных может привести к неправильной классификации изображений, например, собак и торговых марок.
Отравление данных может быть использовано для управления системами, такими как беспилотные автомобили, через триггеры.

🗣Методы и проблемы отравления данных

Исследователи разрабатывают новые методы отравления данных, такие как TrojanNet, которые позволяют создавать бэкдоры без изменения исходной модели.
Методы отравления данных могут быть эффективными, но требуют доступа к исходным данным и могут снижать точность модели.

🗣Обеспечение безопасности моделей машинного обучения

Обеспечение безопасности моделей ИИ сложнее, чем традиционных программ, и требует разработки специализированных инструментов.
Важно проверять источники моделей и внедрять их только из надежных источников.

https://habr.com/ru/companies/piter/articles/661083/
https://github.com/trx14/TrojanNet

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Что такое отравление данных при помощи машинного обучения?

Любому очевидно, что ниже показаны три совершенно разные картинки: птица, собака и лошадь. Но с точки зрения алгоритма машинного обучения , все три могут восприниматься как одинаковые: ведь на каждом...

67 views19:59

DenoiseLAB

🔄

🔄Читаем статьи за Вас №5:

Применение факторного анализа

🗣Факторный анализ позволяет увидеть степень влияния различных аспектов и сформировать группы тесно связанных параметров.

Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.

🗣Определение количества факторов

Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.

🗣Интерпретация и анализ результатов

Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.

https://habr.com/ru/articles/687338/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Факторный анализ для интерпретации исследования клиентского опыта

Что исследуем Вы провели опрос клиентского опыта в вашей компании. В данном случае на каждый вопрос клиенты отвечали по 10 бальной шкале, где 1 - совсем неудовлетворен, а 10 - полностью удовлетворен....

84 views20:33

DenoiseLAB

🔄

🔄Читаем статьи за Вас №6:

🗣Анализ продуктовых фичей

Продуктовый аналитик занимается анализом пользовательского поведения и интерфейса продукта.
Исследования фичей включают новые релизы и старые функции, которые ранее не были затронуты.
Основная задача — определить, нравится ли пользователям новая функция и приносит ли она прибыль.

🗣Структура анализа
Продукт состоит из множества механик и фичей, управление которыми осуществляется через микро-показатели.
Улучшение каждой части системы приводит к улучшению всего продукта.
Для оценки эффективности фичей используются 5 метрик, которые описывают результаты взаимодействия пользователя с функцией.

🗣Базовые метрики
Adoption Rate (заметность) измеряет количество взаимодействий с функцией за день по отношению к общему количеству активных пользователей.
Engagement Rate (выполнение задачи) оценивает количество пользователей, выполнивших ключевую задачу функции за день.
Stickiness (закрепление функции) показывает, насколько часто пользователи возвращаются к функции в течение дня.
Conversion Rate (конверсия) оценивает долю конвертировавшихся пользователей функции в общем объеме пользователей.
Monetization Impact (влияние на доходы) оценивает влияние функции на доходы от приложения.

🗣Применение метрик
Все метрики в совокупности дают представление о характере функции и её влиянии на бизнес-цели.
Для анализа используется график Spider/Radar, который позволяет визуализировать сильные и слабые стороны продукта.
На основе графика можно наметить план детального исследования функций.

🗣Практическое применение
Метрики помогают определить, какие функции популярны среди пользователей и как они влияют на доходы.
Анализ метрик позволяет выявить проблемы с дизайном функций и определить направления для улучшения.
Система метрик может быть адаптирована для разных типов продуктов и использоваться для ранжирования функций.

https://habr.com/ru/articles/807585/

#articles #tools #analysis #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Базовый анализ продуктовых фичей

Привет, я работаю продуктовым аналитиком и мои задачи, в большей степени, связаны с анализом пользовательского поведения в продукте. Пожалуй, чаще всего, мне приходится работать с разного рода...

85 viewsedited 11:19

About

Blog

Apps

Platform