DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
📈Аналитическая сводка новостей: 14.09.2023

Стартап conversight из Индианаполиса радостно объявляет о закрытии раунда серии A, в результате которого компания привлекла немалую сумму - 9 млн долларов. Полученное финансирование позволит conversight расширить свой продукт и увеличить свою присутствие на рынке. Стратегия компании всегда была направлена на разработку генеративного искусственного интеллекта в аналитике данных, и они уже успешно работают в этой области более 5 лет.

Платформа, предлагаемая conversight, является всеобъемлющим решением для корпоративных клиентов. Она включает в себя интеграцию, хранение, анализ и отчетность данных, а также функции разговорного искусственного интеллекта и естественной обработки языка (NLP). Это позволяет компаниям получать всю необходимую информацию и аналитику в одном месте, что значительно упрощает им работу.

conversight также предлагает специализированные решения для различных бизнес-функций, чтобы удовлетворить потребности разных отраслей. Компания планирует использовать полученные средства для ускорения развития своих команд и внедрения новых инновационных продуктов. Ведь рынок генеративного искусственного интеллекта, согласно данным McKinsey, может принести мировой экономике до 4,4 трлн долларов. Очевидно, conversight стремится занять в этой области лидирующую позицию и быть ключевым игроком на этом обещающем рынке.

Источник: https://venturebeat.com/enterprise-analytics/conversight-raises-9m-to-accelerate-data-analytics-with-generative-ai/

#conversight #startup #Indianapolis #SeriesA #funding #expansion #marketentry #artificialintelligence #dataanalytics #platform #integration #storage #analysis #reporting #conversationalAI #NLP #specializedsolutions #innovation #teamwork #economicimpact #McKinsey
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_1)

TorchText - это библиотека, предоставляющая удобные инструменты для обработки текстовых данных при использовании фреймворка PyTorch. Она предназначена для упрощения и стандартизации процесса загрузки, предобработки и обработки текстовых данных в задачах машинного обучения и обработки естественного языка (Natural Language Processing, NLP).

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_2)

1. Fields (Поля): Fields определяют, каким образом данные текста будут обрабатываться и представляться. Они определяют тип данных, предобработку текста (токенизацию, преобразование регистра, удаление стоп-слов и т. д.) и другие преобразования, необходимые для представления текста в виде числовых тензоров.

2. Datasets (Наборы данных): TorchText предоставляет классы для загрузки и предобработки текстовых данных. Он позволяет загружать данные из различных форматов, таких как CSV, TSV, JSON и других, а также предоставляет удобный интерфейс для работы с данными.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_3)

3. Iterators (Итераторы): TorchText предоставляет итераторы для эффективного итерирования по данным во время обучения модели. Итераторы позволяют автоматически выполнять пакетирование данных, применять сортировку по длине последовательностей (для работы с паддингом), а также предоставляют другие возможности для управления итерациями по данным.

4. Vocabulary (Словарь): TorchText позволяет автоматически строить словарь (vocabulary) на основе текстовых данных. Словарь содержит уникальные токены, найденные в данных, и их соответствующие числовые индексы. Он используется для преобразования текста в числовые представления, такие как индексы слов.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_4)

5. Pretrained word embeddings (Предобученные эмбеддинги слов): TorchText предоставляет интеграцию с предобученными эмбеддингами слов, такими как GloVe или Word2Vec. Они могут быть автоматически загружены и использованы для инициализации эмбеддингов слов в моделях.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning
☄️В открытом доступе появилась безцензурная модель Mistral-7B-v0.3

Основные новшества модели :

✔️ Модель использует лицензию Appache 2.0;
✔️Расход токенов стал меньше;
✔️ Словарь расширен до 33 тысяч слов;
✔️ Теперь у нейронки есть собственный API.

Кто хотел заюзать нейросеть без цензуры — ваш выход.

Переходим по ссылке ➡️ тут.

#Нейросети #Модели #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
☄️☄️☄️Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.

Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

🖥 GitHub
🟡 Доки

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #lib
Please open Telegram to view this post
VIEW IN TELEGRAM
☄️☄️☄️Apple только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Модель | Код | Датасет | Статья

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #models
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №10:

🗣Эксперимент с БЯМ

БЯМ (Big Language Model) продемонстрировали способность писать в стиле известных авторов.
Эксперимент New York Times показал, что БЯМ может создавать тексты, имитирующие стиль Кертис Ситтенфелд.

🗣Сравнение стилей

Первый фрагмент написан в стиле Кертис Ситтенфелд, второй - в стиле БЯМ.
БЯМ не всегда справляется с управлением речевыми оборотами и грамматикой.
В конце второго фрагмента БЯМ демонстрирует грамматические ошибки и отсутствие завершения.

🗣Структура и черты ответов БЯМ

БЯМ часто использует списки и маркированные списки, что является их характерной чертой.
ИИ склонен к стереотипам и расплывчатым высказываниям, а также к использованию типичных имен и эпитетов.
Предложения БЯМ часто бывают длинными и грамматически правильными, но предсказуемыми.

🗣Советы по редактированию

Чтобы скрыть использование БЯМ, необходимо удалить характерные слова и словосочетания.
Необходимо редактировать текст, чтобы удалить "воду" и оставить только удачные фрагменты.
В результате получится текст, неотличимый от написанного человеком, но требующий значительных усилий.

🗣Использование БЯМ

БЯМ подходят для выполнения простых задач, таких как перевод терминов или ответы на вопросы, которые не требуют глубокого понимания.
Однако не следует доверять им написание длинных текстов или статей.
Рекомендуется использовать БЯМ для получения ответов на конкретные вопросы, требующие специальных знаний.

https://habr.com/ru/articles/840066/

#articles #analysis #model #nlp #redactor
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №10:

🗣Основы теории вероятностей

Вероятность описывает возможность наступления события.
Распределение вероятностей описывает, как часто происходят события с определенными характеристиками.

🗣Основные распределения вероятностей

Биномиальное распределение описывает количество успехов в серии испытаний с известной вероятностью успеха.
Геометрическое распределение описывает количество неудач до первого успеха.
Отрицательное биномиальное распределение описывает количество неудач до определенного числа успехов.
Экспоненциальное распределение описывает время до наступления события.
Распределение Вейбула описывает время до увеличения интенсивности отказов.
Нормальное распределение описывает сумму независимых случайных величин.
Логнормальное распределение описывает логарифм суммы независимых случайных величин.
Распределение Стьюдента используется для проверки гипотез о среднем нормальном распределении.
Распределение хи-квадрат используется для проверки гипотез о сумме квадратов нормально распределенных величин.

🗣Обобщения и сопряженные распределения

Гамма-распределение обобщает экспоненциальное и хи-квадрат распределения.
Бета-распределение является сопряженным априорным распределением для многих других распределений.

https://habr.com/ru/articles/331060/

#articles #analysis #model #nlp #redactor
Please open Telegram to view this post
VIEW IN TELEGRAM