DenoiseLAB

📈Аналитическая сводка новостей: 14.09.2023

Стартап conversight из Индианаполиса радостно объявляет о закрытии раунда серии A, в результате которого компания привлекла немалую сумму - 9 млн долларов. Полученное финансирование позволит conversight расширить свой продукт и увеличить свою присутствие на рынке. Стратегия компании всегда была направлена на разработку генеративного искусственного интеллекта в аналитике данных, и они уже успешно работают в этой области более 5 лет.

Платформа, предлагаемая conversight, является всеобъемлющим решением для корпоративных клиентов. Она включает в себя интеграцию, хранение, анализ и отчетность данных, а также функции разговорного искусственного интеллекта и естественной обработки языка (NLP). Это позволяет компаниям получать всю необходимую информацию и аналитику в одном месте, что значительно упрощает им работу.

conversight также предлагает специализированные решения для различных бизнес-функций, чтобы удовлетворить потребности разных отраслей. Компания планирует использовать полученные средства для ускорения развития своих команд и внедрения новых инновационных продуктов. Ведь рынок генеративного искусственного интеллекта, согласно данным McKinsey, может принести мировой экономике до 4,4 трлн долларов. Очевидно, conversight стремится занять в этой области лидирующую позицию и быть ключевым игроком на этом обещающем рынке.

Источник: https://venturebeat.com/enterprise-analytics/conversight-raises-9m-to-accelerate-data-analytics-with-generative-ai/

#conversight #startup #Indianapolis #SeriesA #funding #expansion #marketentry #artificialintelligence #dataanalytics #platform #integration #storage #analysis #reporting #conversationalAI #NLP #specializedsolutions #innovation #teamwork #economicimpact #McKinsey

45 viewsDenoiseLABPost, 14:30

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_1)

TorchText - это библиотека, предоставляющая удобные инструменты для обработки текстовых данных при использовании фреймворка PyTorch. Она предназначена для упрощения и стандартизации процесса загрузки, предобработки и обработки текстовых данных в задачах машинного обучения и обработки естественного языка (Natural Language Processing, NLP).

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning

74 views08:00

👍 6 👎💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_2)

1. Fields (Поля): Fields определяют, каким образом данные текста будут обрабатываться и представляться. Они определяют тип данных, предобработку текста (токенизацию, преобразование регистра, удаление стоп-слов и т. д.) и другие преобразования, необходимые для представления текста в виде числовых тензоров.

2. Datasets (Наборы данных): TorchText предоставляет классы для загрузки и предобработки текстовых данных. Он позволяет загружать данные из различных форматов, таких как CSV, TSV, JSON и других, а также предоставляет удобный интерфейс для работы с данными.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning

68 views07:00

👍 5 👎💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_3)

3. Iterators (Итераторы): TorchText предоставляет итераторы для эффективного итерирования по данным во время обучения модели. Итераторы позволяют автоматически выполнять пакетирование данных, применять сортировку по длине последовательностей (для работы с паддингом), а также предоставляют другие возможности для управления итерациями по данным.

4. Vocabulary (Словарь): TorchText позволяет автоматически строить словарь (vocabulary) на основе текстовых данных. Словарь содержит уникальные токены, найденные в данных, и их соответствующие числовые индексы. Он используется для преобразования текста в числовые представления, такие как индексы слов.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning

74 views08:00

👍 5 👎💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_169

🔠 Что содержит в себе torchtext ? (Часть_4)

5. Pretrained word embeddings (Предобученные эмбеддинги слов): TorchText предоставляет интеграцию с предобученными эмбеддингами слов, такими как GloVe или Word2Vec. Они могут быть автоматически загружены и использованы для инициализации эмбеддингов слов в моделях.

https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.

#PyTorch #NLP #TextProcessing #MachineLearning

87 views07:00

DenoiseLAB

☄️

В открытом доступе появилась безцензурная модель Mistral-7B-v0.3

Основные новшества модели :

✔️ Модель использует лицензию Appache 2.0;
✔️Расход токенов стал меньше;
✔️ Словарь расширен до 33 тысяч слов;
✔️ Теперь у нейронки есть собственный API.

Кто хотел заюзать нейросеть без цензуры — ваш выход.

Переходим по ссылке ➡️ тут.

#Нейросети #Модели #NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

59 viewsedited 15:25

DenoiseLAB

☄️

☄️Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.

Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

🖥

GitHub

🟡

Доки

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #lib

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - flairNLP/flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)

A very simple framework for state-of-the-art Natural Language Processing (NLP) - flairNLP/flair

60 viewsedited 07:17

DenoiseLAB

☄️

Apple только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Модель | Код | Датасет | Статья

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #models

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

apple/DCLM-7B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

63 viewsedited 07:20

DenoiseLAB

✨✨✨Тройка крутых статей
https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

https://huggingface.co/papers/2407.09435

https://huggingface.co/papers/2407.09025

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#articles #nlp

Please open Telegram to view this post

VIEW IN TELEGRAM

Microsoft Research

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena - Microsoft Research

66 viewsedited 07:23

DenoiseLAB

🔄

🔄Читаем статьи за Вас №10:

🗣Эксперимент с БЯМ

БЯМ (Big Language Model) продемонстрировали способность писать в стиле известных авторов.
Эксперимент New York Times показал, что БЯМ может создавать тексты, имитирующие стиль Кертис Ситтенфелд.

🗣Сравнение стилей

Первый фрагмент написан в стиле Кертис Ситтенфелд, второй - в стиле БЯМ.
БЯМ не всегда справляется с управлением речевыми оборотами и грамматикой.
В конце второго фрагмента БЯМ демонстрирует грамматические ошибки и отсутствие завершения.

🗣Структура и черты ответов БЯМ

БЯМ часто использует списки и маркированные списки, что является их характерной чертой.
ИИ склонен к стереотипам и расплывчатым высказываниям, а также к использованию типичных имен и эпитетов.
Предложения БЯМ часто бывают длинными и грамматически правильными, но предсказуемыми.

🗣Советы по редактированию

Чтобы скрыть использование БЯМ, необходимо удалить характерные слова и словосочетания.
Необходимо редактировать текст, чтобы удалить "воду" и оставить только удачные фрагменты.
В результате получится текст, неотличимый от написанного человеком, но требующий значительных усилий.

🗣Использование БЯМ

БЯМ подходят для выполнения простых задач, таких как перевод терминов или ответы на вопросы, которые не требуют глубокого понимания.
Однако не следует доверять им написание длинных текстов или статей.
Рекомендуется использовать БЯМ для получения ответов на конкретные вопросы, требующие специальных знаний.

https://habr.com/ru/articles/840066/

#articles #analysis #model #nlp #redactor

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

3 самых очевидных способа вручную обнаружить текст от большой языковой модели

На написание и публикацию этого текста меня побудила необходимость быстро объяснить, как определять текст от больших языковых моделей (БЯМ). Важно, что речь идёт только про выявление очевидных...

106 views15:31

DenoiseLAB

🔄

🔄Читаем статьи за Вас №10:

🗣Основы теории вероятностей

Вероятность описывает возможность наступления события.
Распределение вероятностей описывает, как часто происходят события с определенными характеристиками.

🗣Основные распределения вероятностей

Биномиальное распределение описывает количество успехов в серии испытаний с известной вероятностью успеха.
Геометрическое распределение описывает количество неудач до первого успеха.
Отрицательное биномиальное распределение описывает количество неудач до определенного числа успехов.
Экспоненциальное распределение описывает время до наступления события.
Распределение Вейбула описывает время до увеличения интенсивности отказов.
Нормальное распределение описывает сумму независимых случайных величин.
Логнормальное распределение описывает логарифм суммы независимых случайных величин.
Распределение Стьюдента используется для проверки гипотез о среднем нормальном распределении.
Распределение хи-квадрат используется для проверки гипотез о сумме квадратов нормально распределенных величин.

🗣Обобщения и сопряженные распределения

Гамма-распределение обобщает экспоненциальное и хи-квадрат распределения.
Бета-распределение является сопряженным априорным распределением для многих других распределений.

https://habr.com/ru/articles/331060/

#articles #analysis #model #nlp #redactor

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Типичные распределения вероятности: шпаргалка data scientist-а

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать? Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно...

112 views09:40

About

Blog

Apps

Platform