DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Discord официально всё: Роскомнадзор заблокировал сервис за нарушение законодательства.

Помянем.
Девушка вырастила огромную Буклю из Гарри Поттера
Зы: это сетка, на качество огонь, присмотритесь к рукаву и геометрии складок на нем. Но выглядит огненно.
https://arxiv.org/pdf/2409.20566 - очень модная вещь
В подтверждении сегодняшней ситуации с Нобелевкой по физике
😊Турнирная таблица международного хака *.

*Организации практические все экстремисткие или около того, кроме VK, Telegramm и нескольких еще
Please open Telegram to view this post
VIEW IN TELEGRAM
😅Мем Дня: Для улучшения качества языковых моделей, таких как ChatGPT, было придумано обучение на основе обратной связи с человеком (RLHF), чтобы они выдавали более понятные результаты, имитируя ответы людей.

Но в результате модели начали давать больше неверных ответов, при этом стали лучше врать и убеждать в правильности своих слов. А найти их ошибки гораздо труднее.

Человечество убьет ИИ )))
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣3
🛞🛞🛞Кто хочет данные по собирать про ураган, ваш реальный шанс. Такое бывает раз в 1000 лет. Распознавание и метеорологические данные.

https://www.youtube.com/watch?v=Tj7RJ7d4iqU - вот тут прямая трансляция
Please open Telegram to view this post
VIEW IN TELEGRAM
Ураган Милтон
2
https://dsworks.ru/champ/aij2024-embodied-ai - Сбер выкатил новые соревы
Пример того, как фокусное расстояние заданное в промпте влияет на генерацию и ее качество.
Коротко о сеньорстве
Не знаю зачем вам это, но просто прикольно ))), как-то по пятничному
😁3
🍀Читаем статьи за Вас №24:
Обработка естественного языка (NLP)

🥺Основы NLP для текста
Токенизация по предложениям: разделение текста на предложения.
Токенизация по словам: разделение предложений на слова.
Лемматизация и стемминг: приведение словоформ к нормальной форме.
Стоп-слова: удаление нерелевантных слов из текста.
Регулярные выражения: фильтрация текста с помощью шаблонов.
Мешок слов: извлечение признаков из текста.

🥺Токенизация по предложениям
Разделение текста на предложения по знакам пунктуации.
Использование библиотек для автоматизации процесса.

🥺Токенизация по словам
Разделение предложений на слова по пробелам.
Использование библиотек для учета составных существительных.

🥺Лемматизация и стемминг
Приведение словоформ к нормальной словарной форме.
Лемматизация использует словарь и морфологический анализ.
Стемминг обрезает "лишнее" от корня слов.

🥺Стоп-слова
Удаление нерелевантных слов из текста.
Использование предустановленного списка стоп-слов в NLTK.

🥺Регулярные выражения
Последовательности символов для поиска и фильтрации текста.
Использование модуля re в Python для работы с регулярками.

🥺Мешок слов
Извлечение признаков из текста для машинного обучения.
Описание вхождений каждого слова в текст.
Игнорирование порядка и структуры слов.

🥺Загрузка данных
Чтение файла и разделение по строкам
Создание словаря из уникальных слов

🥺Создание векторов документа
Оценка слов в документе
Использование класса CountVectorizer для создания мешка слов

🥺Сложности модели "мешок слов"
Сложность определения словаря и подсчета вхождений слов
Увеличение размера словаря и вектора документа
Использование разреженных векторов для снижения требований к памяти

🥺Методы создания словаря
Игнорирование регистра, пунктуации, стоп-слов
Приведение слов к базовым формам (лемматизация и стемминг)
Исправление неправильно написанных слов
Использование сгруппированных слов (N-граммы)

🥺Оценка слов
Бинарный подход (1 – есть слово, 0 – нет слова)
Методы: количество, частотность

🥺TF-IDF
Понижение оценки часто встречающихся слов
Формула TF-IDF для оценки важности слова
Использование класса TfidfVectorizer для вычисления TF-IDF

https://habr.com/ru/companies/Voximplant/articles/446738/
#nlp #tokenization #data #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3