https://www.youtube.com/watch?v=Tj7RJ7d4iqU - вот тут прямая трансляция
Please open Telegram to view this post
VIEW IN TELEGRAM
https://vk.com/video-22522055_456244521 - вебинар для соревы
VK Видео
AIJ Contest 2024: разбор задачи Embodied AI
На вебинаре ежегодного соревнования AIJ Contest обсудили условия задачи Embodied AI, где предлагается создать систему управления воплощённым агентом (роботом-помощником) на основе языковых инструкций и визуальной информации. Зарегистрироваться на соревнование…
Обработка естественного языка (NLP)
Токенизация по предложениям: разделение текста на предложения.
Токенизация по словам: разделение предложений на слова.
Лемматизация и стемминг: приведение словоформ к нормальной форме.
Стоп-слова: удаление нерелевантных слов из текста.
Регулярные выражения: фильтрация текста с помощью шаблонов.
Мешок слов: извлечение признаков из текста.
Разделение текста на предложения по знакам пунктуации.
Использование библиотек для автоматизации процесса.
Разделение предложений на слова по пробелам.
Использование библиотек для учета составных существительных.
Приведение словоформ к нормальной словарной форме.
Лемматизация использует словарь и морфологический анализ.
Стемминг обрезает "лишнее" от корня слов.
Удаление нерелевантных слов из текста.
Использование предустановленного списка стоп-слов в NLTK.
Последовательности символов для поиска и фильтрации текста.
Использование модуля re в Python для работы с регулярками.
Извлечение признаков из текста для машинного обучения.
Описание вхождений каждого слова в текст.
Игнорирование порядка и структуры слов.
Чтение файла и разделение по строкам
Создание словаря из уникальных слов
Оценка слов в документе
Использование класса CountVectorizer для создания мешка слов
Сложность определения словаря и подсчета вхождений слов
Увеличение размера словаря и вектора документа
Использование разреженных векторов для снижения требований к памяти
Игнорирование регистра, пунктуации, стоп-слов
Приведение слов к базовым формам (лемматизация и стемминг)
Исправление неправильно написанных слов
Использование сгруппированных слов (N-граммы)
Бинарный подход (1 – есть слово, 0 – нет слова)
Методы: количество, частотность
Понижение оценки часто встречающихся слов
Формула TF-IDF для оценки важности слова
Использование класса TfidfVectorizer для вычисления TF-IDF
https://habr.com/ru/companies/Voximplant/articles/446738/
#nlp #tokenization #data #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Основы Natural Language Processing для текста
Обработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена:...
🔥3
График мучений по сореве ))) Из положительного, удалось свести более или менее к небольшой разнице по трейновой и валидационной выборкам, по крайней мере был разброс в 0,2485 стал 0,0541. Далее надо аккуратно поднять общий скор, как на трейне так и на валидации, и еще сократить разрыв. В идеале, добить хотя бы до 0,0015. В целом учится неплохо, стабильна и обобщает тоже норм. Записей мало 3500 и фичей 152. Далее займемся чисткой, сейчас пробую разные алгоритмы оптимизации. Переобучение уже значительно снизилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Avito Go Drinkup #1
5 ноября | 18:15 мск
Приглашаем backend и Go-разработчиков в ДК Рассвет. Выкрутим нетворкинг на максимум🔥
В неформальной и уютной обстановке обсудим актуальное, поделимся кейсами, раздадим советы и соберём инсайтов. Ну и выпьем, конечно, чего-нибудь вкусненького.
Участие бесплатное, но регистрация обязательна.
До встречи на дринкапе!🚀
#backend_avitotech
5 ноября | 18:15 мск
Приглашаем backend и Go-разработчиков в ДК Рассвет. Выкрутим нетворкинг на максимум
В неформальной и уютной обстановке обсудим актуальное, поделимся кейсами, раздадим советы и соберём инсайтов. Ну и выпьем, конечно, чего-нибудь вкусненького.
Участие бесплатное, но регистрация обязательна.
До встречи на дринкапе!
#backend_avitotech
Please open Telegram to view this post
VIEW IN TELEGRAM
avitotech.timepad.ru
Avito GO Drinkup #1 / События на TimePad.ru
Приглашаем на Avito Go Drinkup – встречу для backend-разработчиков. В уютной обстановке мы обсудим личный опыт, поделимся проблемами и способами их решения. Это отличная возможность встретиться с коллегами, поднять актуальные темы по backend и Go, получить…
🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4