DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🍀Читаем статьи за Вас №24:
Обработка естественного языка (NLP)

🥺Основы NLP для текста
Токенизация по предложениям: разделение текста на предложения.
Токенизация по словам: разделение предложений на слова.
Лемматизация и стемминг: приведение словоформ к нормальной форме.
Стоп-слова: удаление нерелевантных слов из текста.
Регулярные выражения: фильтрация текста с помощью шаблонов.
Мешок слов: извлечение признаков из текста.

🥺Токенизация по предложениям
Разделение текста на предложения по знакам пунктуации.
Использование библиотек для автоматизации процесса.

🥺Токенизация по словам
Разделение предложений на слова по пробелам.
Использование библиотек для учета составных существительных.

🥺Лемматизация и стемминг
Приведение словоформ к нормальной словарной форме.
Лемматизация использует словарь и морфологический анализ.
Стемминг обрезает "лишнее" от корня слов.

🥺Стоп-слова
Удаление нерелевантных слов из текста.
Использование предустановленного списка стоп-слов в NLTK.

🥺Регулярные выражения
Последовательности символов для поиска и фильтрации текста.
Использование модуля re в Python для работы с регулярками.

🥺Мешок слов
Извлечение признаков из текста для машинного обучения.
Описание вхождений каждого слова в текст.
Игнорирование порядка и структуры слов.

🥺Загрузка данных
Чтение файла и разделение по строкам
Создание словаря из уникальных слов

🥺Создание векторов документа
Оценка слов в документе
Использование класса CountVectorizer для создания мешка слов

🥺Сложности модели "мешок слов"
Сложность определения словаря и подсчета вхождений слов
Увеличение размера словаря и вектора документа
Использование разреженных векторов для снижения требований к памяти

🥺Методы создания словаря
Игнорирование регистра, пунктуации, стоп-слов
Приведение слов к базовым формам (лемматизация и стемминг)
Исправление неправильно написанных слов
Использование сгруппированных слов (N-граммы)

🥺Оценка слов
Бинарный подход (1 – есть слово, 0 – нет слова)
Методы: количество, частотность

🥺TF-IDF
Понижение оценки часто встречающихся слов
Формула TF-IDF для оценки важности слова
Использование класса TfidfVectorizer для вычисления TF-IDF

https://habr.com/ru/companies/Voximplant/articles/446738/
#nlp #tokenization #data #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
По сореве пока вот такие результаты, но я выяснил что модельку у меня переобучается, надо дожимать ее, чтобы не переобучалась.
График мучений по сореве ))) Из положительного, удалось свести более или менее к небольшой разнице по трейновой и валидационной выборкам, по крайней мере был разброс в 0,2485 стал 0,0541. Далее надо аккуратно поднять общий скор, как на трейне так и на валидации, и еще сократить разрыв. В идеале, добить хотя бы до 0,0015. В целом учится неплохо, стабильна и обобщает тоже норм. Записей мало 3500 и фичей 152. Далее займемся чисткой, сейчас пробую разные алгоритмы оптимизации. Переобучение уже значительно снизилось.
Только вчера, с коллегой обсуждали этот момент и вот тебе нате )))
😱2😈1
Выступаем университетской коммандой на хакатоне ВШЭ. Я являюсь руководителем и тренером комманды. Пока держимся на первом месте. Стараемся.
🔥9
👻Вот такие новые книжки выкатываются, по крайней мере я видел, уже иммитации симуляций, физически-корректных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Avito Go Drinkup #1
5 ноября | 18:15 мск

Приглашаем backend и Go-разработчиков в ДК Рассвет. Выкрутим нетворкинг на максимум 🔥

В неформальной и уютной обстановке обсудим актуальное, поделимся кейсами, раздадим советы и соберём инсайтов. Ну и выпьем, конечно, чего-нибудь вкусненького.

Участие бесплатное, но регистрация обязательна.

До встречи на дринкапе! 🚀

#backend_avitotech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🛞Пока идет норм, подняли скор на модели. Готовимся дальше. Крутим модель, готовим презентации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Еще скаканули )) Жмем дальше
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Новое прочтение в металле )))
🔥3
🍀Читаем статьи за Вас №25:
Git. Руководство по оформлению веток и коммитов

🥺Оформление ветки
Создание ветки в git помогает отделить код от основной ветки проекта.
Важно правильно именовать ветки, используя типы и краткое описание задачи.
Типы веток: build, chore, ci, docs, feat, fix, perf, refactor, revert, style, test.
После типа ветки указывается бизнес-группа и номер задачи из трекера.

🥺Оформление коммита
Коммит содержит поясняющее сообщение, описывающее проделанную работу.
Сообщение должно быть логичным и начинаться с глагола.
Для развернутого описания работы можно использовать команду git commit.
Рекомендуется использовать линтер CommitLint для проверки сообщений.

🥺Git trailers
В подвале сообщения к коммиту можно добавлять уточняющую информацию (трейлеры).
Для настройки трейлеров можно использовать алиасы ключей через конфиг git.
Для поиска коммитов по трейлерам можно использовать команды git.

🥺WIP-коммиты
WIP-коммиты используются для сохранения изменений до оформления полноценного коммита.
WIP-коммиты не должны попадать в основную рабочую ветку.
Для создания WIP-коммита достаточно добавить тип WIP к сообщению.
Для переоценки коммитов можно использовать интерактивную перебазировку.

🥺Заключение
Правильное оформление веток и коммитов помогает стандартизировать процессы разработки.
Система типов и краткое описание уточняют название ветки и сообщения к коммиту.
Git trailers расширяют информацию сообщения.
WIP-коммиты с перебазировкой сохраняют промежуточную работу и не захламляют историю git.

#git #data #analysis #develope
https://habr.com/ru/articles/820547/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
DEF CON 32 Playlist

https://www.youtube.com/playlist?list=PL9fPq3eQfaaBmBnjhio8TNz00bBEINjER
Праздник необычный, но хороший )) микро 8 марта ))). Просто чтобы вы были в курсе )))
2
This media is not supported in your browser
VIEW IN TELEGRAM
Бобры, поляки и вечное Бобер - Курва в исполнении нейросеток ))))
🤣2
О работе ))
😁6🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Страх школьников №1: нейронка выбирает того, кто пойдет отвечать к доске. ИИ считывает мимику и эмоции школьников и определяет тех, кто плохо подготовился

Хитрый, решил затихариться, но нет ))) ахахах
🔥1