Machinelearning

🔥 Weekly Tutorials Digest

🔘

Туториал: очистка и предварительная обработка текстовых данных в Pandas для задач NLP.

В туториале приведены практические примеры операций по удалению пропущенных значений, нормализации текста, удалению шумов, токенизации, удаления стоп-слов, техники стемминга и лемматизации, преобразования текста в числовые представления с использованием TF-IDF векторизации.

🔘

Статья в блоге: Марковские цепи лучше в задачах генерации юмора, чем LLM

Статья обсуждает уникальное чувство юмора, генерируемое Марковскими цепями по сравнению с крупными LLM, такими как ChatGPT.
Автор утверждает, что Марковские цепи, хотя и примитивны, могут создавать неожиданные и забавные фразы благодаря своей простоте. В отличие от них, LLM более предсказуемы и в меньшей степени подходят для создания юмора.

🔘

Статья: Семь основных правил причинно-следственного инференса.

Автор подробно и лаконично рассматривает семь ключевых правил, которые помогают понять, как причинно-следственные механизмы в реальности отражаются в данных.
В статье описаны фундаментальные структуры причинных графов и продемонстрированы примеры кода на R для иллюстрации каждого правила.

🔘

Практический кейс: Классификация большого набора PDF-документов.

Подробное описание процесса классификации огромного набора PDF-документов с помощью LLM - эмбеддингов и XGBoost.
Автор проводит несколько экспериментов по созданию и обучению эмбеддингов и делает акцент на сложности обработки 8,4 миллиона PDF-файлов.

@ai_machinelearning_big_data

#Tutorials #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥12❤9

8.47K views13:04

About

Blog

Apps

Platform