Старый добрый LDA
Часто в NLP для решения некоторых задач все еще используется метод Latent Dirichlet Allocation (LDA) - подход для тематического моделирования. Основная задача ТМ заключается в том что бы полученные темы были хорошего качество, понятными, самозначимыми и разделенными. Достижение этих целей во многом зависит от качества предварительной обработки текста и стратегии поиска оптимального количества тем. Алгоритм реализован в sklearn и gensim, но решение gensim кажется более простым в использовании и удобным и о нем вместе с предобработкой данных пойдет речь в статье по ссылке.
Часто в NLP для решения некоторых задач все еще используется метод Latent Dirichlet Allocation (LDA) - подход для тематического моделирования. Основная задача ТМ заключается в том что бы полученные темы были хорошего качество, понятными, самозначимыми и разделенными. Достижение этих целей во многом зависит от качества предварительной обработки текста и стратегии поиска оптимального количества тем. Алгоритм реализован в sklearn и gensim, но решение gensim кажется более простым в использовании и удобным и о нем вместе с предобработкой данных пойдет речь в статье по ссылке.
Углубляясь в тематическое моделирование. BigARTM
Задача тематического моделирования похожа на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».
Поэтому, как и в кластеризации часто нельзя ограничиваться одним K-Means, так и в тематическом моделировании есть альтернативы и улучшения LDA.
Additive Regularization for Topic Modeling (ARTM) - технология регуляризации модели тематического моделирования, позволяющая задать сразу несколько критериев-регуляризаторов. Например, создавать дополнительные темы и подтемы.
Ссылка на источник с более подробным теоретическим обзором модели и библиотеки, гайд по установке и использованию в следующем посте.
Задача тематического моделирования похожа на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».
Поэтому, как и в кластеризации часто нельзя ограничиваться одним K-Means, так и в тематическом моделировании есть альтернативы и улучшения LDA.
Additive Regularization for Topic Modeling (ARTM) - технология регуляризации модели тематического моделирования, позволяющая задать сразу несколько критериев-регуляризаторов. Например, создавать дополнительные темы и подтемы.
Ссылка на источник с более подробным теоретическим обзором модели и библиотеки, гайд по установке и использованию в следующем посте.
Как использовать BigARTM, чтобы улучшить результат LDA
В предыдущем посте разбиралась теоретическая база ARTM, сейчас ознакомимся с использованием.
Так как с установкой на Windows могут возникнуть проблемы, то в первом источнике отдельная статья про установку на случай, если не получится установить простым путем.
В основной статье подробно разбирается работа библиотеки в несколько этапов:
🟠 установка
🟠 стемминг
🟠 удаление стоп слов
🟠 выделение словосочетаний
🟠 моделирование
В предыдущем посте разбиралась теоретическая база ARTM, сейчас ознакомимся с использованием.
Так как с установкой на Windows могут возникнуть проблемы, то в первом источнике отдельная статья про установку на случай, если не получится установить простым путем.
В основной статье подробно разбирается работа библиотеки в несколько этапов:
🟠 установка
🟠 стемминг
🟠 удаление стоп слов
🟠 выделение словосочетаний
🟠 моделирование
Задача ранжирования. Метрики
Открываем блок постов про задачу ранжированием статьей про описание задачи и метрики, оценивающие качество.
Задача ранжирования сейчас возникает повсюду: сортировка веб-страниц согласно заданному поисковому запросу, персонализация новостной ленты, рекомендации видео, товаров и т.д.
Ранжирование — задача сортировки набора элементов из соображения их релевантности.
Открываем блок постов про задачу ранжированием статьей про описание задачи и метрики, оценивающие качество.
Задача ранжирования сейчас возникает повсюду: сортировка веб-страниц согласно заданному поисковому запросу, персонализация новостной ленты, рекомендации видео, товаров и т.д.
Ранжирование — задача сортировки набора элементов из соображения их релевантности.
Ранжирование. Пример пайплайна с точки зрения бизнеса
Чтобы правильно применять модель, в первую очередь нужно понимать как это поможет бизнесу и нужно ли это вообще - обо всем в источнике.
Завтра в постах рассмотрим гайды и примеры реализаций некоторых подходов.
Чтобы правильно применять модель, в первую очередь нужно понимать как это поможет бизнесу и нужно ли это вообще - обо всем в источнике.
Завтра в постах рассмотрим гайды и примеры реализаций некоторых подходов.
Будущим специалистам по DS или аналитикам данных важно подружиться с математикой🤜 🤛
Математика умножит ваши шансы на хороший оффер. И обычно именно на этих позициях ценится классическое образование в хорошем ВУЗе.
Но а что делать тем, кто не знал в 18 лет, что свяжет свою жизнь с DS?
Для этого есть полугодовой курс от преподавателей МГУ! Он объемный и довольно сложный, так как соответсвует университестким стандартам.
Подробности – https://proglib.academy/mathspro?utm_source=tg_ds
Там все по канонам классического образования:
1. Лекции по 1,5 часа.
2. Много практики, подробная обратная связь от преподателей.
3. Общий чатик со студентами, где можно получить поддержку от сокурсников.
Посмотрите примеры занятий
Математика умножит ваши шансы на хороший оффер. И обычно именно на этих позициях ценится классическое образование в хорошем ВУЗе.
Но а что делать тем, кто не знал в 18 лет, что свяжет свою жизнь с DS?
Для этого есть полугодовой курс от преподавателей МГУ! Он объемный и довольно сложный, так как соответсвует университестким стандартам.
Подробности – https://proglib.academy/mathspro?utm_source=tg_ds
Там все по канонам классического образования:
1. Лекции по 1,5 часа.
2. Много практики, подробная обратная связь от преподателей.
3. Общий чатик со студентами, где можно получить поддержку от сокурсников.
Посмотрите примеры занятий
🤖📄 ChatGPT: эффективная суммаризация с помощью LLM
В этой статье разберём суммаризацию с помощью LLM на примере обработки отзывов в e-commerce.
🔗Читать статью
🔗Зеркало
В этой статье разберём суммаризацию с помощью LLM на примере обработки отзывов в e-commerce.
🔗Читать статью
🔗Зеркало
🎓💼 ТОП-9 не самых очевидных компаний для стажировки в ИТ
Везде просят опыт работы... Но где его взять? Как раз об этом сейчас и расскажем!
🔗Читать статью
🔗Зеркало
Везде просят опыт работы... Но где его взять? Как раз об этом сейчас и расскажем!
🔗Читать статью
🔗Зеркало
● Новости о прорывных исследованиях в области машинного обучения и нейросетей.
● Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
● Статьи об этических аспектах развития технологий.
● Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
● Обзоры инструментов и библиотек для разработки нейронных сетей.
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
● Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.
🔥 Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
LambdaMART - база в задаче ранжирования
Продолжая тему с задачей ранжирования, в первую очередь стоит ознакомиться с применением алгоритма LambdaMart - алгоритм классического машинного обучения, оптимизирующий ранжирование объектов, учитывая их релевантность, и использует функцию потерь LambdaLoss.
"Lambda" представляет собой весовой коэффициент, который определяет важность каждого объекта (например, веб-страницы или продукта) в обучающем наборе данных для задачи ранжирования.
Гайд в источнике.
Продолжая тему с задачей ранжирования, в первую очередь стоит ознакомиться с применением алгоритма LambdaMart - алгоритм классического машинного обучения, оптимизирующий ранжирование объектов, учитывая их релевантность, и использует функцию потерь LambdaLoss.
"Lambda" представляет собой весовой коэффициент, который определяет важность каждого объекта (например, веб-страницы или продукта) в обучающем наборе данных для задачи ранжирования.
Гайд в источнике.
Forwarded from Библиотека питониста | Python, Django, Flask
🐍 Дорожная карта Python-разработчика в 2023 году
Расскажем, что и в какой последовательности нужно изучить, чтобы стать Python-джуном и найти первую работу.
Читать статью
Расскажем, что и в какой последовательности нужно изучить, чтобы стать Python-джуном и найти первую работу.
Читать статью
💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 3
Завершаем исследование фреймворка LlamaIndex. В этой части разбираемся с ретриверами, которые обеспечивают различные способы извлечения релевантного контекста из индексов документов.
🔗 Читать статью
🔗 Зеркало
Завершаем исследование фреймворка LlamaIndex. В этой части разбираемся с ретриверами, которые обеспечивают различные способы извлечения релевантного контекста из индексов документов.
🔗 Читать статью
🔗 Зеркало
💰Adobe повышает цены на свои продукты после внедрения ИИ-движка
В своем блоге представители компании пишут, что создали много творческих инструментов, включая Denoise в Lightroom, Frame.io для Creative Cloud в Adobe Premiere Pro и Adobe After Effects, а также Share for Review в Photoshop и Illustrator. И поэтому цены повысятся с 1 ноября 2023 года для Америки и Европы.
Вот часть нововведений в Creative Cloud:
👾Генеративный искусственный интеллект в Photoshop и Illustrator. Generative Fill и Generative Expand в Photoshop , Generative Recolor в Illustrator.
🎙Новые функции искусственного интеллекта в Premiere Pro в бета-версии. Например, Enhance Speech удаляет шум из голосовых записей.
🖌3D-рабочая среда и кисть для ротоскопии в After Effects в бета-версии — теперь можно текстурировать, освещать, затенять и визуализировать 3D-модели внутри After Effects. Кисть для ротоскопии с улучшенным искусственным интеллектом позволяет вырезать объекты.
🌐Участники Creative Cloud теперь имеют доступ к новому веб-приложению Firefly — с его помощью можно создавать контент для любого проекта.
#новости
В своем блоге представители компании пишут, что создали много творческих инструментов, включая Denoise в Lightroom, Frame.io для Creative Cloud в Adobe Premiere Pro и Adobe After Effects, а также Share for Review в Photoshop и Illustrator. И поэтому цены повысятся с 1 ноября 2023 года для Америки и Европы.
Вот часть нововведений в Creative Cloud:
👾Генеративный искусственный интеллект в Photoshop и Illustrator. Generative Fill и Generative Expand в Photoshop , Generative Recolor в Illustrator.
🎙Новые функции искусственного интеллекта в Premiere Pro в бета-версии. Например, Enhance Speech удаляет шум из голосовых записей.
🖌3D-рабочая среда и кисть для ротоскопии в After Effects в бета-версии — теперь можно текстурировать, освещать, затенять и визуализировать 3D-модели внутри After Effects. Кисть для ротоскопии с улучшенным искусственным интеллектом позволяет вырезать объекты.
🌐Участники Creative Cloud теперь имеют доступ к новому веб-приложению Firefly — с его помощью можно создавать контент для любого проекта.
#новости
Что лучше — нанять тимлида из сторонней компании или вырастить самостоятельно? Как правильно выбрать подходящего на эту роль сотрудника?
На эти и другие важные вопросы отвечает руководитель аналитики в Авито Глеб Белогорцев. В своем гайде он подробно рассказывает, как понять, какой именно тимлид нужен компании, как распознать потенциального руководителя в числе сотрудников и кого точно не нужно брать на роль тимлида.
Если вы хотите найти тимлида, который сможет качественно управлять командой, вам просто необходима эта инструкция! Переходите по ссылке и узнавайте уникальную информацию от опытного специалиста!
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: Kra23e76V
На эти и другие важные вопросы отвечает руководитель аналитики в Авито Глеб Белогорцев. В своем гайде он подробно рассказывает, как понять, какой именно тимлид нужен компании, как распознать потенциального руководителя в числе сотрудников и кого точно не нужно брать на роль тимлида.
Если вы хотите найти тимлида, который сможет качественно управлять командой, вам просто необходима эта инструкция! Переходите по ссылке и узнавайте уникальную информацию от опытного специалиста!
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: Kra23e76V
This media is not supported in your browser
VIEW IN TELEGRAM
🔍Чат-бот Bard теперь может подключаться к вашим приложениям и сервисам Google.
🏁OpenAI спешит опередить Google и запустить «мультимодальную» LLM.
👾Также компания представила DALL·E 3. Новая версия системы генерации изображений на основе текста позволяет использовать ChatGPT как партнера для обдумывания идей и уточнения запросов.
🦮Компания Microsoft представила повседневного ИИ-помощника Copilot. Он будет доступен в Windows 11, Microsoft 365 и веб-браузере с Edge и Bing.
📹YouTube анонсировала новые инструменты для создателей контента: от нового мобильного редактора до AI-фонов. Тестирование инструмента начнется уже в этом году.
🦠Специалисты из Google DeepMind представили новую ИИ-систему AlphaMissense. Она может помочь классифицировать, являются ли генетические мутации доброкачественными или нет. Это важный шаг на пути к раскрытию причин многих заболеваний.
#чтопроисходит
Please open Telegram to view this post
VIEW IN TELEGRAM
DEVA — новая модель сегментации видео для отслеживания объектов
DevGPT — кодинг с ИИ-ассистентом на модели gpt-4-32k
🌐Сайт
Bard Extensions — ассистента Google внедрили во все продукты компании, и теперь он может помогать разбирать почту в Gmail, писать документы в Docs и так далее
🌐Сайт
LTU-AS — модель восприятия звука, которая способна к рассуждению с помощью LLaMA
🌐Демо
Пробовали что-то новое и хотите поделиться отзывом? Пишите в комментарии
#дайджест #инструменты
Please open Telegram to view this post
VIEW IN TELEGRAM
Базовые модели ML и приложения
Это наш новый курс для начинающих в теме машинного обучения🎉
🔹 Познакомитесь с основными моделями машинного обучения
🔹 Научитесь выбирать и применять подходящие tree-based модели
🔹 Получите основу для дальнейшего изучения более сложных нейронных сетей
Подробности – https://proglib.io/w/67c59870
Кому будет полезен курс?
Начинающим в IT. Тем, кто выбирает направление и хочет попробовать себя в ML
Математикам. Увлекаетесь математикой и хотите перейти от теории к практике, а также научиться решать реальные бизнес-задачи
Ну и главное, до конца сентября вы сможете получить этот курс бесплатно🤯
Пока ссылки нет на основном сайте, мы открываем продажи супер-акцией для своих 🙌 – https://proglib.io/w/67c59870
Переходите на сайт, читайте подробности и заходите на обучение по самым выгодным условиям!
Это наш новый курс для начинающих в теме машинного обучения🎉
🔹 Познакомитесь с основными моделями машинного обучения
🔹 Научитесь выбирать и применять подходящие tree-based модели
🔹 Получите основу для дальнейшего изучения более сложных нейронных сетей
Подробности – https://proglib.io/w/67c59870
Кому будет полезен курс?
Начинающим в IT. Тем, кто выбирает направление и хочет попробовать себя в ML
Математикам. Увлекаетесь математикой и хотите перейти от теории к практике, а также научиться решать реальные бизнес-задачи
Ну и главное, до конца сентября вы сможете получить этот курс бесплатно🤯
Пока ссылки нет на основном сайте, мы открываем продажи супер-акцией для своих 🙌 – https://proglib.io/w/67c59870
Переходите на сайт, читайте подробности и заходите на обучение по самым выгодным условиям!
Как пишет компания в своем блоге, теперь ИИ может слышать, видеть и даже говорить. Так что теперь ей можно давать голосовые команды, спрашивать про что-то на фото и просить рассказать сказку.
Точнее, это можно будет сделать в ближайшее время: пользователи премиума смогут протестировать новые функции через две недели.
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
Помимо анонсов новых VR-очков и обсуждений Llama, Meta анонсировала несколько новых ИИ-продуктов. Вот список👇
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM