Анализ данных (Data analysis)
45.3K subscribers
2.03K photos
204 videos
1 file
1.83K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
Новостной дайджест

✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.

Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.

Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.

Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com

✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.

Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.

В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com

✔️ ell: Библиотека программирования LLM.

ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.

Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной. 
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.

Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so

✔️ Loopy: генеративная модель портретного видео на основе аудио.

Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.

Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io

✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.

В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.

Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Microsoft представляет Windows Agent Arena

Инструмент для оценки мультимодальных агентов Работающих с ОС Windows



Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе.

Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач.

huggingface.co/papers/2409.08264

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на

Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🍏 Все, что вам нужно это 2 Макбука

Крутой домашний клестер: Llama 3.1 405B работает распределенно на 2х макбуках.


https://github.com/exo-explore/exo

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ SkillNer - это модуль NLP для автоматического извлечения HR данных из неструктурированных объявлений о работе, текстов и резюме соискателей.

pip install skillNer

Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.

Этот инструмент может быть полезен:

- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.

SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.

Вот небольшой пример:


python
import spacy
from spacy.matcher import PhraseMatcher
from skillNer.general_params import SKILL_DB
from skillNer.skill_extractor_class import SkillExtractor

# Load the spaCy model
nlp = spacy.load("en_core_web_lg")

# Initialize the SkillExtractor
skill_extractor = SkillExtractor(nlp, SKILL_DB, PhraseMatcher)

# Sample job description
job_description = """
You are a data scientist with strong expertise in Python. You have solid experience in
data analysis and visualization, and can manage end-to-end data science projects.
You quickly adapt to new tools and technologies, and are fluent in both English and SQL.
"""

# Extract skills from the job description
annotations = skill_extractor.annotate(job_description)
annotations


📘 Github
🚀 Demo
🌟 Docs

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🫦 Pose Talk - это мощный метод синхронизации губ, который позволяет создавать видеоролики с говорящей головой из одного изображения, аудио и текстовых подсказок.

https://junleen.github.io/projects/posetalk

@data_analysis_ml
Andrew Ng только что выпустили два свежих курса по AI Python для начинающих!

В курсе учат, как писать код с использованием ИИ.

Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.

https://deeplearning.ai/short-courses/ai-python-for-beginners/

@data_analysis_ml
🖥 NVIDIA выпустила уменьшенную версию, Nemotron-Mini-4B-Instruct

- Оптимизирована для ролевых игр, RAG QA и вызова функций на английском языке.

- Поддерживает контекст длиной 4 096 лексем.

- Разрешено коммерческое использование

🌟 Подробнее про Nemotron

Это доработанная версия nvidia's Minitron-4B-Base, которая была обрезана(прунинг) и соборно из Nemotron-4 15B с помощью техники сжатия LLM.

https://huggingface.co/nvidia/Nemotron-Mini-4B-Instruct

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 One-DM может генерировать рукописный текст по одному образцу, имитируя стиль вводимого текста.

Он улавливает уникальные особенности письма и хорошо работает на нескольких языках.

https://github.com/dailenson/One-DM

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains

Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.

В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.

Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.

https://github.com/bklieger-groq/g1

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Microsoft только что объявила о возможности Copilot обрабатывать Excel файлы, генерируя код на Python.

- Полноценный анализ данных
- Copilot генерирует Python скрипты
- Excel выполняет код, чтобы вывести результат.

И все это без необходимости формулы.

Только естественный язык.

Супер легкий анализ и визуализация данных.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Новостной дайджест

✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.

Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.

Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com

✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.

Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com


✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.

AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.

Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.

Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.

FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com

✔️ ОАЭ представили новую политику безопасности в области ИИ.

Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.

Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae

✔️ Италия тестирует обучение с помощью ИИ в школах.

Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.

В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".

Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.

В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ SwiftBrush v2 может улучшить качество изображений, создаваемых моделями диффузии текста в изображение!

Результаты выглядят великолепно, и, судя по всему, в бенчмарках она превосходит все модели на основе GAN и многошаговые модели Stable Diffusion.

https://swiftbrushv2.github.io


@data_analysis_ml
🎧 WaveWizard 🎶


WaveWizard - это интерактивное приложение Gradio, которое анализирует аудиофайлы, чтобы определить их частоту дискретизации и битовую глубину.

Оно поможет вам проверить, являются ли ваши аудиофайлы высокого разрешения подлинными или же они были пересжаты из источников более низкого качества.

github: https://github.com/JackVinati/WaveWizard

@data_analysis_ml
🎇AutoRound был интегрирован в PyTorch

AO, хорошая библиотека, предоставляющая встроенную квантование и для обучения моделей.

pip install auto-round

🎯Пример кода: https://github.com/pytorch/ao/tree/d2bce6a56eae5701cb72eb0cf6359626e7bd0190/torchao/prototype/autoround
🔥AutoRound Github: https://github.com/intel/auto-round

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
SoccerNet 2024

SoccerNet
- это крупномасштабный набор данных для анализа футбольных видео. С годами он развивался и включал в себя различные задачи, такие как отслеживание действий игроков, калибровка камеры, идентификация игроков и отслеживание движения.

Он состоит из 550 полных трансляций футбольных матчей и 12 игр, снятых одной камерой в главных европейских лигах.

SoccerNet - это не только набор данных, но и ежегодные соревнования, в которых лучшие команды соревнуются на международном уровне.

Статья: arxiv.org/pdf/2409.10587
Github: github.com/SoccerNet
Project: www.soccer-net.org/

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

➡️ https://llamacoder.together.ai

Подробнее об этом проекте ➡️ https://go.fb.me/p5o0x0

@data_analysis_ml