Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.36K photos

278 videos

1 file

2.09K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

🌐

WebRL — это проект, предназначенный для создания интеллектуальных веб-агентов, способных выполнять задачи по навигации на веб-сайтах с использованием LLM!

⭐️ Основная цель WebRL — дать агентам способность понимать и интерпретировать HTML-страницы и адаптироваться к различным задачам, таким как сбор информации или взаимодействие с элементами интерфейса.

📖 Читать: *клик*

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤7👏3🔥2

6.34K viewsedited 14:52

Анализ данных (Data analysis)

Media is too big

VIEW IN TELEGRAM

🎮 "Добро пожаловать в City 17!"

В честь 20-летия Half-Life 2, NVIDIA разыгрывают крутые кастомные GeForce RTX 4080 SUPER, которая вдохновлена культовым Гордоном Фримеменом.

🔗

Новость: https://www.nvidia.com/en-us/geforce/news/half-life-2-20th-anniversary-rtx-wishlist/?linkId=100000308511356

🔗

Условия конкурса тут: https://www.nvidia.com/en-us/geforce/contests/halflife2-anniversary-official-rules/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤3👍3🥱3🤣3💔1

14.7K views20:45

Анализ данных (Data analysis)

🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!

⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.

🔐 Лицензия: Apache-2.0

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥3

6.43K views11:22

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/datascienceiot
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

❤7🔥4👍2

5.43K viewsedited 09:11

Анализ данных (Data analysis)

🔥 Полезный репозиторий-руководство по работе с LLM!

⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!

🔐 Лицензия: MIT

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥3

5.28K viewsedited 10:13

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.

🟡

🟡

🟡

Ipynb блокнот

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥3❤2❤‍🔥1

5.52K views15:46

Анализ данных (Data analysis)

🔥Полезный репозиторий, который содержит список ПО, позволяющего осуществлять серфинг и дата майнинг в сети с помощью ИИ.

🔐 Лицензия: CC0-1.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤6🔥4

6.08K views12:35

Анализ данных (Data analysis)

🔥

Chonkie — легковесная библиотека на Python для текстовой сегментации (или "chunking") в задачах Retrieval-Augmented Generation (RAG)!

💡 Цель этой библиотеки — обеспечить высокую производительность и удобство в обработке больших текстов, разбивая их на сегменты для использования в чат-ботах и других NLP-приложениях. Chonkie поддерживает различные методы сегментации, включая разделение по токенам, словам, предложениям и даже по семантическому признаку, что делает её универсальной и эффективной для задач анализа текста и обработки естественного языка.

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥7❤5👏1

6.15K views11:14

Анализ данных (Data analysis)

OmniVision-968M: новый локальный VLM для периферийных устройств, быстрый и компактный, но производительный 👏

Основан на Siglap-so-400M и Qwen-2.5-0.5B
💨 Требует в 9 раз меньше токенов для обработки изображений, суперэффективен.

✅ Cогласован с SFT и DPO для уменьшения галлюцинаций
✅ Лицензия Apache 2.0

▪ Модель: huggingface.co/NexaAIDev/omnivision-968M
▪ Демо: https://huggingface.co/spaces/NexaAIDev/omnivlm-dpo-demo

@data_analysis_ml

👍8❤3🔥3

5.94K views15:29

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔍

dstack — инструмент с открытым исходным кодом, предназначенный для упрощения работы с вычислительными нагрузками, требующими GPU! Основная цель проекта — сделать разработку, обучение и развертывание генеративных моделей ИИ более доступным и простым процессом, независимо от того, где они выполняются: в облаке или локально.

🔍 Основные особенности:

🌟 Альтернатива Kubernetes и Slurm: dstack упрощает оркестрацию контейнеров для задач машинного обучения и аналитики данных.

🌟 Поддержка мультиоблачных и локальных решений: позволяет запускать приложения на любой платформе, включая облачные сервисы (AWS, GCP, Azure) и локальные сервера.

🌟 Совместимость с GPU и TPU: поддерживает оборудование NVIDIA, AMD и TPU для более эффективной работы с высокопроизводительными нагрузками.

🌟 Интеграция с существующими инструментами: позволяет легко интегрировать существующие решения в ваш рабочий процесс.

🔐 Лицензия: MPL-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤7🔥4

5.6K views10:00

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

💼 PhySO | DL-регрессия для подбора функции

Инструмент, который использует глубокое обучение с подкреплением для подбора наиболее подходящей функции, описывающей заданные данные.

git clone https://github.com/WassimTenachi/PhySO

📌 Репозиторий

@data_math

👍37❤7🔥5

6.23K viewsedited 15:11

Анализ данных (Data analysis)

Qwen2.5-Версия Turbo, которая включает:

📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода.

🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза.

✅ Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini.

Теперь вы можете использовать его через API-сервис <url>.
➡ Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio,
➡ HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
➡ Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

@data_analysis_ml

👍6❤5🔥5

6.88K views10:01

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 Генеративные агенты: моделирование поведения 1000 человек.

Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.

Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).

Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.

Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.

Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.

В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).

Доступ к банку агентов двухуровневый:

🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения

🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу.

📌 Лицензирование: MIT License.

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Social

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3⚡1🔥1

4.25K views13:17

Анализ данных (Data analysis)

🖥

cuGraph — это библиотека от RAPIDS, которая предоставляет высокопроизводительные алгоритмы анализа графов, оптимизированные для работы на GPU!

🌟 Она интегрируется с другими инструментами RAPIDS, такими как cuDF (аналог Pandas для GPU) и cuML (машинное обучение на GPU), что упрощает обработку больших графов, включая создание, анализ и выполнение сложных операций, таких как PageRank, центральности, кластеризация и поиск связанных компонентов.

💡 Библиотека предлагает Python API с интерфейсом, похожим на NetworkX, и более низкоуровневые API для интеграции с C++/CUDA. Она поддерживает различные форматы данных, такие как DataFrames из cuDF, Pandas или объекты NetworkX, и позволяет работать с графами на многогранных GPU-кластерах. CuGraph активно используется для анализа больших графов в задачах, связанных с машинным обучением и обработкой данных в реальном времени.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5⚡3👍3👌1

5.23K views16:01

Анализ данных (Data analysis)

📝

LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!

🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.

🔍 Основные функции:

🌟 Генерация графов знаний на основе предоставленных данных.

🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.

🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.

🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤7👍3

6.25K views19:00