Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Топ бесплатных курсов по Python в 2024 году
Open AI Sora. Модели генерации видео как симуляторы мира
Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями
Книга по искусственному интеллекту с открытым исходным кодом от Hugging Face.
Google представляет Как обучить эффективные LLM на данных
Курсы Сomputer Science с видеолекциями актуальные в 2024 году
Google создала MobileDiffusion -модель для быстрой генерации изображений на смартфонах.
Some (Pleasant) Surprises about the Surprise Module: A Beginner's Thoughts
Recapping the AI, Machine Learning and Data Science Meetup — Feb 15, 2024
Anaconda for Machine Learning: A Comprehensive Overview
3 Ways To Store Data in Computer Vision Applications
"Day 30 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -9)
Prompt Engineering For Developers: A Complete Guide!
How to Build an LLM RAG Pipeline with Upstash Vector Database
Earthquake Heatmap using Python folium library
Day 29 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -8)

Проекты
- V-JEPA новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
- UserSketch — инстремнт для создания чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений.
- Огромный кураторский список материалов: обнаружение лиц
- Специализированные библиотеки Python для решения уникальных задач
- Новый фреймворк для создания видео с конкретным человеком.

Посмотреть:
🌐 DeepMind’s New AI Beats Billion Dollar Systems - For Free! ( 07:20)
🌐 OpenAI Sora: The Age Of AI Is Here! ( 08:27)
🌐 Enhance! AI Super Resolution Is Here! ( 07:05)
🌐 C# полный курс 2024. Урок 7 Условия ( 15:06)
🌐 Телеграм бот приема заявок и рассылок! Огромный прирост подписчиков! ( 17:10)
🌐 Запрещенный синтаксис #Python, за который вас уволят! ( 00:50)
🌐 Towards Explainable and Language-Agnostic LLMs with Walid S. Saba ( 35:48)

Хорошего дня!

@data_analysis_ml
💼 Quantstats

Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.

QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.

Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.

Github

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Tato: Terminal Text Effects

Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.

В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.

#opensource #python #terminal #полезныйсофт

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Исследование неочевидных аспектов квантового программирования:

10 библиотек для тех, кто хочет погрузиться в квантовое программирование:

Qiskit — это библиотека для квантового программирования, которая позволяет пользователям писать программы для квантовых компьютеров IBM. Включает поддержку классических, квантовых алгоритмов и визуализацию квантовых схем.

Cirq — это библиотека от Google для создания, симуляции и выполнения квантовых алгоритмов. Она предназначена для использования с квантовыми компьютерами и обеспечивает возможность работы с сложными квантовыми системами.

PennyLane - объединяет машинное обучение и квантовое программирование. Она позволяет пользователям создавать самонастраиваемые квантовые алгоритмы и исследовать преимущества квантовых вычислений в задачах машинного обучения.

ProjectQ - это открытая платформа для квантовых вычислений, которая позволяет пользователям реализовывать и симулировать квантовые алгоритмы, и включает в себя интерфейсы для различных квантовых процессоров.

QuTiP - предоставляет инструменты для моделирования квантовых систем и является незаменимым инструментом для исследователей квантовой механики и квантовой оптики.

PyQuil - это библиотека для написания квантовых программ с помощью языка квантового программирования Quil, разработанного Rigetti Computing. Поддерживает симуляцию и выполнение программ на реальных квантовых процессорах.

Tequila - это инструмент для создания квантовых алгоритмов с интеграцией в PyTorch и TensorFlow, который позволяет больше акцентировать внимание на квантовых вычислениях в контексте глубокого обучения.

Strawberry Fields предлагает платформу для создания и симуляции квантовых алгоритмов с использованием квантовых битов и квантовой оптики. Подходит для работы с квантовыми сетями и визуализацией в квантовых схемах.

Q# - это язык программирования от Microsoft для квантовых вычислений, который также предоставляет библиотеки, намеренные упростить разработку и выполнение квантовых алгоритмов в Azure Quantum.

Quirk — это онлайн-интерфейс для визуального проектирования и анализа квантовых схем, который позволяет легко экспериментировать с различными квантовыми логическими элементами.

#quantum #python #ai

@data_analysis_ml
Forwarded from Machinelearning
🌟 Numpy QuadDType: Четырехкратная точность в Python.

NumPy-QuadDType (numpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах.

Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double.

Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:

🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности;

🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.

Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:

🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.

🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble.

Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:

typedef union {  
Sleef_quad sleef_value;
long double longdouble_value;
} quad_value;

typedef struct {
PyObject_HEAD
quad_value value;
QuadBackendType backend;
} QuadPrecisionObject;


QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:

typedef struct {  
PyArray_Descr base;
QuadBackendType backend;
} QuadPrecDTypeObject;


Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:

>>> import numpy as np  
>>> import numpy_quaddtype as npq

# Using SLEEF backend (default)
>>> x = npq.QuadPrecision(3.5)
>>> x = npq.QuadPrecision(3.5, backend='sleef')
>>> repr(x)
QuadPrecision('3.5e+000', backend='sleef')

# Using longdouble backend
>>> y = npq.QuadPrecision(2.5, backend='longdouble')
>>> repr(y)
QuadPrecision('2.5e+000', backend='longdouble')

# Creating a NumPy array with QuadPrecision dtype
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF
>>> print(z)
[QuadPrecision('3.5e+000', backend='sleef')
QuadPrecision('3.5e+000', backend='sleef')]

>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble
>>> print(z)
[QuadPrecision('2.5e+000', backend='longdouble')
QuadPrecision('2.5e+000', backend='longdouble')]


В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0.

C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.

В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях.

▶️Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.


@ai_machinelearning_big_data

#AI #ML #DS #Python #NumPy
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 pytorch-cpp-cuda-starter

Cтартовый пакет работы с Pytorch на C/C++ с поддержкой CUDA.

Github

#cpp #python #cuda #nvidia #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🐼 Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks 🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:

https://fireducks-dev.github.io/docs/benchmarks/

⭐️ Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.

Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel.

Ключевые возможности:

Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.

🖥 Github: https://github.com/telekinesis-inc/aiopandas

#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Promptify: Python library for LLM Prompt Management

В примере на картинке Promptify использует OpenAI для выполнения распознавания именованных сущностей (NER) в медицинском тексте.

Она извлекает ключевые данные, такие как возраст, диагнозы и симптомы, из истории болезни пациента и структурирует их в удобный формат.

- Что она делает:
Берёт предложение: "Пациент — 93-летняя женщина с хронической болью в правом бедре, остеопорозом, гипертонией, депрессией и хронической фибрилляцией предсердий, поступившая для оценки и лечения сильной тошноты, рвоты и инфекции мочевыводящих путей."

Выдаёт структурированные данные, выделяя сущности:
93-летняя → Возраст

хроническая боль в правом бедре → Медицинское состояние

сильная тошнота и рвота → Симптом

Плюс метаданные: Отделение: Внутренняя медицина, Группа: Гериатрия
Почему это круто:
- Упрощает создание промптов для задач NLP.

- Поддерживает модели вроде GPT, PaLM и другие.

- Выдаёт структурированный результат (списки, словари) для лёгкой обработки.

pip3 install promptify

🖥 Github

#Python #ИИ #NLP #Promptify #МашинноеОбучение
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 PyXL — первый в мире специализированный процессор для нативного запуска Python

Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.

Ключевые особенности:

Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).

🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.

🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.

🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.

🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.

Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.

Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.

#Python #PyXL #Embedded #FPGA #PyCon2025

https://runpyxl.com/gpio
Please open Telegram to view this post
VIEW IN TELEGRAM