Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Топ бесплатных курсов по Python в 2024 году
— Open AI Sora. Модели генерации видео как симуляторы мира
— Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями
— Книга по искусственному интеллекту с открытым исходным кодом от Hugging Face.
— Google представляет Как обучить эффективные LLM на данных
— Курсы Сomputer Science с видеолекциями актуальные в 2024 году
— Google создала MobileDiffusion -модель для быстрой генерации изображений на смартфонах.
— Some (Pleasant) Surprises about the Surprise Module: A Beginner's Thoughts
— Recapping the AI, Machine Learning and Data Science Meetup — Feb 15, 2024
— Anaconda for Machine Learning: A Comprehensive Overview
— 3 Ways To Store Data in Computer Vision Applications
— "Day 30 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -9)
— Prompt Engineering For Developers: A Complete Guide!
— How to Build an LLM RAG Pipeline with Upstash Vector Database
— Earthquake Heatmap using Python folium library
— Day 29 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -8)

Проекты
- V-JEPA новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
- UserSketch — инстремнт для создания чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений.
- Огромный кураторский список материалов: обнаружение лиц
- Специализированные библиотеки Python для решения уникальных задач
- Новый фреймворк для создания видео с конкретным человеком.

Посмотреть:
🌐 DeepMind’s New AI Beats Billion Dollar Systems - For Free! (⏱ 07:20)
🌐 OpenAI Sora: The Age Of AI Is Here! (⏱ 08:27)
🌐 Enhance! AI Super Resolution Is Here! (⏱ 07:05)
🌐 C# полный курс 2024. Урок 7 Условия (⏱ 15:06)
🌐 Телеграм бот приема заявок и рассылок! Огромный прирост подписчиков! (⏱ 17:10)
🌐 Запрещенный синтаксис #Python, за который вас уволят! (⏱ 00:50)
🌐 Towards Explainable and Language-Agnostic LLMs with Walid S. Saba (⏱ 35:48)

Хорошего дня!

@data_analysis_ml

7.8K viewsedited 09:18

💼 Quantstats

Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.

QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.

Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.

▪Github

@data_analysis_ml

7.0K views13:43

Анализ данных (Data analysis)

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

🖥 Tato: Terminal Text Effects

Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.

В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.

#opensource #python #terminal #полезныйсофт

▪ Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

13.7K views13:06

Анализ данных (Data analysis)

⚡️Исследование неочевидных аспектов квантового программирования:

10 библиотек для тех, кто хочет погрузиться в квантовое программирование:

▪Qiskit — это библиотека для квантового программирования, которая позволяет пользователям писать программы для квантовых компьютеров IBM. Включает поддержку классических, квантовых алгоритмов и визуализацию квантовых схем.

▪Cirq — это библиотека от Google для создания, симуляции и выполнения квантовых алгоритмов. Она предназначена для использования с квантовыми компьютерами и обеспечивает возможность работы с сложными квантовыми системами.

▪PennyLane - объединяет машинное обучение и квантовое программирование. Она позволяет пользователям создавать самонастраиваемые квантовые алгоритмы и исследовать преимущества квантовых вычислений в задачах машинного обучения.

▪ProjectQ - это открытая платформа для квантовых вычислений, которая позволяет пользователям реализовывать и симулировать квантовые алгоритмы, и включает в себя интерфейсы для различных квантовых процессоров.

▪QuTiP - предоставляет инструменты для моделирования квантовых систем и является незаменимым инструментом для исследователей квантовой механики и квантовой оптики.

▪PyQuil - это библиотека для написания квантовых программ с помощью языка квантового программирования Quil, разработанного Rigetti Computing. Поддерживает симуляцию и выполнение программ на реальных квантовых процессорах.

▪Tequila - это инструмент для создания квантовых алгоритмов с интеграцией в PyTorch и TensorFlow, который позволяет больше акцентировать внимание на квантовых вычислениях в контексте глубокого обучения.

▪Strawberry Fields предлагает платформу для создания и симуляции квантовых алгоритмов с использованием квантовых битов и квантовой оптики. Подходит для работы с квантовыми сетями и визуализацией в квантовых схемах.

▪Q# - это язык программирования от Microsoft для квантовых вычислений, который также предоставляет библиотеки, намеренные упростить разработку и выполнение квантовых алгоритмов в Azure Quantum.

▪Quirk — это онлайн-интерфейс для визуального проектирования и анализа квантовых схем, который позволяет легко экспериментировать с различными квантовыми логическими элементами.

#quantum #python #ai

@data_analysis_ml

6.0K views13:01

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 Numpy QuadDType: Четырехкратная точность в Python.

NumPy-QuadDType (numpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах.

Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double.

Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:

🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности;

🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.

Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:

🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.

🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble.

Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:

typedef union {  
Sleef_quad sleef_value;  
long double longdouble_value;  
} quad_value;  

typedef struct {  
PyObject_HEAD  
quad_value value;  
QuadBackendType backend;  
} QuadPrecisionObject;

QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:

typedef struct {  
PyArray_Descr base;  
QuadBackendType backend;  
} QuadPrecDTypeObject;

Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:

>>> import numpy as np  
>>> import numpy_quaddtype as npq  

# Using SLEEF backend (default)  
>>> x = npq.QuadPrecision(3.5)  
>>> x = npq.QuadPrecision(3.5, backend='sleef')  
>>> repr(x)  
QuadPrecision('3.5e+000', backend='sleef')  

# Using longdouble backend  
>>> y = npq.QuadPrecision(2.5, backend='longdouble')  
>>> repr(y)  
QuadPrecision('2.5e+000', backend='longdouble')  

# Creating a NumPy array with QuadPrecision dtype  
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF  
>>> print(z)  
[QuadPrecision('3.5e+000', backend='sleef')  
QuadPrecision('3.5e+000', backend='sleef')]  

>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble  
>>> print(z)  
[QuadPrecision('2.5e+000', backend='longdouble')  
QuadPrecision('2.5e+000', backend='longdouble')]

В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0.

C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.

В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях.

▶️

Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.

@ai_machinelearning_big_data

#AI #ML #DS #Python #NumPy

Please open Telegram to view this post

VIEW IN TELEGRAM

5.4K views16:01

Анализ данных (Data analysis)

🖥 pytorch-cpp-cuda-starter

Cтартовый пакет работы с Pytorch на C/C++ с поддержкой CUDA.

▪ Github

#cpp #python #cuda #nvidia #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

6.6K views15:14

Анализ данных (Data analysis)

🐼

Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks

🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd

Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py

FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/

⭐️

Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

28.8K viewsedited 06:48

Анализ данных (Data analysis)

🖥

Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.

Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel.

✨ Ключевые возможности:

▪ Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
▪ Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
▪ Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
▪ Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.

🖥

Github: https://github.com/telekinesis-inc/aiopandas

#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность

Please open Telegram to view this post

VIEW IN TELEGRAM

5.7K views08:09

Анализ данных (Data analysis)

🔥 Promptify: Python library for LLM Prompt Management

В примере на картинке Promptify использует OpenAI для выполнения распознавания именованных сущностей (NER) в медицинском тексте.

Она извлекает ключевые данные, такие как возраст, диагнозы и симптомы, из истории болезни пациента и структурирует их в удобный формат.

- Что она делает:
Берёт предложение: "Пациент — 93-летняя женщина с хронической болью в правом бедре, остеопорозом, гипертонией, депрессией и хронической фибрилляцией предсердий, поступившая для оценки и лечения сильной тошноты, рвоты и инфекции мочевыводящих путей."

Выдаёт структурированные данные, выделяя сущности:
93-летняя → Возраст

хроническая боль в правом бедре → Медицинское состояние

сильная тошнота и рвота → Симптом

Плюс метаданные: Отделение: Внутренняя медицина, Группа: Гериатрия
Почему это круто:
- Упрощает создание промптов для задач NLP.

- Поддерживает модели вроде GPT, PaLM и другие.

- Выдаёт структурированный результат (списки, словари) для лёгкой обработки.

pip3 install promptify

🖥

Github

#Python #ИИ #NLP #Promptify #МашинноеОбучение

Please open Telegram to view this post

VIEW IN TELEGRAM

5.3K views10:02

Анализ данных (Data analysis)

🖥

PyXL — первый в мире специализированный процессор для нативного запуска Python

Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.

Ключевые особенности:

⚡ Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).

🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.

🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.

🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.

🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.

Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.

Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.

#Python #PyXL #Embedded #FPGA #PyCon2025

https://runpyxl.com/gpio

Please open Telegram to view this post

VIEW IN TELEGRAM

5.9K viewsedited 16:52

About

Blog

Apps

Platform