Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— 5 готовых скриптов Python, которые упростят вашу жизнь 2024
— Список актуальных курсов на 2024 год
— Семантический поиск и генерация текста на R. Часть 1
— Где бесплатно изучать Rust в 2024
— Использование машинного обучения для борьбы с DDoS атаками
— Маленькая история импортозамещения о разработке системы автоматического мониторинга моделей Alfa-MRM
— Как мы победили в двух хакатонах Цифрового Прорыва. История первая
— Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей
— ИИ-решения в российском пищпроме – от контроля качества до прогнозирования спроса
— Microsoft представила небольшую модель Phi-2, которая лучше «старших сестёр». Что это за проект?
— SALMONN — универсальная модель для всех типов аудиоданных
— Нужен ли вам fine-tuning моделей и что это такое
— Авторские права на производные от ИИ
— Neural Style Transfer
— How should AI answer more humanly ?
— Dear MLE's..
— Balancing Innovation and Privacy: Navigating LLM Augmentation with RAG and RA-DIT
— Leaking sensitive data via membership inference attacks on machine learning models
— Machine Learning
— MLOps in practice: building and deploying a machine learning app
— CoinSavvy: Revolutionizing Crypto Price Predictions
— Training a neural network for fun and profit
— New blog journey ✨

Посмотреть:
🌐 Топ трюк оптимизации кода #Python !!! #код #программирование #yotubeshorts #питон #youtube (⏱ 00:54)
🌐 Building Robust and Scalable Recommendation Engines for Online Food Delivery (⏱ 25:25)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:23)

Хорошего дня!

@data_analysis_ml

👍13🔥4❤2

8.57K viewsedited 11:18

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Machine Learning инженер: что/где/как изучать, чтобы въехать
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— Инженерные данные в 21 веке
— 10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
— Spark не для чайников: где?
— OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
— Go — 100 вопросов/заданий с собеседований
— Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
— Best Web Scraping Libraries for Spring Boot
— Best Web Scraping Libraries for R
— How To Parse HTML With Regex
— Automatically Generating Data Exploration Code in Python With Mito
— Streamlit Authentication
— CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
— Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
— Check Out GomorraSQL — A Library To Write Queries in Neapolitan
— Achieving Loosely Coupling with a Math Expression Parser
— Returning CSV Content From an API in Spring Boot

Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)

Хорошего дня!

@data_analysis_ml

👍15❤6🔥3

8.41K viewsedited 09:40

Анализ данных (Data analysis)

🖥 SQL-metadata

Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.

Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.

Также предоставляет полезные функции для нормализации SQL-запросов.

pip install sql-metadata

▪Github
▪Docs

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤5🔥3

8.39K viewsedited 13:02

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Топ бесплатных курсов по Python в 2024 году
— Open AI Sora. Модели генерации видео как симуляторы мира
— Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями
— Книга по искусственному интеллекту с открытым исходным кодом от Hugging Face.
— Google представляет Как обучить эффективные LLM на данных
— Курсы Сomputer Science с видеолекциями актуальные в 2024 году
— Google создала MobileDiffusion -модель для быстрой генерации изображений на смартфонах.
— Some (Pleasant) Surprises about the Surprise Module: A Beginner's Thoughts
— Recapping the AI, Machine Learning and Data Science Meetup — Feb 15, 2024
— Anaconda for Machine Learning: A Comprehensive Overview
— 3 Ways To Store Data in Computer Vision Applications
— "Day 30 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -9)
— Prompt Engineering For Developers: A Complete Guide!
— How to Build an LLM RAG Pipeline with Upstash Vector Database
— Earthquake Heatmap using Python folium library
— Day 29 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -8)

Проекты
- V-JEPA новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
- UserSketch — инстремнт для создания чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений.
- Огромный кураторский список материалов: обнаружение лиц
- Специализированные библиотеки Python для решения уникальных задач
- Новый фреймворк для создания видео с конкретным человеком.

Посмотреть:
🌐 DeepMind’s New AI Beats Billion Dollar Systems - For Free! (⏱ 07:20)
🌐 OpenAI Sora: The Age Of AI Is Here! (⏱ 08:27)
🌐 Enhance! AI Super Resolution Is Here! (⏱ 07:05)
🌐 C# полный курс 2024. Урок 7 Условия (⏱ 15:06)
🌐 Телеграм бот приема заявок и рассылок! Огромный прирост подписчиков! (⏱ 17:10)
🌐 Запрещенный синтаксис #Python, за который вас уволят! (⏱ 00:50)
🌐 Towards Explainable and Language-Agnostic LLMs with Walid S. Saba (⏱ 35:48)

Хорошего дня!

@data_analysis_ml

🔥16👍4❤3

7.83K viewsedited 09:18

Анализ данных (Data analysis)

💼 Quantstats

Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.

QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.

Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.

▪Github

@data_analysis_ml

👍33❤4🥰1

7.04K views13:43

Анализ данных (Data analysis)

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🖥 Tato: Terminal Text Effects

Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.

В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.

#opensource #python #terminal #полезныйсофт

▪ Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤4🔥3

13.8K views13:06

Анализ данных (Data analysis)

⚡️Исследование неочевидных аспектов квантового программирования:

10 библиотек для тех, кто хочет погрузиться в квантовое программирование:

▪Qiskit — это библиотека для квантового программирования, которая позволяет пользователям писать программы для квантовых компьютеров IBM. Включает поддержку классических, квантовых алгоритмов и визуализацию квантовых схем.

▪Cirq — это библиотека от Google для создания, симуляции и выполнения квантовых алгоритмов. Она предназначена для использования с квантовыми компьютерами и обеспечивает возможность работы с сложными квантовыми системами.

▪PennyLane - объединяет машинное обучение и квантовое программирование. Она позволяет пользователям создавать самонастраиваемые квантовые алгоритмы и исследовать преимущества квантовых вычислений в задачах машинного обучения.

▪ProjectQ - это открытая платформа для квантовых вычислений, которая позволяет пользователям реализовывать и симулировать квантовые алгоритмы, и включает в себя интерфейсы для различных квантовых процессоров.

▪QuTiP - предоставляет инструменты для моделирования квантовых систем и является незаменимым инструментом для исследователей квантовой механики и квантовой оптики.

▪PyQuil - это библиотека для написания квантовых программ с помощью языка квантового программирования Quil, разработанного Rigetti Computing. Поддерживает симуляцию и выполнение программ на реальных квантовых процессорах.

▪Tequila - это инструмент для создания квантовых алгоритмов с интеграцией в PyTorch и TensorFlow, который позволяет больше акцентировать внимание на квантовых вычислениях в контексте глубокого обучения.

▪Strawberry Fields предлагает платформу для создания и симуляции квантовых алгоритмов с использованием квантовых битов и квантовой оптики. Подходит для работы с квантовыми сетями и визуализацией в квантовых схемах.

▪Q# - это язык программирования от Microsoft для квантовых вычислений, который также предоставляет библиотеки, намеренные упростить разработку и выполнение квантовых алгоритмов в Azure Quantum.

▪Quirk — это онлайн-интерфейс для визуального проектирования и анализа квантовых схем, который позволяет легко экспериментировать с различными квантовыми логическими элементами.

#quantum #python #ai

@data_analysis_ml

❤12🔥6👍4🐳1🌭1

5.99K views13:01

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 Numpy QuadDType: Четырехкратная точность в Python.

NumPy-QuadDType (numpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах.

Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double.

Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:

🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности;

🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.

Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:

🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.

🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble.

Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:

typedef union {  
Sleef_quad sleef_value;  
long double longdouble_value;  
} quad_value;  

typedef struct {  
PyObject_HEAD  
quad_value value;  
QuadBackendType backend;  
} QuadPrecisionObject;

QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:

typedef struct {  
PyArray_Descr base;  
QuadBackendType backend;  
} QuadPrecDTypeObject;

Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:

>>> import numpy as np  
>>> import numpy_quaddtype as npq  

# Using SLEEF backend (default)  
>>> x = npq.QuadPrecision(3.5)  
>>> x = npq.QuadPrecision(3.5, backend='sleef')  
>>> repr(x)  
QuadPrecision('3.5e+000', backend='sleef')  

# Using longdouble backend  
>>> y = npq.QuadPrecision(2.5, backend='longdouble')  
>>> repr(y)  
QuadPrecision('2.5e+000', backend='longdouble')  

# Creating a NumPy array with QuadPrecision dtype  
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF  
>>> print(z)  
[QuadPrecision('3.5e+000', backend='sleef')  
QuadPrecision('3.5e+000', backend='sleef')]  

>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble  
>>> print(z)  
[QuadPrecision('2.5e+000', backend='longdouble')  
QuadPrecision('2.5e+000', backend='longdouble')]

В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0.

C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.

В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях.

▶️

Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.

@ai_machinelearning_big_data

#AI #ML #DS #Python #NumPy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍6❤3

5.49K views16:01

Анализ данных (Data analysis)

🖥 pytorch-cpp-cuda-starter

Cтартовый пакет работы с Pytorch на C/C++ с поддержкой CUDA.

▪ Github

#cpp #python #cuda #nvidia #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤7🔥5

6.67K views15:14

Анализ данных (Data analysis)

🐼

Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks

🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd

Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py

FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/

⭐️

Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45❤17🔥12🥱1🤨1

29.7K viewsedited 06:48

Анализ данных (Data analysis)

🖥

Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.

Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel.

✨ Ключевые возможности:

▪ Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
▪ Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
▪ Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
▪ Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.

🖥

Github: https://github.com/telekinesis-inc/aiopandas

#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤10🔥6

5.84K views08:09

Анализ данных (Data analysis)

🔥 Promptify: Python library for LLM Prompt Management

В примере на картинке Promptify использует OpenAI для выполнения распознавания именованных сущностей (NER) в медицинском тексте.

Она извлекает ключевые данные, такие как возраст, диагнозы и симптомы, из истории болезни пациента и структурирует их в удобный формат.

- Что она делает:
Берёт предложение: "Пациент — 93-летняя женщина с хронической болью в правом бедре, остеопорозом, гипертонией, депрессией и хронической фибрилляцией предсердий, поступившая для оценки и лечения сильной тошноты, рвоты и инфекции мочевыводящих путей."

Выдаёт структурированные данные, выделяя сущности:
93-летняя → Возраст

хроническая боль в правом бедре → Медицинское состояние

сильная тошнота и рвота → Симптом

Плюс метаданные: Отделение: Внутренняя медицина, Группа: Гериатрия
Почему это круто:
- Упрощает создание промптов для задач NLP.

- Поддерживает модели вроде GPT, PaLM и другие.

- Выдаёт структурированный результат (списки, словари) для лёгкой обработки.

pip3 install promptify

🖥

Github

#Python #ИИ #NLP #Promptify #МашинноеОбучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍6🔥4

5.44K views10:02

Анализ данных (Data analysis)

🖥

PyXL — первый в мире специализированный процессор для нативного запуска Python

Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.

Ключевые особенности:

⚡ Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).

🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.

🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.

🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.

🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.

Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.

Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.

#Python #PyXL #Embedded #FPGA #PyCon2025

https://runpyxl.com/gpio

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤7🔥7🤣3😁2😱2

6.22K viewsedited 16:52

About

Blog

Apps

Platform