Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.35K photos

278 videos

1 file

2.08K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Google Mind gредставили AvatarPopUp!

Этот метод позволяет создавать высококачественные трехмерные аватары людей из одного изображения или текстового запроса всего за 2 секунды 🔥

https://nikoskolot.com/avatarpopup/

@data_analysis_ml

🔥7❤4👍2

5.67K viewsedited 12:39

Анализ данных (Data analysis)

🌟

AXLearn — open-source библиотека от Apple, созданная на основе JAX и XLA для разработки больших Deep Learning моделей

— pip install 'axlearn[apple-silicon]'

Система конфигурации AXLearn позволяет пользователям создавать модели из многократно используемых строительных блоков и интегрировать их с другими библиотеками, такими как Flax и Hugging Face transformers.

AXLearn создана для масштабирования — она поддерживает обучение моделей с сотнями миллиардов параметров на тысячах GPU.
AXLearn также поддерживает работу в публичных облаках и предоставляет инструменты для развертывания и управления моделями.

Поддерживает широкий спектр приложений, включая NLP, CV и распознавание речи, и содержит базовые конфигурации для обучения современных моделей.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6🔥2😐1

5.79K views15:02

Анализ данных (Data analysis)

🌟

d3rlpy — библиотека Python, предоставляющая реализации алгоритмов Deep Learning

— pip install d3rlpy

d3rlpy уделяет большое внимание простоте использования; эта библиотека предназначена не только для исследователей, но и для практиков, работающих над обычными проектами.

🖥

🟡

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤4🏆2🥰1

5.83K views17:33

Анализ данных (Data analysis)

В следующий раз, когда будете выбирать бенчмарки для оценки модели, ознакомьтесь с этой корреляционной матрицей из статьи MixEval.

Удобно смотреть производительность чат-ботов на арене, идеально подходит для поиска чат-ботов общего назначения.

🌀 MixEval: https://mixeval.github.io

❤15🔥5👍3😁1

6.04K views20:03

Анализ данных (Data analysis)

🌟

TextGrad — open-source фреймворк для реализации обратного распространения, опирающегося на текстовую обратную связь

— pip install textgrad

TextGrad может оптимизировать неструктурированные переменные, такие как текст. Пусть у нас есть исходное решение математической задачи, мы хотим, чтобы это решение выглядело лучше. Вот как можно реализовать это в коде с помощью TextGrad и GPT-4o:

tg.set_backward_engine("gpt-4o")

initial_solution = """To solve the equation 3x^2 - 7x + 2 = 0, we use the quadratic formula:
x = (-b ± √(b^2 - 4ac)) / 2a
a = 3, b = -7, c = 2
x = (7 ± √((-7)^2 - 4 * 3(2))) / 6
x = (7 ± √(7^3) / 6
The solutions are:
x1 = (7 + √73)
x2 = (7 - √73)"""

# Define the variable to optimize, let requires_grad=True to enable gradient computation
solution = tg.Variable(initial_solution,
                       requires_grad=True,
                       role_description="solution to the math question")

# Define the optimizer, let the optimizer know which variables to optimize, and run the loss function

loss_fn = tg.TextLoss("You will evaluate a solution to a math question. Do not attempt to solve it yourself, do not give a solution, only identify errors. Be super concise.")

optimizer = tg.TGD(parameters=[solution])
loss = loss_fn(solution)

🖥

🟡

Colab с примерами примитивов TextGrad

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤5👍5

6.4K views09:33

Анализ данных (Data analysis)

⚡️

HelpSteer2 — открытый датасет от Nvidia

На днях Nvidia выкатили HelpSteer2, который позволяет сделать модели фактологически корректными и последовательными, плюс регулирует сложность и многословность их ответов.

При обучении базовой Llama 3 70B на HelpSteer2 модель достигает 88.8% в RewardBench, что делает ее 4-й лучшей Reward-моделью на текущий момент

🤗 Hugging Face

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4🔥3

6.39K views17:04

Анализ данных (Data analysis)

🖥

Daft — фреймворк для ETL, аналитики и ML/AI в нагруженных системах

— pip install getdaft

Daft — это распределенный движок запросов для обработки больших данных на Python; реализован на Rust.
Многие идеи Daft позаимствовал из Apache Arrow In-Memory

Особенности Daft
— встроенный мощный оптимизатор переписывает запросы, чтобы сделать их максимально эффективными

— есть полная интеграция с такими системами как Apache Iceberg

— имеется поддержка изображений, URL, тензоров и других самых разных объектов

— рекордная производительность ввода-вывода для интеграции с облачным хранилищем S3

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤5🔥2

5.87K views17:02

Анализ данных (Data analysis)

Media is too big

VIEW IN TELEGRAM

🌟

PySR — open-source инструмент для высокопроизводительной символьной регрессии на Python и Julia

— pip install pysr

PySR создан для решения задачи символьной регрессии, т.е. для нахождения интерпретируемого символьного выражения, которое корректно описывает наблюдаемые данные.

PySR был разработан с нуля, чтобы быть
(1) как можно более высокопроизводительным,
(2) как можно более настраиваемым, гибким и
(3) простым в использовании.

Параллельно с PySR развивается библиотека Julia SymbolicRegression.jl, которая отвечает за нагруженные компоненты PySR, в частности за алгортм поиска.

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥5❤4

5.56K views09:33

Анализ данных (Data analysis)

🌟

TabuLa-8B — LLM, созданная на основе Llama 3-8B для генерации табличных данных

TabuLa-8B обучена на корпусе TabLib.
Модель подробно описана в статье "Large Scale Transfer Learning for Tabular Data through Language Modeling".

🤗 Hugging Face

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥4❤3

6.03K views11:03

Анализ данных (Data analysis)

🌟

Lux.jl — фреймворк Julia для Deep Learning

— import Pkg; Pkg.add("Lux")

Lux бесшовно интегрируется с CUDA и AMDGPU, также поддерживается экспериментальная поддержка Metal Hardware.
Фреймворк используется по умолчанию во многих пакетов SciML, включая DiffEqFlux.jl, NeuralPDE.jl и другие.
Lux изначально поддерживает произвольные типы параметров, что делает его совместимым с другими пакетами Julia (и даже с пакетами, не относящимися к Julia).

🖥

🟡

Примеры использования

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤5🔥3

6.45K views16:05

Анализ данных (Data analysis)

🌟

Эти 94 строки кода — всё, что нужно для обучения нейросети

Всё остальное — просто для повышения эффективности и т.д.

Это код engine.py из проекта Micrograd.
Micrograd – это небольшая реализация нейронной сети от Карпати, написанная на чистом Python без библиотек, в которой вычислительными единицами выступают не векторы и матрицы, а скалярные величины.

Micrograd представляет из себя комбинацию нескольких взаимодополняющих частей:
— небольшого построителя и оценивателя выражений на основе графа;
— автоматической дифференциации в обратном режиме для того же самого графа вычислений;
— строительных блоков нейронной сети для многослойного перцептрона

🖥

Код со скрина из micrograd

🟡

Пошаговое создание micrograd

🟡

Пост Андрея Карпати в X

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤8🔥8🤨3🤣2

6.9K views13:24

Анализ данных (Data analysis)

🌟

Hamilton — библиотека Python для создания направленных ациклических графов (DAG), визуализирующих потоки данных

— pip install sf-hamilton

Чтобы создать граф при помощи Hamilton, ничего особенного не требуется: нужно просто писать обычные функции Python, которые указывают свои зависимости с помощью параметров.
Как раз по этим параметрам Hamilton и построит граф, по которому можно легко увидеть, как преобразуются данные и передаются из одной функции в другую

Hamilton может быть очень полезным инструментом при работе с большими конвейерами данных и в ML-системах

🖥

🟡

🟡

Затестить Hamilton онлайн

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤7🔥4

6.44K views08:45