Big data world

Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.

Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.

Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support

Dailydoseofds

Spark != Pandas + Big Data Support

Extend your learnings from Pandas to Spark with caution.

❤2👍1

615 views07:01

Big data world

Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas

Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas

KDnuggets

How to Deal with Missing Data Using Interpolation Techniques in Pandas - KDnuggets

Stop data from dropping out - learn how to handle missing data like a pro using interpolation techniques in Pandas.

666 views05:52

Big data world

Одной из главных задач искусственного интеллекта является разработка агентов, способных проводить научные исследования и открывать новые знания. Хотя пограничные модели уже использовались для помощи ученым-людям, например, для мозгового штурма идей или написания кода, они по-прежнему требуют обширного ручного надзора или сильно ограничены конкретной задачей.

Мы рады представить The AI Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.

https://github.com/SakanaAI/AI-Scientist

Запись в блоге: https://sakana.ai/ai-scientist/

Статья: https://arxiv.org/abs/2408.06292

GitHub

GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬 - SakanaAI/AI-Scientist

678 views06:30

Big data world

7 проектов машинного обучения, которые могут повысить ценность любого резюме

https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume

579 views12:01

Big data world

Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim

Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/

Хабр

Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim

Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно...

539 views06:28

Big data world

В новой статье представлены JPEG-LM и AVC-LM, большие языковые модели, обученные генерировать изображения и видео соответственно путем прямого вывода сжатых байтов файлов в форматах JPEG и AVC/H.264. https://notes.aimodels.fyi/llms-can-speak-in-jpeg

AIModels.fyi

LLMs can speak in JPEG

By studying “secret” messages (JPEGs), LLMs can eventually learn to write them.

561 views06:33

Big data world

10 библиотек Python для машинного обучения, которые нужно знать в 2024 году

https://machinelearningmastery.com/10-must-know-python-libraries-for-machine-learning-in-2024

MachineLearningMastery.com

10 Must-Know Python Libraries for Machine Learning in 2024 - MachineLearningMastery.com

[caption align=

1.02K views06:51

Big data world

Узнайте, как точно настроить модель Audio Spectrogram Transformer для аудиоклассификации ваших собственных данных.

https://towardsdatascience.com/fine-tune-the-audio-spectrogram-transformer-with-transformers-73333c9ef717

Medium

Fine-Tune the Audio Spectrogram Transformer with Hugging Face Transformers

Learn how to fine-tune the Audio Spectrogram Transformer model for audio classification of your own data using the Hugging Face Ecosystem.

535 views07:48

Big data world

Show-o объединяет авторегрессионное и (дискретное) диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр зрительно-языковых задач, включая визуальные вопросы-ответы, генерацию текста в изображение, инкрустацию/экстраполяцию текста и генерацию смешанных модальностей. В различных бенчмарках она демонстрирует производительность, сравнимую или превосходящую существующие индивидуальные модели с эквивалентным или большим числом параметров, настроенных на понимание или генерацию. Это значительно подчеркивает его потенциал в качестве базовой модели нового поколения. Код и модели опубликованы по адресу
https://github.com/showlab/show-o

GitHub

GitHub - showlab/Show-o: Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.

Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation. - showlab/Show-o

568 views13:15

Big data world

Введение в механистическую интерпретируемость

Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability

BlueDot Impact

Introduction to Mechanistic Interpretability – BlueDot Impact

Mechanistic Interpretability is an emerging field that seeks to understand the internal reasoning processes of trained neural networks and gain insight into how and why they produce the outputs that they do. AI researchers currently have very little understanding…

450 views12:01

Big data world

Этот курс обучения Python предназначен для бизнес-аналитиков и трейдеров JPMorgan, а также для избранных клиентов.

https://github.com/jpmorganchase/python-training

GitHub

GitHub - jpmorganchase/python-training: Python training for business analysts and traders

Python training for business analysts and traders. Contribute to jpmorganchase/python-training development by creating an account on GitHub.

567 views12:03

Big data world

Начало работы с Jupyter Notebooks в VS Code

https://www.youtube.com/watch?v=suAkMeWJ1yE

YouTube

Getting Started with Jupyter Notebooks in VS Code

In this video, you'll learn how to create your very first Jupyter Notebook in VS Code, including setting up your environment, running and debugging code, and visualizing data. Getting started with Jupyter Notebooks has never been easier!

🔎 Chapters:
00:00…

579 views13:05

Big data world

Sapiens предлагает комплексный набор для задач, ориентированных на человека (например, 2D-поза, сегментация частей, глубина, нормаль и т. д.). Семейство моделей предварительно обучено на 300 миллионах изображений человека в дикой природе и демонстрирует превосходное обобщение в условиях без ограничений.

https://github.com/facebookresearch/sapiens

GitHub

GitHub - facebookresearch/sapiens: High-resolution models for human tasks.

High-resolution models for human tasks. Contribute to facebookresearch/sapiens development by creating an account on GitHub.

630 views14:07

Big data world

10 встроенных модулей Python, которые должен знать каждый инженер по работе с данными

Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know

KDnuggets

10 Built-In Python Modules Every Data Engineer Should Know - KDnuggets

Interested in data engineering? Check out this round-up of built-in Python modules that'll come in handy for data engineering tasks.

630 views12:58

Big data world

This media is not supported in your browser

VIEW IN TELEGRAM

DepthCrafter , новый подход к оценке глубины видео, используя модели диффузии видео. Он может генерировать временные последовательности длинных глубин с мелкозернистыми деталями

https://depthcrafter.github.io/

502 views13:50

Big data world

Пример использования генеративного ИИ: использование LLM для оценки разговоров с клиентами
Недавно мы поговорили с Киллианом Фарреллом, главным специалистом по данным в стартапе по страхованию AssuranceIQ, чтобы узнать, как его команда создала продукт на основе LLM для структурирования неструктурированных данных и оценки разговоров с клиентами для развития отделов продаж и поддержки клиентов... Читайте дальше, чтобы узнать, что они сделали и чему научились!... https://www.montecarlodata.com/blog-generative-ai-use-case-assurance

Monte Carlo Data

Generative AI Use Case: Using LLMs To Score Customer Conversations

Learn how the AssuranceIQ team built a generative AI use case to structure unstructured data and score customer conversations for developing their sales and customer support teams.

510 views06:37

Big data world

Проектирование подсказок ИИ: глубокое погружение
Некоторые эксперты Anthropic по проектированию подсказок — Аманда Аскелл (Alignment Finetuning), Алекс Альберт (Developer Relations), Дэвид Херши (Applied AI) и Зак Виттен (Prompt Engineering) — размышляют о том, как развивалась разработка подсказок, дают практические советы и думают о том, как подсказки могут измениться по мере развития возможностей ИИ… https://www.youtube.com/watch?v=T9aRN5JkmL8

YouTube

AI prompt engineering: A deep dive

Some of Anthropic's prompt engineering experts—Amanda Askell (Alignment Finetuning), Alex Albert (Developer Relations), David Hershey (Applied AI), and Zack Witten (Prompt Engineering)—reflect on how prompt engineering has evolved, practical tips, and thoughts…

513 views08:36

Big data world

Простой рецепт анализа ошибок модели

Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis

Mindful Modeler

A simple recipe for model error analysis

Error analysis is a powerful tool in machine learning that we don’t talk about enough.

572 views10:38

Big data world

supertree - Interactive Decision Tree Visualization

supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree

GitHub

GitHub - mljar/supertree: Visualize decision trees in Python

Visualize decision trees in Python. Contribute to mljar/supertree development by creating an account on GitHub.

647 views13:39

Big data world

Forwarded from Добро пожаловать в мир Python

Mini-Omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni

GitHub

GitHub - gpt-omni/mini-omni: open-source multimodal large language model that can hear, talk while thinking. Featuring real-time…

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities. - GitHub - gpt-o...

598 views06:27

Big data world

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/

Хабр

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...

👍1

623 views06:17

About

Blog

Apps

Platform