Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.
Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.
Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
Будьте осторожны, перенося свои знания с Pandas на Spark.
Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.
Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
Dailydoseofds
Spark != Pandas + Big Data Support
Extend your learnings from Pandas to Spark with caution.
❤2👍1
Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas
Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
KDnuggets
How to Deal with Missing Data Using Interpolation Techniques in Pandas - KDnuggets
Stop data from dropping out - learn how to handle missing data like a pro using interpolation techniques in Pandas.
Одной из главных задач искусственного интеллекта является разработка агентов, способных проводить научные исследования и открывать новые знания. Хотя пограничные модели уже использовались для помощи ученым-людям, например, для мозгового штурма идей или написания кода, они по-прежнему требуют обширного ручного надзора или сильно ограничены конкретной задачей.
Мы рады представить The AI Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.
https://github.com/SakanaAI/AI-Scientist
Запись в блоге: https://sakana.ai/ai-scientist/
Статья: https://arxiv.org/abs/2408.06292
Мы рады представить The AI Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.
https://github.com/SakanaAI/AI-Scientist
Запись в блоге: https://sakana.ai/ai-scientist/
Статья: https://arxiv.org/abs/2408.06292
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
7 проектов машинного обучения, которые могут повысить ценность любого резюме
https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume
https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
Хабр
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно...
В новой статье представлены JPEG-LM и AVC-LM, большие языковые модели, обученные генерировать изображения и видео соответственно путем прямого вывода сжатых байтов файлов в форматах JPEG и AVC/H.264. https://notes.aimodels.fyi/llms-can-speak-in-jpeg
AIModels.fyi
LLMs can speak in JPEG
By studying “secret” messages (JPEGs), LLMs can eventually learn to write them.
10 библиотек Python для машинного обучения, которые нужно знать в 2024 году
https://machinelearningmastery.com/10-must-know-python-libraries-for-machine-learning-in-2024
https://machinelearningmastery.com/10-must-know-python-libraries-for-machine-learning-in-2024
MachineLearningMastery.com
10 Must-Know Python Libraries for Machine Learning in 2024 - MachineLearningMastery.com
[caption align=
Узнайте, как точно настроить модель Audio Spectrogram Transformer для аудиоклассификации ваших собственных данных.
https://towardsdatascience.com/fine-tune-the-audio-spectrogram-transformer-with-transformers-73333c9ef717
https://towardsdatascience.com/fine-tune-the-audio-spectrogram-transformer-with-transformers-73333c9ef717
Medium
Fine-Tune the Audio Spectrogram Transformer with Hugging Face Transformers
Learn how to fine-tune the Audio Spectrogram Transformer model for audio classification of your own data using the Hugging Face Ecosystem.
Show-o объединяет авторегрессионное и (дискретное) диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр зрительно-языковых задач, включая визуальные вопросы-ответы, генерацию текста в изображение, инкрустацию/экстраполяцию текста и генерацию смешанных модальностей. В различных бенчмарках она демонстрирует производительность, сравнимую или превосходящую существующие индивидуальные модели с эквивалентным или большим числом параметров, настроенных на понимание или генерацию. Это значительно подчеркивает его потенциал в качестве базовой модели нового поколения. Код и модели опубликованы по адресу
https://github.com/showlab/show-o
https://github.com/showlab/show-o
GitHub
GitHub - showlab/Show-o: Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.
Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation. - showlab/Show-o
Введение в механистическую интерпретируемость
Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
BlueDot Impact
Introduction to Mechanistic Interpretability – BlueDot Impact
Mechanistic Interpretability is an emerging field that seeks to understand the internal reasoning processes of trained neural networks and gain insight into how and why they produce the outputs that they do. AI researchers currently have very little understanding…
Этот курс обучения Python предназначен для бизнес-аналитиков и трейдеров JPMorgan, а также для избранных клиентов.
https://github.com/jpmorganchase/python-training
https://github.com/jpmorganchase/python-training
GitHub
GitHub - jpmorganchase/python-training: Python training for business analysts and traders
Python training for business analysts and traders. Contribute to jpmorganchase/python-training development by creating an account on GitHub.
Sapiens предлагает комплексный набор для задач, ориентированных на человека (например, 2D-поза, сегментация частей, глубина, нормаль и т. д.). Семейство моделей предварительно обучено на 300 миллионах изображений человека в дикой природе и демонстрирует превосходное обобщение в условиях без ограничений.
https://github.com/facebookresearch/sapiens
https://github.com/facebookresearch/sapiens
GitHub
GitHub - facebookresearch/sapiens: High-resolution models for human tasks.
High-resolution models for human tasks. Contribute to facebookresearch/sapiens development by creating an account on GitHub.
10 встроенных модулей Python, которые должен знать каждый инженер по работе с данными
Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
KDnuggets
10 Built-In Python Modules Every Data Engineer Should Know - KDnuggets
Interested in data engineering? Check out this round-up of built-in Python modules that'll come in handy for data engineering tasks.
This media is not supported in your browser
VIEW IN TELEGRAM
DepthCrafter , новый подход к оценке глубины видео, используя модели диффузии видео. Он может генерировать временные последовательности длинных глубин с мелкозернистыми деталями
https://depthcrafter.github.io/
https://depthcrafter.github.io/
Пример использования генеративного ИИ: использование LLM для оценки разговоров с клиентами
Недавно мы поговорили с Киллианом Фарреллом, главным специалистом по данным в стартапе по страхованию AssuranceIQ, чтобы узнать, как его команда создала продукт на основе LLM для структурирования неструктурированных данных и оценки разговоров с клиентами для развития отделов продаж и поддержки клиентов... Читайте дальше, чтобы узнать, что они сделали и чему научились!... https://www.montecarlodata.com/blog-generative-ai-use-case-assurance
Недавно мы поговорили с Киллианом Фарреллом, главным специалистом по данным в стартапе по страхованию AssuranceIQ, чтобы узнать, как его команда создала продукт на основе LLM для структурирования неструктурированных данных и оценки разговоров с клиентами для развития отделов продаж и поддержки клиентов... Читайте дальше, чтобы узнать, что они сделали и чему научились!... https://www.montecarlodata.com/blog-generative-ai-use-case-assurance
Monte Carlo Data
Generative AI Use Case: Using LLMs To Score Customer Conversations
Learn how the AssuranceIQ team built a generative AI use case to structure unstructured data and score customer conversations for developing their sales and customer support teams.
Проектирование подсказок ИИ: глубокое погружение
Некоторые эксперты Anthropic по проектированию подсказок — Аманда Аскелл (Alignment Finetuning), Алекс Альберт (Developer Relations), Дэвид Херши (Applied AI) и Зак Виттен (Prompt Engineering) — размышляют о том, как развивалась разработка подсказок, дают практические советы и думают о том, как подсказки могут измениться по мере развития возможностей ИИ… https://www.youtube.com/watch?v=T9aRN5JkmL8
Некоторые эксперты Anthropic по проектированию подсказок — Аманда Аскелл (Alignment Finetuning), Алекс Альберт (Developer Relations), Дэвид Херши (Applied AI) и Зак Виттен (Prompt Engineering) — размышляют о том, как развивалась разработка подсказок, дают практические советы и думают о том, как подсказки могут измениться по мере развития возможностей ИИ… https://www.youtube.com/watch?v=T9aRN5JkmL8
YouTube
AI prompt engineering: A deep dive
Some of Anthropic's prompt engineering experts—Amanda Askell (Alignment Finetuning), Alex Albert (Developer Relations), David Hershey (Applied AI), and Zack Witten (Prompt Engineering)—reflect on how prompt engineering has evolved, practical tips, and thoughts…
Простой рецепт анализа ошибок модели
Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis
Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis
Mindful Modeler
A simple recipe for model error analysis
Error analysis is a powerful tool in machine learning that we don’t talk about enough.
supertree - Interactive Decision Tree Visualization
supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree
supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree
GitHub
GitHub - mljar/supertree: Visualize decision trees in Python
Visualize decision trees in Python. Contribute to mljar/supertree development by creating an account on GitHub.
Forwarded from Добро пожаловать в мир Python
Mini-Omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni
GitHub
GitHub - gpt-omni/mini-omni: open-source multimodal large language model that can hear, talk while thinking. Featuring real-time…
open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities. - GitHub - gpt-o...
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/
Хабр
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...
👍1