Big data world
2.4K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.

Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.

Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
2👍1
Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas

Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
Одной из главных задач искусственного интеллекта является разработка агентов, способных проводить научные исследования и открывать новые знания. Хотя пограничные модели уже использовались для помощи ученым-людям, например, для мозгового штурма идей или написания кода, они по-прежнему требуют обширного ручного надзора или сильно ограничены конкретной задачей.

Мы рады представить The AI ​​Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.

https://github.com/SakanaAI/AI-Scientist

Запись в блоге: https://sakana.ai/ai-scientist/

Статья: https://arxiv.org/abs/2408.06292
7 проектов машинного обучения, которые могут повысить ценность любого резюме

https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim

Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
В новой статье представлены JPEG-LM и AVC-LM, большие языковые модели, обученные генерировать изображения и видео соответственно путем прямого вывода сжатых байтов файлов в форматах JPEG и AVC/H.264. https://notes.aimodels.fyi/llms-can-speak-in-jpeg
Show-o объединяет авторегрессионное и (дискретное) диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр зрительно-языковых задач, включая визуальные вопросы-ответы, генерацию текста в изображение, инкрустацию/экстраполяцию текста и генерацию смешанных модальностей. В различных бенчмарках она демонстрирует производительность, сравнимую или превосходящую существующие индивидуальные модели с эквивалентным или большим числом параметров, настроенных на понимание или генерацию. Это значительно подчеркивает его потенциал в качестве базовой модели нового поколения. Код и модели опубликованы по адресу
https://github.com/showlab/show-o
Введение в механистическую интерпретируемость

Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
Этот курс обучения Python предназначен для бизнес-аналитиков и трейдеров JPMorgan, а также для избранных клиентов.

https://github.com/jpmorganchase/python-training
Sapiens предлагает комплексный набор для задач, ориентированных на человека (например, 2D-поза, сегментация частей, глубина, нормаль и т. д.). Семейство моделей предварительно обучено на 300 миллионах изображений человека в дикой природе и демонстрирует превосходное обобщение в условиях без ограничений.

https://github.com/facebookresearch/sapiens
10 встроенных модулей Python, которые должен знать каждый инженер по работе с данными

Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
This media is not supported in your browser
VIEW IN TELEGRAM
DepthCrafter , новый подход к оценке глубины видео, используя модели диффузии видео. Он может генерировать временные последовательности длинных глубин с мелкозернистыми деталями

https://depthcrafter.github.io/
Пример использования генеративного ИИ: использование LLM для оценки разговоров с клиентами
Недавно мы поговорили с Киллианом Фарреллом, главным специалистом по данным в стартапе по страхованию AssuranceIQ, чтобы узнать, как его команда создала продукт на основе LLM для структурирования неструктурированных данных и оценки разговоров с клиентами для развития отделов продаж и поддержки клиентов... Читайте дальше, чтобы узнать, что они сделали и чему научились!... https://www.montecarlodata.com/blog-generative-ai-use-case-assurance
Проектирование подсказок ИИ: глубокое погружение
Некоторые эксперты Anthropic по проектированию подсказок — Аманда Аскелл (Alignment Finetuning), Алекс Альберт (Developer Relations), Дэвид Херши (Applied AI) и Зак Виттен (Prompt Engineering) — размышляют о том, как развивалась разработка подсказок, дают практические советы и думают о том, как подсказки могут измениться по мере развития возможностей ИИ… https://www.youtube.com/watch?v=T9aRN5JkmL8
Простой рецепт анализа ошибок модели

Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis
supertree - Interactive Decision Tree Visualization

supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree
Mini-Omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/
👍1