Школа Больших Данных

#Spark #статьи
English SDK for Apache Spark и PySpark-AI: как это работает

Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только в чат-ботах и создании уникальных картинок.

Они также отлично комментируют программный код и даже могут написать скрипт по запросу пользователя. Впрочем, как показывает личный опыт, вероятность того, что это скрипт будет работать с первого раза без ошибок, пока еще мала: приходится исправлять и уточнять полученный от нейросети результат.

Однако, в целом ИИ-инструменты неплохо экономят время разработчика, подсказывая, в чем именно может быть причина ошибки или какую библиотеку следует использовать для решения конкретной задачи.

Примечательно, что это вполне по силам не только ИИ-продуктам, ориентированным на разработку, таким как Copilot от GitHub и OpenAI, но и нейросеткам общего назначения.

Англоязычный набор инструментов разработчика для Apache Spark (English SDK for Apache Spark) берет инструкции на английском языке и компилирует их в объекты PySpark, такие как DataFrames, чтобы реализовать следующие возможности:

✔️поиск в Интернете, используя предоставленное пользователем описание и включать выбранные веб-данные в код Spark-приложения;
✔️операции с DataFrame, включая преобразование, построение графиков и интерпретация на основе пользовательского англоязычного описания;
✔️пользовательские функции (UDF) – при использовании простого декоратора пользователю нужно предоставить строку документации, а LLM-модель сама завершит процесс создания UDF, позволяя разработчику сосредоточиться на определении функции;
✔️кэширование для повышения скорости выполнения запросов и получения воспроизводимых результатов. SparkAI хранит в памяти промежуточный кэш, который обновляется для LLM и результатов веб-поиска. Промежуточный кэш можно сохранить с помощью метода commit(). Поиск в кэше всегда выполняется как в промежуточном кэше в памяти, так и в постоянном кэше.

В работе English SDK используется PySpark-AI, Python-оболочка, которая использует модели генеративного языка для упрощения генерации кода PySpark.

Принимая инструкции на английском языке, он объединяет возможности Apache Spark с такими моделями, как GPT-4 и GPT-3.5. PySpark-AI принимает на вход англоязычные инструкции и выполняет их, позволяя пользователю сфокусироваться на обработке данных, а не на кодировании.

Далее разберем подробнее.

@BigDataSchool_ru
https://bigdataschool.ru/blog/low-code-with-pyspark-ai-english-sdk-by-databricks.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Программируй на английском: ИИ-SDK для PySpark от Databricks

Как получать результаты обработки данных Apache Spark, адресуя ИИ бизнес-запросы на английском: PySpark-AI в English SDK от Databricks

221 views17:24