متخصصان علم داده ها data scientists
1.35K subscribers
1.22K photos
206 videos
190 files
419 links
ارتباط با ادمین @IDataScientist
صفحه لینکدین
https://www.linkedin.com/groups/6728779/
Download Telegram
⁉️چند درصد از مقالات توسط ChatGPT نوشته یا ویرایش می‌شوند؟

بر اساس پژوهشی که فعلا به صورت پیش مقاله در دسترس است، حداقل ۱۰ درصد از خلاصه مقاله‌های #پابمد که در ۲۰۲۴ منتشر شده، به کمک ابزارهای هوش مصنوعی مدل‌های زبانی بزرگ (#Large_Language_Model یا #LLM) مثل ChatGPT نوشته یا ویرایش شده‌اند.

🔆ظاهرا ChatGPT به استفاده از کلماتی مثل delve، crucial و intricate علاقه دارد!

❗️ در این‌ پژوهش، ۱۴ میلیون خلاصه مقاله‌ی پابمد از سالهای ۲۰۱۰ تا ۲۰۲۴ با هدف استفاده از کلمات اضافی مورد بررسی قرار گرفته‌ تا افزاش ناگهانی در کلمات جدید مشخص شود.

برای مثال کلمه Delves  در ۲۰۲۴، بیست و پنج برابر بیشتر استفاده شده است. همین طور Showcasing و underscores، نه برابر بیشتر استفاده شده‌اند و …

📊برای مقایسه در سالهای قبل فقط کلمات مرتبط با محتوا مثل ابولا در ۲۰۱۵ و زیکا در ۲۰۱۷ و کلماتی مثل ماسک در ۲۰۲۱، فراونی بیشتری پیدا کرده بوده‌اند. اما در ۲۰۲۴ موارد متفاوت بوده‌اند:

در ۲۰۲۴ این کلمات جدید اضافی تقریبا هیچ یک، مرتبط با محتوا نبوده و برعکس همه مرتبط با استایل بوده‌اند. به این معنی که در مقالات در زمینه‌های مختلف استفاده شده‌اند. همین طور اکثر آنها اسم نبوده بلکه فعل و یا صفت بوده‌اند.

بر اساس بررسی لیستی از این کلمات، مشخص شده است که تعداد خلاصه مقالات پابمد در ۲۰۲۴ که از یکی از این کلمات استفاده کرده‌اند، تقریبا ده درصد بیشتر شده است. یا به عبارت دیگر ده درصد از خلاصه مقالات پامبد به کمک ChatGPT نوشته شده است.


برای این موضوع آنالیزهای زیرگروهی متعددی هم انجام شده است: برای مثال این درصد برای ایران (بین ۱۰ تا ۱۵؟)، برای چین و کره جنوبی بیش از ۱۵ و برای مقالات انتشارات Frontiers و MDPI تقریبا ۱۷ بوده است.
✔️ پست ایلان ماسک در مورد غلبه هوش مصنوعی بر جهان بشری:
: «و این پردازنده اصلی است.»
Media is too big
VIEW IN TELEGRAM
🖤فرا رسیدن ماه محرم، ماه عزای آل الله و ایام شهادت سیدالشهدا و یاران باوفایش را خدمت همه فرهیختگان و همراهان کانال تسلیت و تعزیت عرض می کنیم.
🏴السلام علیک یا ابا عبدالله و علی الارواح التی حلّت بفنائک
https://t.me/toobabigdatascience
فقط یک بسته ی پیشنهادی ست
برای انتخاب الگوریتم مناسب ِ لرنینگ، بسته به نوع مساله و داده های شما.
در عمل، همواره چنین نیست
نقش ابتکار و ترکیب، را نمی توان نادیده گرفت!
🪩https://t.me/toobabigdatascience
🤖طعم تحریم روی فنآوري های هوش مصنوعی

👁‍🗨شرکت OpenAI از دو هفته پیش اعلام کرده بود که از روز نهم ژوئیه، برابر با نوزدهم تیر ماه، محدودیت‌های دسترسی کاربران مستقر در کشورهای چین، روسیه و ایران به این چت‌بات و API یا رابط برنامه کاربردی این شرکت را گسترده‌تر می‌کند.
آیا دسترسی ها بطور کامل مسدود خواهد شد؟
🪩https://t.me/toobabigdatascience
نخستین همایش ملی هوش مصنوعی در آموزش و یادگیری

سایت همایش: aiedu.atu.ac.ir


🪩https://t.me/toobabigdatascience
هوش مصنوعی مولد.pdf
3.6 MB
انتشارات مرکز پژوهش های مجلس منتشر کرد :
هوش مصنوعی مولد : چالش ها و الزامات توسعه و پیاده سازی
💭The LLM Scientist Roadmap
📈11 Most Important Plots in Data Science
ML Algorithms1⃣
Linear Regression :
Linear regression is a statistical method used to model the relationship between a dependent variable (target) and one or more independent variables (features). The goal is to find the linear equation that best predicts the target variable from the feature variables.
متخصصان علم داده ها data scientists
ML Algorithms1⃣ Linear Regression : Linear regression is a statistical method used to model the relationship between a dependent variable (target) and one or more independent variables (features). The goal is to find the linear equation that best predicts…
Ex:
Suppose we have a dataset with house prices and their corresponding size (in square feet) using Python

# Import necessary libraries
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

# Example data
data = {
'Size': [1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400],
'Price': [300000, 320000, 340000, 360000, 380000, 400000, 420000, 440000, 460000, 480000]
}
df = pd.DataFrame(data)

# Independent variable (feature) and dependent variable (target)
X = df[['Size']]
y = df['Price']

# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Creating and training the linear regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Making predictions
y_pred = model.predict(X_test)

# Evaluating the model
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

# Plotting the results
plt.scatter(X, y, color='blue') # Original data points
plt.plot(X_test, y_pred, color='red', linewidth=2) # Regression line
plt.xlabel('Size (sq ft)')
plt.ylabel('Price ($)')
plt.title('Linear Regression: House Prices vs Size')
plt.show()
ML Algorithms2⃣
Logistic Regression
Logistic regression is used for binary classification problems, where the outcome is a categorical variable with two possible outcomes (e.g., 0 or 1, true or false). Instead of predicting a continuous value like linear regression, logistic regression predicts the probability of a specific class.

The logistic regression model uses the logistic function (also known as the sigmoid function) to map predicted values to probabilities.
متخصصان علم داده ها data scientists
ML Algorithms2⃣ Logistic Regression Logistic regression is used for binary classification problems, where the outcome is a categorical variable with two possible outcomes (e.g., 0 or 1, true or false). Instead of predicting a continuous value like linear…
Ex: Suppose we have a dataset that records whether a student has passed an exam based on the number of hours they studied using Python:

# Import necessary libraries
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

# Example data
data = {
    'Hours_Studied': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Passed': [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]
}
df = pd.DataFrame(data)

# Independent variable (feature) and dependent variable (target)
X = df[['Hours_Studied']]
y = df['Passed']

# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Creating and training the logistic regression model
model = LogisticRegression()
model.fit(X_train, y_train)

# Making predictions
y_pred = model.predict(X_test)
y_pred_prob = model.predict_proba(X_test)[:, 1]

# Evaluating the model
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred_prob)

print(f"Confusion Matrix:\n{conf_matrix}")
print(f"Classification Report:\n{class_report}")
print(f"ROC-AUC: {roc_auc}")

# Plotting the ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
plt.plot(fpr, tpr, label='Logistic Regression (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()
🌲ML ALGORITHMS3⃣ Decision Trees :

Decision trees are a non-parametric supervised learning method used for both classification and regression tasks. They model decisions and their possible consequences in a tree-like structure, where internal nodes represent tests on features, branches represent the outcome of the test, and leaf nodes represent the final prediction (class label or value).

For classification, decision trees use measures like Gini impurity or entropy to split the data:
- Gini Impurity: Measures the likelihood of an incorrect classification of a randomly chosen element.
- Entropy (Information Gain): Measures the amount of uncertainty or impurity in the data.

For regression, decision trees minimize the variance (mean squared error) in the splits.
متخصصان علم داده ها data scientists
🌲ML ALGORITHMS3⃣ Decision Trees : Decision trees are a non-parametric supervised learning method used for both classification and regression tasks. They model decisions and their possible consequences in a tree-like structure, where internal nodes represent…
Ex: Suppose we have a dataset with features like age, income, and student status to predict whether a person buys a computer using Python and its Libraries:

# Import necessary libraries
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt

# Example data
data = {
'Age': [25, 45, 35, 50, 23, 37, 32, 28, 40, 27],
'Income': ['High', 'High', 'High', 'Medium', 'Low', 'Low', 'Low', 'Medium', 'Low', 'Medium'],
'Student': ['No', 'No', 'No', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No'],
'Buys_Computer': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes']
}
df = pd.DataFrame(data)

# Convert categorical features to numeric
df['Income'] = df['Income'].map({'Low': 1, 'Medium': 2, 'High': 3})
df['Student'] = df['Student'].map({'No': 0, 'Yes': 1})
df['Buys_Computer'] = df['Buys_Computer'].map({'No': 0, 'Yes': 1})

# Independent variables (features) and dependent variable (target)
X = df[['Age', 'Income', 'Student']]
y = df['Buys_Computer']

# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Creating and training the decision tree model
model = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=0)
model.fit(X_train, y_train)

# Making predictions
y_pred = model.predict(X_test)

# Evaluating the model
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Confusion Matrix:\n{conf_matrix}")
print(f"Classification Report:\n{class_report}")

# Plotting the decision tree
plt.figure(figsize=(12,8))
plot_tree(model, feature_names=['Age', 'Income', 'Student'], class_names=['No', 'Yes'], filled=True)
plt.title('Decision Tree')
plt.show()
ML Algorithms4⃣ : Random Forest 🌴🌳🌲🌵
Random Forest is an ensemble learning method that combines multiple decision trees to improve classification or regression performance. Each tree in the forest is built on a random subset of the data and a random subset of features. The final prediction is made by aggregating the predictions from all individual trees (majority vote for classification, average for regression).

Key advantages of Random Forest include:
- Reduced Overfitting: By averaging multiple trees, Random Forest reduces the risk of overfitting compared to individual decision trees.
- Robustness: Less sensitive to the variability in the data.
متخصصان علم داده ها data scientists
ML Algorithms4⃣ : Random Forest 🌴🌳🌲🌵 Random Forest is an ensemble learning method that combines multiple decision trees to improve classification or regression performance. Each tree in the forest is built on a random subset of the data and a random subset…
Ex:Suppose we have a dataset that records whether a patient has a heart disease based on features like age, cholesterol level, and maximum heart rate.

# Import necessary libraries
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# Example data
data = {
    'Age': [29, 45, 50, 39, 48, 50, 55, 60, 62, 43],
    'Cholesterol': [220, 250, 230, 180, 240, 290, 310, 275, 300, 280],
    'Max_Heart_Rate': [180, 165, 170, 190, 155, 160, 150, 140, 130, 148],
    'Heart_Disease': [0, 1, 1, 0, 1, 1, 1, 1, 1, 0]
}
df = pd.DataFrame(data)

# Independent variables (features) and dependent variable (target)
X = df[['Age', 'Cholesterol', 'Max_Heart_Rate']]
y = df['Heart_Disease']

# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Creating and training the random forest model
model = RandomForestClassifier(n_estimators=100, random_state=0)
model.fit(X_train, y_train)

# Making predictions
y_pred = model.predict(X_test)

# Evaluating the model
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Confusion Matrix:\n{conf_matrix}")
print(f"Classification Report:\n{class_report}")

# Feature importance
feature_importances = pd.DataFrame(model.feature_importances_, index=X.columns, columns=['Importance']).sort_values('Importance', ascending=False)
print(f"Feature Importances:\n{feature_importances}")

# Plotting the feature importances
sns.barplot(x=feature_importances.index, y=feature_importances['Importance'])
plt.title('Feature Importances')
plt.xlabel('Feature')
plt.ylabel('Importance')
plt.show()
ML ALGORITHMS6⃣:KNN


K-Nearest Neighbors (KNN) is a simple, instance-based learning algorithm used for both classification and regression tasks. The main idea is to predict the value or class of a new sample based on the \( k \) closest samples (neighbors) in the training dataset.

For classification, the predicted class is the most common class among the \( k \) nearest neighbors. For regression, the predicted value is the average (or weighted average) of the values of the \( k \) nearest neighbors.

Key points:
- Distance Metric: Common distance metrics include Euclidean distance, Manhattan distance, and Minkowski distance.
- Choosing \( k \): The value of \( k \) is a crucial hyperparameter that needs to be chosen carefully. Smaller \( k \) values can lead to noise sensitivity, while larger \( k \) values can smooth out the decision boundary