متخصصان علم داده ها data scientists
1.35K subscribers
1.22K photos
206 videos
190 files
419 links
ارتباط با ادمین @IDataScientist
صفحه لینکدین
https://www.linkedin.com/groups/6728779/
Download Telegram
متخصصان علم داده ها data scientists
𝗧𝗵𝗲 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝘃𝗲 𝗔𝗜 𝗦𝘁𝗮𝗰𝗸 ↓ 💵Critical Infrastructure Components for 2025 ↠ 1. Data Layer → Purpose: Provides raw data for training and inference. → Examples: Data Lakes (e.g., S3, GCS), Data Warehouses (e.g., BigQuery, Snowflake), Vector Databases (e.g., Pinecone…
→ Examples: Arize AI, Evidently AI, Prometheus, Grafana.

↠ 7. Application Layer
→ Purpose: Builds user-facing generative AI applications.
→ Examples: Chatbots, Image Generators, Text-to-Speech tools.

↠ 8. Governance & Security
→ Purpose: Ensures compliance, security, and ethical use.
→ Examples: Responsible AI Frameworks, Identity Access Management (IAM).

↠ 9. MLOps Integration
→ Purpose: Automates CI/CD pipelines, ensuring continuous delivery of updates.
→ Examples: Kubeflow, MLflow, Airflow.

#GenerativeAI
#AI
@toobabigdatascience
This media is not supported in your browser
VIEW IN TELEGRAM
♨️𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗶𝗻 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 ↓

𝗪𝗵𝗮𝘁 𝗶𝘀 𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴? ↓

↬ It involves integrating fresh, real-time data into training pipelines to keep models updated.
↬ Essential for applications like fraud detection, recommendation systems, and self-driving cars, where patterns evolve rapidly.

♨️𝗪𝗵𝘆 𝗶𝘀 𝗶𝘁 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹? ↓

↠ Avoids Model Drift: Models lose accuracy if the underlying data distribution shifts over time (concept drift).
↠ Improves Predictions: Updated models perform better by learning new patterns and behaviors.
↠ Ensures Scalability: Handles ever-growing datasets effectively, keeping the system robust.

𝗦𝘁𝗲𝗽𝘀 𝗶𝗻 𝗮 𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲 ↓

1. Data Collection & Preprocessing
↬ Stream new data from production systems, clean and transform it.
2. Feature Engineering
↬ Generate features using automated pipelines (e.g., Feature Stores).
3. Model Training
↬ Train or fine-tune the model with the updated dataset.
متخصصان علم داده ها data scientists
♨️𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗶𝗻 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 ↓ 𝗪𝗵𝗮𝘁 𝗶𝘀 𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴? ↓ ↬ It involves integrating fresh, real-time data into training pipelines to keep models updated. ↬ Essential for applications like fraud detection, recommendation systems, and self…
4. Evaluation
↬ Compare the retrained model against the previous version using validation metrics.
5. Deployment
↬ If the retrained model performs better, deploy it to production using CI/CD pipelines.

𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 𝗙𝗼𝗿 𝗖𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 ↓

↠ Incremental Learning: Update only parts of the model using new data.
↠ Transfer Learning: Fine-tune pre-trained models to adapt to evolving data.
↠ Online Learning: Continuously update the model one data point at a time.

𝗧𝗼𝗼𝗹𝘀 𝗮𝗻𝗱 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸𝘀 ↓

↬ TensorFlow Extended (TFX): Automates end-to-end continuous training pipelines.
↬ Kubeflow: Manages ML workflows for scalable training and retraining.
↬ MLflow: Tracks experiments, manages models, and supports lifecycle management.

𝗘𝘅𝗮𝗺𝗽𝗹𝗲 ↓

Imagine a recommendation system:
↬ New user behavior patterns (clicks, purchases) are streamed in real-time.
↬ Continuous training updates the model to recommend the latest trending items.

#ML
#Training
#AI
@toobabigdatascience
https://youtu.be/0VLAoVGf_74?si=6rpSpJO97vDRR1wi

چگونه DeepSeek R1 سرعت و کارایی راهمزمان و با هم افزایش داد؟
پاسخ این سوال در این ویدئو در یوتیوب است

در این ویدیو، روش جدیدی به نام «Multi-Head Latent Attention»
(MHLA)
معرفی شده که با کاهش مصرف حافظه، سرعت استنتاج را افزایش میدهد
گفته میشود کهDeepSeek R1 موفق شده اندازه «Key-Value Cache» (کش KV) را ۵۷ برابر کاهش بده و تولید متن رو ۶ برابر سریع‌تر از ترنسفورمرهای سنتی انجام دهد!

#DeepSeekR1
#MHLA
#LLMs
@toobabigdatascience
Think AI.pdf
6.1 MB
🎁معرفی کتاب: Think AI

🧿این کتاب یک راهنمای نسبتا جامع برای یادگیری هوش مصنوعی، یادگیری ماشین، شبکه‌های عصبی، بینایی کامپیوتری و پردازش زبان طبیعی با استفاده از کتابخانه‌های قدرتمند پایتون است. نویسنده با استفاده از روش‌های مدرن، کاربردهای عملی و پروژه‌های کاربردی، شما را به دنیای هوش مصنوعی پیشرفته وارد می‌کند.

⬅️ ویژگی‌های کتاب:
1️⃣ آشنایی با مفاهیم یادگیری ماشین و شبکه‌های عصبی
2️⃣ یادگیری بینایی کامپیوتری و پردازش زبان طبیعی با تکنیک‌های به‌روز
3️⃣ پیاده‌سازی الگوریتم‌های یادگیری ماشین و هوش مصنوعی با پایتون
4️⃣ بررسی پروژه‌های عملی برای درک بهتر کاربردهای AI در دنیای واقعی

📚 این کتاب می تواند بعنوان یک منبع برای دانشجویان، مهندسان داده، علاقه‌مندان به یادگیری ماشین و توسعه‌دهندگان هوش مصنوعی بکار رود.
#AI
#ML
@toobabigdatascience
🏴 با عرض تسلیت و تعزیت بمناسبت فرا رسیدن ایام شهادت اميرالمؤمنين علی ع و شب قدر
نماهنگ ِ :
"آمدم باز، در ِ میکده ات، گریه کنان
تشنه ام، تشنه ی دیدار، سبویی برسان...."
https://www.aparat.com/v/64QtD

السلام علیک یا امیرالمؤمنین ع
التماس دعا

#شب_قدر
@toobabigdatascience
🦚 با تبریک و تهنیت بمناسبت فرارسیدن سال نو خورشیدی و نوروز🍀 باستانی ایرانی...
سالی سرشار از سلامت و بهروزی را برای همراهان فرهیخته ی کانال و اساتید بزرگوار، آرزومندیم...

https://www.aparat.com/v/zoq10v6

🦚با آرزوی قبولی طاعات و عبادات

@toobabigdatascience 🪻🪻
🎁گهی پشت بر زین و گه زین به پشت...
#AI
#SoftwareEngineering
@toobabigdatascience
اطلاعیه آزمون ورودی دكتری (.Ph.D) سال 1405 معرفی مجموعه‌های امتحانی (دروس امتحانی، ضرایب دروس امتحانی، رشته‌ گرایش‌ها، ...)
https://www.www.sanjesh.org/fa-IR/sanjesh/4936/news/view/14591/11877/Staging
⬅️درس استعداد تحصیلی از آزمون دکترای 1405 حذف شد!!!.
بر اساس مصوبه شورای سنجش و پذیرش دانشجو در دوره‌های تحصیلات تکمیلی به تاریخ ۱۴۰۳/۱۲/۲۱ مواد آزمون متمرکز دکتری (Ph. D.) سال ۱۴۰۵ به شرح زیر خواهد بود:
الف) درس زبان با ضریب یک
ب) دروس تخصصی (در سطح کارشناسی و کارشناسی ارشد) با ضریب پنج 
ج) درس استعداد تحصیلی از مواد امتحانی این آزمون حذف شد
@toobabigdatascience
Media is too big
VIEW IN TELEGRAM
📊Cellphones Marketshare (1991-2023)
فراز و فرود سی و دو ساله ی بازار گوشی های همراه در جهان
#Samsung
#Apple
@toobabigdatascience
🕸💸🕸ادعای هک بانک سپه توسط گروه هکری ircodebreakers:
دوازده ترابایت اطلاعات مشتریان نظامی و غیرنظامی در معرض فروش

🕸گروه هکری ircodebreakers در جدیدترین ادعای خود خبر از هک بانک سپه، قدیمی ترین و بزرگترین بانک ایران، داده است...
مسئولین بانک سپه تا این لحظه از هرگونه اظهار نظری در این مورد،خودداری کرده اند.

⬅️#امنیت، مهمترین، اساسی ترین، ضروری ترین شرط هر نوع فعالیتی در فضای مجازی ست.
اگر به هر دلیلی این امنیت نقض شود،و اطلاعات و دیتای کاربران ما به گروگان گرفته شود، یا وجه المصالحه برای باج خواهی قرا بگیرد، یا اگر برای حفظ این امنیت ،بیش از اندازه به خارج از مرزهای کشور وابسته باشیم! و اگر #پزشک_قانونی ِ سایبری!! در کشور نداشته باشیم تا اطلاعات حیاتی از کالبد شکافی اجساد ِ حملات مشابه قبلی را استخراج و تحلیل نکرده باشد و...
همه_چیزمان،روی هواست.
در مبحث حوزه #امنیت_اطلاعات ، هیچیک از روش های رایجِ تشکیل کارگروه های مبارزه با بحران! مثل نان رساندن/قرض دادن به داماد مان!،به پسرخاله ها و....در بکارگیری شان، جواب نمی دهد
#متخصص خبره نیاز است
تلفن و سفارش، اصلا جواب نمی دهد!
#infosec
@toobabigdatascience
متخصصان علم داده ها data scientists
🕸💸🕸ادعای هک بانک سپه توسط گروه هکری ircodebreakers: دوازده ترابایت اطلاعات مشتریان نظامی و غیرنظامی در معرض فروش 🕸گروه هکری ircodebreakers در جدیدترین ادعای خود خبر از هک بانک سپه، قدیمی ترین و بزرگترین بانک ایران، داده است... مسئولین بانک سپه تا این لحظه…
#تکمیلی :

🕸طبق ادعای این گروه، داده های نشت‌شده تنها به مشتریان عادی محدود نیست و شامل اطلاعات حساس پرسنل نظامی و امنیتی از جمله ستاد کل نیروهای مسلح، سپاه پاسداران، وزارت دفاع، نیروی انتظامی، سازمان انرژی اتمی، و شرکت‌های وابسته به این نهادها نیز می‌شود( به ادعای این گروه هکری بیش از ۱۲ ترابایت داده محرمانه از اطلاعات مالی، هویتی و سکونتی ۴۲ میلیون مشتری بانک سپه، از سال ۱۳۰۴ تا ۱۴۰۴، هک و برای فروش آماده شده است)

⬅️گروه هکری ircodebreakers با انتشار بخشی از داده ها به عنوان نمونه، تأکید کرده که مهلت ۷۲ ساعته آنها به بانک سپه برای پاسخگویی به پایان رسیده و اکنون این اطلاعات در معرض فروش قرار دارد. 

⁉️واکنش بانک سپه به این ادعا هنوز مشخص نیست. این نشت اطلاعاتی، در صورت تأیید، می‌تواند به یکی از بزرگترین بحران‌های امنیتی ایران تبدیل شود، به ویژه که داده های منتشرشده طیف وسیعی از اقشار جامعه، از جمله نهادهای حساس را دربرمی‌گیرد.

#infosec
@toobabigdatascience