مقایسه پلتفرم های بیگ دیتا CLICKHOUSE ، Apache Druid , Apache Doris بر اساس سایت معتبر DBEngines
ClickHouse :
به وضوح بر کارایی فوقالعاده بالا و پردازش کوئریهای OLAP با حداقل زمان ممکن تمرکز دارد. استفاده از C++ و معماری ستونی (Column-oriented) این امکان را فراهم میکند.
نقطه قوت: بهترین عملکرد را برای تجمیعهای پیچیده و کوئریهای تحلیلی بر روی دادههای عظیم ارائه میدهد. پشتیبانی گسترده از زبانهای برنامهنویسی و انواع API، آن را بسیار انعطافپذیر میکند.
نقاط متمایز: تنها پلتفرمی است که در این مقایسه قابلیتهای In-memory و DBaaS (سرویس ابری مدیریت شده) را ارائه میدهد و از replication فیزیکی همزمان و غیرهمزمان با پشتیبانی از ذخیرهسازهای ابجکت بهره میبرد.
Apache Druid:
به صورت خاص برای کوئریهای OLAP زیر ثانیه بر روی دادههای با ابعاد بالا و کاردینالیتی بالا (High Dimensionality & High Cardinality) طراحی شده است.
نقطه قوت: بسیار مناسب برای دادههای سری زمانی (Time Series Data) و داشبوردهای لحظهای (Real-time Dashboards) که نیاز به پاسخگویی بسیار سریع دارند. موتور اصلی آن جاوا است.
@BIMining
ClickHouse :
به وضوح بر کارایی فوقالعاده بالا و پردازش کوئریهای OLAP با حداقل زمان ممکن تمرکز دارد. استفاده از C++ و معماری ستونی (Column-oriented) این امکان را فراهم میکند.
نقطه قوت: بهترین عملکرد را برای تجمیعهای پیچیده و کوئریهای تحلیلی بر روی دادههای عظیم ارائه میدهد. پشتیبانی گسترده از زبانهای برنامهنویسی و انواع API، آن را بسیار انعطافپذیر میکند.
نقاط متمایز: تنها پلتفرمی است که در این مقایسه قابلیتهای In-memory و DBaaS (سرویس ابری مدیریت شده) را ارائه میدهد و از replication فیزیکی همزمان و غیرهمزمان با پشتیبانی از ذخیرهسازهای ابجکت بهره میبرد.
Apache Druid:
به صورت خاص برای کوئریهای OLAP زیر ثانیه بر روی دادههای با ابعاد بالا و کاردینالیتی بالا (High Dimensionality & High Cardinality) طراحی شده است.
نقطه قوت: بسیار مناسب برای دادههای سری زمانی (Time Series Data) و داشبوردهای لحظهای (Real-time Dashboards) که نیاز به پاسخگویی بسیار سریع دارند. موتور اصلی آن جاوا است.
@BIMining
👍5❤1
🎓 ۱۴ ابزار هوش مصنوعی برتر که هر پژوهشگر باید در سال ۲۰۲۵ بشناسد
🔍 ۱. شناسایی خلأهای تحقیق
https://lnkd.in/dX9eJ9Tk
2📝-کمک در نگارش مقاله و افزودن منابع
https://lnkd.in/dikYmxEF
🎧 ۳ – تبدیل مقالههای پژوهشی به فایل صوتی
https://lnkd.in/dJUE375U
📚 ۴– یاریرسان در نگارش مقاله و پایاننامه
https://lnkd.in/d6mWCJQb
🔄 ۵– بازنویسی متن و بهینهسازی مسیر تحقیق
https://lnkd.in/d-PpN6Rh
📊 ۶ – تحلیل داده و تولید نمودارهای حرفهای
https://lnkd.in/dEqebz8v
🚫 ۷– شناسایی سرقت ادبی و محتوای تولیدشده با AI
https://lnkd.in/dPzsVcqD
📖 ۸ – استخراج داده از مقالات برای مرور ادبیات
https://lnkd.in/d_rDXkNU
🧠 ۹– کشف و تحلیل مقالات برای چارچوب نظری
https://lnkd.in/db3vttW9
🔍 ۱۰– ویرایش گرامری و نگارشی مقاله
https://lnkd.in/dwQsyXVV
🧾 ۱۱– خلاصهسازی چند مقاله برای یافتن خلأ پژوهشی
https://lnkd.in/dKN3Yyxn
🎓 ۱۲– ارزیابی کیفیت پایاننامه
https://lnkd.in/dFrzuY25
🧭 ۱۳ – تجسم ایدهها و ایجاد ارتباط بین مفاهیم
https://lnkd.in/d4Q4pxS8
🗣 ۱۴– بازخورد انسانی برای مقالهها
https://www.review-it.ai
@BIMining
🔍 ۱. شناسایی خلأهای تحقیق
https://lnkd.in/dX9eJ9Tk
2📝-کمک در نگارش مقاله و افزودن منابع
https://lnkd.in/dikYmxEF
🎧 ۳ – تبدیل مقالههای پژوهشی به فایل صوتی
https://lnkd.in/dJUE375U
📚 ۴– یاریرسان در نگارش مقاله و پایاننامه
https://lnkd.in/d6mWCJQb
🔄 ۵– بازنویسی متن و بهینهسازی مسیر تحقیق
https://lnkd.in/d-PpN6Rh
📊 ۶ – تحلیل داده و تولید نمودارهای حرفهای
https://lnkd.in/dEqebz8v
🚫 ۷– شناسایی سرقت ادبی و محتوای تولیدشده با AI
https://lnkd.in/dPzsVcqD
📖 ۸ – استخراج داده از مقالات برای مرور ادبیات
https://lnkd.in/d_rDXkNU
🧠 ۹– کشف و تحلیل مقالات برای چارچوب نظری
https://lnkd.in/db3vttW9
🔍 ۱۰– ویرایش گرامری و نگارشی مقاله
https://lnkd.in/dwQsyXVV
🧾 ۱۱– خلاصهسازی چند مقاله برای یافتن خلأ پژوهشی
https://lnkd.in/dKN3Yyxn
🎓 ۱۲– ارزیابی کیفیت پایاننامه
https://lnkd.in/dFrzuY25
🧭 ۱۳ – تجسم ایدهها و ایجاد ارتباط بین مفاهیم
https://lnkd.in/d4Q4pxS8
🗣 ۱۴– بازخورد انسانی برای مقالهها
https://www.review-it.ai
@BIMining
👍4🙏1
📢 تحولی بزرگ در دنیای دادهها!
قدرت Chat-GPT با قدرت ClickHouse همگام شد!
🌐 بالاخره بعد از ماهها تلاش بیوقفه، موفق به تلفیق قدرتمند هوش مصنوعی Chat-GPT با کلاستر ClickHouse شدیم. این دستاورد یک قدم بزرگ در مسیر دموکراتیکسازی دسترسی به دادههاست و ارائه گزارشات هوشمند را به سطح کاملاً جدیدی میبرد.
💡 تحول عظیم در ارائه گزارشات هوشمند
دیگر نیازی به دانش فنی عمیق یا نوشتن کوئریهای پیچیده نیست. با این تلفیق بینظیر، شما میتوانید تنها با استفاده از زبان طبیعی و یک جمله ساده، دقیقترین و عمیقترین گزارشات را از دادههای خود استخراج کنید.
گزارشات مبتنی بر زبان طبیعی: کافیست سوال خود را به زبان ساده بپرسید: "بیشترین فروش ماه گذشته مربوط به کدام محصول بود؟" یا "عملکرد فروش در منطقه شمال شرق نسبت به سال قبل چگونه است؟" و سیستم، فوراً پاسخ را به صورت یک گزارش دقیق به شما ارائه میدهد.
سرعت بینظیر: ClickHouse به عنوان موتور تحلیل داده، با سرعت فوقالعاده بالا به پردازش میلیونها و میلیاردها ردیف داده میپردازد و اطمینان میدهد که پاسخ شما در لحظه آماده است.
بزودی اطلاعات تکمیلی در همین کانال....
@BIMining
قدرت Chat-GPT با قدرت ClickHouse همگام شد!
🌐 بالاخره بعد از ماهها تلاش بیوقفه، موفق به تلفیق قدرتمند هوش مصنوعی Chat-GPT با کلاستر ClickHouse شدیم. این دستاورد یک قدم بزرگ در مسیر دموکراتیکسازی دسترسی به دادههاست و ارائه گزارشات هوشمند را به سطح کاملاً جدیدی میبرد.
💡 تحول عظیم در ارائه گزارشات هوشمند
دیگر نیازی به دانش فنی عمیق یا نوشتن کوئریهای پیچیده نیست. با این تلفیق بینظیر، شما میتوانید تنها با استفاده از زبان طبیعی و یک جمله ساده، دقیقترین و عمیقترین گزارشات را از دادههای خود استخراج کنید.
گزارشات مبتنی بر زبان طبیعی: کافیست سوال خود را به زبان ساده بپرسید: "بیشترین فروش ماه گذشته مربوط به کدام محصول بود؟" یا "عملکرد فروش در منطقه شمال شرق نسبت به سال قبل چگونه است؟" و سیستم، فوراً پاسخ را به صورت یک گزارش دقیق به شما ارائه میدهد.
سرعت بینظیر: ClickHouse به عنوان موتور تحلیل داده، با سرعت فوقالعاده بالا به پردازش میلیونها و میلیاردها ردیف داده میپردازد و اطمینان میدهد که پاسخ شما در لحظه آماده است.
بزودی اطلاعات تکمیلی در همین کانال....
@BIMining
👍8❤4👏1
📚 6 کتابخانه برتر AutoML برای پروژهها
1️⃣ کتابخونه FLAML
💬 ساخت مایکروسافته و کلی وظیفه مثل دستهبندی و رگرسیون رو خودش سریع انجام میده. فقط با چند خط کد!
2️⃣ کتابخونه PyCaret
💬 از صفر تا صد مدلسازی رو برات آسون میکنه. با این کتابخونه، راحت مدل آموزش میدی و خروجی میگیری.
3️⃣ کتابخونه MLJAR-Supervised
💬 کافی یه دیتا بهش بدی، خودش بهترین مدل رو با هوشمندی انتخاب و آموزش میده؛ مهندسی ویژگی هم داره.
4️⃣ کتابخونه AutoGluon
💬 ساخت AWS و میتونی باهاش دیتای جدولی و سری زمانی رو هندل کنی و مدلهای پایه رو هم فاینتون کنی.
5️⃣ کتابخونه AutoViML
💬 با حداقل ویژگیها بهترین مدل رو پیدا میکنه و دیتا رو هم تمیز و آماده میکنه.
6️⃣ کتابخونه AutoKeras
💬 بر پایه Keras و برای کار با تصویر و متن خیلی کاربردیه.
@BIMining
1️⃣ کتابخونه FLAML
💬 ساخت مایکروسافته و کلی وظیفه مثل دستهبندی و رگرسیون رو خودش سریع انجام میده. فقط با چند خط کد!
2️⃣ کتابخونه PyCaret
💬 از صفر تا صد مدلسازی رو برات آسون میکنه. با این کتابخونه، راحت مدل آموزش میدی و خروجی میگیری.
3️⃣ کتابخونه MLJAR-Supervised
💬 کافی یه دیتا بهش بدی، خودش بهترین مدل رو با هوشمندی انتخاب و آموزش میده؛ مهندسی ویژگی هم داره.
4️⃣ کتابخونه AutoGluon
💬 ساخت AWS و میتونی باهاش دیتای جدولی و سری زمانی رو هندل کنی و مدلهای پایه رو هم فاینتون کنی.
5️⃣ کتابخونه AutoViML
💬 با حداقل ویژگیها بهترین مدل رو پیدا میکنه و دیتا رو هم تمیز و آماده میکنه.
6️⃣ کتابخونه AutoKeras
💬 بر پایه Keras و برای کار با تصویر و متن خیلی کاربردیه.
@BIMining
👍6❤1
ابزار ClickGraph v0.5.2 ؛ وقتی ClickHouse به یک موتور گراف تحلیلی تبدیل میشود:
تحلیل گرافی سالها در قلمرو دیتابیسهایی مثل Neo4j بود؛ اما در سازمانهایی که همهچیز روی ClickHouse متمرکز است، انتقال داده به یک موتور جداگانه هزینه و ریسک بالایی دارد. ClickGraph برای همین متولد شده است: یک لایه تحلیلی گراف، سبک و stateless که روی ClickHouse سوار میشود، کوئریهای Cypher را به SQL بهینه ترجمه میکند و آنها را مستقیماً روی همان دادههای موجود اجرا میکند؛ یعنی بدون مهاجرت داده، میتوان یک دید گرافی قدرتمند از دادههای ستونی ساخت و از اکوسیستم Neo4j مثل درایورها، cypher-shell، Browser و Bolt 5.8 استفاده کرد، در حالی که اجرا روی ClickHouse میماند.
نسخه 0.5.2 روی همین ایده سوار است و آن را به بلوغ اینترپرایزی نزدیک کرده: پشتیبانی از الگوهای پیچیدهٔ اسکیمای گراف از پلیمورفیک تا denormalized و coupled edges، بهینهسازی مسیرهای چندمرحلهای و حفظ همخوانی با ابزارهای Neo4j در کنار معماری سبک و تستشده، با تمرکز بر انعطاف در مدلسازی گراف و پرفورمنس قابلاتکا روی دیتاستهای بزرگ.
@BIMining
تحلیل گرافی سالها در قلمرو دیتابیسهایی مثل Neo4j بود؛ اما در سازمانهایی که همهچیز روی ClickHouse متمرکز است، انتقال داده به یک موتور جداگانه هزینه و ریسک بالایی دارد. ClickGraph برای همین متولد شده است: یک لایه تحلیلی گراف، سبک و stateless که روی ClickHouse سوار میشود، کوئریهای Cypher را به SQL بهینه ترجمه میکند و آنها را مستقیماً روی همان دادههای موجود اجرا میکند؛ یعنی بدون مهاجرت داده، میتوان یک دید گرافی قدرتمند از دادههای ستونی ساخت و از اکوسیستم Neo4j مثل درایورها، cypher-shell، Browser و Bolt 5.8 استفاده کرد، در حالی که اجرا روی ClickHouse میماند.
نسخه 0.5.2 روی همین ایده سوار است و آن را به بلوغ اینترپرایزی نزدیک کرده: پشتیبانی از الگوهای پیچیدهٔ اسکیمای گراف از پلیمورفیک تا denormalized و coupled edges، بهینهسازی مسیرهای چندمرحلهای و حفظ همخوانی با ابزارهای Neo4j در کنار معماری سبک و تستشده، با تمرکز بر انعطاف در مدلسازی گراف و پرفورمنس قابلاتکا روی دیتاستهای بزرگ.
@BIMining
👍4
✅نتفلیکس هر روز ۵ پتابایت لاگ (۱۰.۶ میلیون رویداد در ثانیه) را با ClickHouse پردازش میکند و نتایج را در کمتر از ۱ ثانیه برمیگرداند – مناسب برای ۴۰ هزار سرویس کوچک و ۳۰۰ میلیون کاربر.
📕سه ترفند کلیدی نتفلیکس
۱. ارسال سریع دادهها: به جای روش معمولی JDBC، کد مخصوص ساختند که دادهها را فشرده (LZ4) و با پروتکل native میفرستد. نتیجه: CPU و RAM کمتر، سرعت بیشتر از روشهای آماده.
۲. گروهبندی لاگها بدون تأخیر: regex جستجوی متنی پیچیده را با lexer کامپایلشده (JFlex) جایگزین کردند – ۸–۱۰ برابر سریعتر، چون regex در ۱۰ میلیون رویداد در ثانیه قفل میکند.
۳. جستجوی سریع در برچسبها: برچسبها مثل ID سرویس را در ۳۱ جدول کوچک با LowCardinality تقسیم کردند به جای یک map بزرگ . زمان جستجو از ۳ ثانیه به ۰.۷ ثانیه رسید.
✅ کاربرد برای بانکها
دادههای تازه (hot tier) در ClickHouse، دادههای قدیمی در Iceberg، و API هوشمند. برای ۴۰ میلیون تراکنش روزانه بانکی، همین ترفندها (ارسال سریع + schema بهینه + تقسیم داده) کلید fraud detection و تحلیل realtime است.
@BIMining
📕سه ترفند کلیدی نتفلیکس
۱. ارسال سریع دادهها: به جای روش معمولی JDBC، کد مخصوص ساختند که دادهها را فشرده (LZ4) و با پروتکل native میفرستد. نتیجه: CPU و RAM کمتر، سرعت بیشتر از روشهای آماده.
۲. گروهبندی لاگها بدون تأخیر: regex جستجوی متنی پیچیده را با lexer کامپایلشده (JFlex) جایگزین کردند – ۸–۱۰ برابر سریعتر، چون regex در ۱۰ میلیون رویداد در ثانیه قفل میکند.
۳. جستجوی سریع در برچسبها: برچسبها مثل ID سرویس را در ۳۱ جدول کوچک با LowCardinality تقسیم کردند به جای یک map بزرگ . زمان جستجو از ۳ ثانیه به ۰.۷ ثانیه رسید.
✅ کاربرد برای بانکها
دادههای تازه (hot tier) در ClickHouse، دادههای قدیمی در Iceberg، و API هوشمند. برای ۴۰ میلیون تراکنش روزانه بانکی، همین ترفندها (ارسال سریع + schema بهینه + تقسیم داده) کلید fraud detection و تحلیل realtime است.
@BIMining
👍11❤1
برگزاری پنل هوش مصنوعی با عنوان
سنجش داده تا سناریوسازی ،زیرساخت های فناورانه،داده کاوی و طراحی مدل های پیش بینی با هوش مصنوعی
دوشنبه 24 آذرماه 1404 پاویون هوش مصنوعی مصلی امام خمینی
ساعت 11-12:15
@BIMining
سنجش داده تا سناریوسازی ،زیرساخت های فناورانه،داده کاوی و طراحی مدل های پیش بینی با هوش مصنوعی
دوشنبه 24 آذرماه 1404 پاویون هوش مصنوعی مصلی امام خمینی
ساعت 11-12:15
@BIMining
👏2👍1
تحلیل داده ترکیبی متعادل از مبانی اصلی و مهارتهای پشتیبان است.
🔹اسکریپت SQL ستون فقرات تحلیل (31%)
دادههای کسبوکار عمدتاً در پایگاهدادهها ذخیره میشوند. تسلط بر SQL برای استخراج، پاکسازی و تبدیل داده ضروری است.
🔹 ابزارهای BI (15%)
ابزارهایی مثل Power BI یا Tableau دادههای خام را به داستانهای قابلفهم برای ذینفعان تبدیل میکنند.
🔹ابزار Excel (14%)
از تحلیل سریع تا گزارشگیری، Excel هنوز یک ابزار روزمره در سازمانهاست. یادگیری فرمولها، پیوتها و پاکسازی داده بسیار مفید است.
🔹زبان برنامه نویسی پایتون (14%)
پایتون از تحلیلهای پیچیده، خودکارسازی و کار با حجم بزرگ داده پشتیبانی میکند.
🔹زبان R (10%)
اغلب در نقشهای پژوهشی یا آماری استفاده میشود و برای مدلسازی عمیق مناسب است.
🔹ابزار و فرایند ETL (11% در مجموع)
درک جریان داده ETL و مبانی آماری، صحت و قابلیت اطمینان بینشها را تضمین میکند.
🔹 کنترل نسخه، NoSQL، SAS مهارتهای تکمیلی (%5 در مجموع)
این ابزارها در محیطها و پروژههای خاص، بهویژه در مقیاس بزرگ، ارزش افزوده دارند.
@BIMining
🔹اسکریپت SQL ستون فقرات تحلیل (31%)
دادههای کسبوکار عمدتاً در پایگاهدادهها ذخیره میشوند. تسلط بر SQL برای استخراج، پاکسازی و تبدیل داده ضروری است.
🔹 ابزارهای BI (15%)
ابزارهایی مثل Power BI یا Tableau دادههای خام را به داستانهای قابلفهم برای ذینفعان تبدیل میکنند.
🔹ابزار Excel (14%)
از تحلیل سریع تا گزارشگیری، Excel هنوز یک ابزار روزمره در سازمانهاست. یادگیری فرمولها، پیوتها و پاکسازی داده بسیار مفید است.
🔹زبان برنامه نویسی پایتون (14%)
پایتون از تحلیلهای پیچیده، خودکارسازی و کار با حجم بزرگ داده پشتیبانی میکند.
🔹زبان R (10%)
اغلب در نقشهای پژوهشی یا آماری استفاده میشود و برای مدلسازی عمیق مناسب است.
🔹ابزار و فرایند ETL (11% در مجموع)
درک جریان داده ETL و مبانی آماری، صحت و قابلیت اطمینان بینشها را تضمین میکند.
🔹 کنترل نسخه، NoSQL، SAS مهارتهای تکمیلی (%5 در مجموع)
این ابزارها در محیطها و پروژههای خاص، بهویژه در مقیاس بزرگ، ارزش افزوده دارند.
@BIMining
👍9👏3❤1
در پشت صحنۀ پلتفرمهایی که هر روز مورد استفاده قرار میگیرند، همواره این پرسش مطرح بوده است که چه رویدادهایی رخ میدهد. همچنین، این سؤال مطرح میشود که پلتفرمهای مشهور جهان با چه زبانهایی ساخته شدهاند.
@BIMining
@BIMining
👍8
🔺ورود چین به عصر ایجنتهای هوش مصنوعی
🔹شرکت چینی بایت دنس با معرفی مدل Doubao 2.0 رسماً به عصر ایجنتها وارد شده و تلاش دارد جایگاه خود را در بازار رقابتی هوش مصنوعی حفظ کند. این مدل فراتر از یک چتبات است و برای انجام وظایف پیچیده دنیای واقعی طراحی شده است. نسخه Pro آن با مدلهایی مانند OpenAI و گوگل رقابت میکند.
🔹بایتدنس میگوید هزینه استفاده از Doubao 2.0 حدود ۱۰ برابر کمتر از رقبا است و این موضوع برای پردازشهای پرمصرف مزیت مهمی به شمار میرود. این شرکت پس از غافلگیری از ظهور DeepSeek حالا میخواهد از تکرار آن تجربه جلوگیری کند. در بازار چین، Doubao با ۱۵۵ میلیون کاربر هفتگی در صدر قرار دارد و سایر رقبا نیز با سرعت در حال رشد هستند.
@BIMining
🔹شرکت چینی بایت دنس با معرفی مدل Doubao 2.0 رسماً به عصر ایجنتها وارد شده و تلاش دارد جایگاه خود را در بازار رقابتی هوش مصنوعی حفظ کند. این مدل فراتر از یک چتبات است و برای انجام وظایف پیچیده دنیای واقعی طراحی شده است. نسخه Pro آن با مدلهایی مانند OpenAI و گوگل رقابت میکند.
🔹بایتدنس میگوید هزینه استفاده از Doubao 2.0 حدود ۱۰ برابر کمتر از رقبا است و این موضوع برای پردازشهای پرمصرف مزیت مهمی به شمار میرود. این شرکت پس از غافلگیری از ظهور DeepSeek حالا میخواهد از تکرار آن تجربه جلوگیری کند. در بازار چین، Doubao با ۱۵۵ میلیون کاربر هفتگی در صدر قرار دارد و سایر رقبا نیز با سرعت در حال رشد هستند.
@BIMining
❤4👍1
در سال ۲۰۲۶، رویکرد اصلی در دیتا انجینیرینگ ELT است، نه ETL قدیمی.
- روش قدیمی (ETL): اول دیتا رو تبدیل (Transform) میکردی بعد بارگذاری (Load) میکردی، چون انبارهای داده قدیمی فقط دیتای ساختاریافته قبول میکردند.
- تغییر بزرگ: انبارهای مدرن مثل Snowflake و BigQuery الان دیتای نیمهساختاریافته (مثل JSON) و بدون ساختار (مثل لاگ) رو هم قبول میکنند. نیازی به تبدیل قبلی نیست.
- روش جدید (ELT): اول دیتا رو بارگذاری خام (Load) میکنی، بعد با DBT تبدیل (Transform) انجام میدی. سریعتر، سادهتر و ارزانتر.
- چرا DBT مهم شده؟ تو اکثر آگهیهای شغلی دیتا انجینیرینگ هست، SQL رو به یک فرآیند مهندسی نرمافزار تبدیل کرده (کنترل نسخه، تست، مستندات).
- کی هنوز ETL بهتره؟ توی خطوط بلادرنگ (مثل Kafka → Flink)، تبدیلهای سنگین غیر SQL، یا سیستمهای قدیمی که عوض کردنشان هزینهبالایی دارد.
نتیجه نهایی: پیشفرض ۲۰۲۶ برای اکثر پروژهها، ELT با DBT است، اما بسته به نیاز خاص خودت انتخاب کن.
@BIMining
- روش قدیمی (ETL): اول دیتا رو تبدیل (Transform) میکردی بعد بارگذاری (Load) میکردی، چون انبارهای داده قدیمی فقط دیتای ساختاریافته قبول میکردند.
- تغییر بزرگ: انبارهای مدرن مثل Snowflake و BigQuery الان دیتای نیمهساختاریافته (مثل JSON) و بدون ساختار (مثل لاگ) رو هم قبول میکنند. نیازی به تبدیل قبلی نیست.
- روش جدید (ELT): اول دیتا رو بارگذاری خام (Load) میکنی، بعد با DBT تبدیل (Transform) انجام میدی. سریعتر، سادهتر و ارزانتر.
- چرا DBT مهم شده؟ تو اکثر آگهیهای شغلی دیتا انجینیرینگ هست، SQL رو به یک فرآیند مهندسی نرمافزار تبدیل کرده (کنترل نسخه، تست، مستندات).
- کی هنوز ETL بهتره؟ توی خطوط بلادرنگ (مثل Kafka → Flink)، تبدیلهای سنگین غیر SQL، یا سیستمهای قدیمی که عوض کردنشان هزینهبالایی دارد.
نتیجه نهایی: پیشفرض ۲۰۲۶ برای اکثر پروژهها، ELT با DBT است، اما بسته به نیاز خاص خودت انتخاب کن.
@BIMining
🙏2❤1