مهندسی و علم داده
3.97K subscribers
388 photos
174 videos
169 files
112 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-نائب رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
-دبیر شورای حکمرانی داده انجمن هوش مصنوعی ایران
Download Telegram
مقایسه پلتفرم های بیگ دیتا CLICKHOUSE ، Apache Druid , Apache Doris بر اساس سایت معتبر DBEngines

ClickHouse :
به وضوح بر کارایی فوق‌العاده بالا و پردازش کوئری‌های OLAP با حداقل زمان ممکن تمرکز دارد. استفاده از C++ و معماری ستونی (Column-oriented) این امکان را فراهم می‌کند.

نقطه قوت: بهترین عملکرد را برای تجمیع‌های پیچیده و کوئری‌های تحلیلی بر روی داده‌های عظیم ارائه می‌دهد. پشتیبانی گسترده از زبان‌های برنامه‌نویسی و انواع API، آن را بسیار انعطاف‌پذیر می‌کند.

نقاط متمایز: تنها پلتفرمی است که در این مقایسه قابلیت‌های In-memory و DBaaS (سرویس ابری مدیریت شده) را ارائه می‌دهد و از replication فیزیکی همزمان و غیرهمزمان با پشتیبانی از ذخیره‌سازهای ابجکت بهره می‌برد.

Apache Druid:
به صورت خاص برای کوئری‌های OLAP زیر ثانیه بر روی داده‌های با ابعاد بالا و کاردینالیتی بالا (High Dimensionality & High Cardinality) طراحی شده است.

نقطه قوت: بسیار مناسب برای داده‌های سری زمانی (Time Series Data) و داشبوردهای لحظه‌ای (Real-time Dashboards) که نیاز به پاسخگویی بسیار سریع دارند. موتور اصلی آن جاوا است.
@BIMining
👍51
🎓 ۱۴ ابزار هوش مصنوعی برتر که هر پژوهشگر باید در سال ۲۰۲۵ بشناسد
🔍 ۱. شناسایی خلأهای تحقیق
https://lnkd.in/dX9eJ9Tk

2📝-کمک در نگارش مقاله و افزودن منابع
https://lnkd.in/dikYmxEF

🎧 ۳ – تبدیل مقاله‌های پژوهشی به فایل صوتی
https://lnkd.in/dJUE375U

📚 ۴– یاری‌رسان در نگارش مقاله و پایان‌نامه
https://lnkd.in/d6mWCJQb

🔄 ۵– بازنویسی متن و بهینه‌سازی مسیر تحقیق
https://lnkd.in/d-PpN6Rh

📊 ۶ – تحلیل داده و تولید نمودارهای حرفه‌ای
https://lnkd.in/dEqebz8v

🚫 ۷– شناسایی سرقت ادبی و محتوای تولیدشده با AI
https://lnkd.in/dPzsVcqD

📖 ۸ – استخراج داده از مقالات برای مرور ادبیات
https://lnkd.in/d_rDXkNU

🧠 ۹– کشف و تحلیل مقالات برای چارچوب نظری
https://lnkd.in/db3vttW9

🔍 ۱۰– ویرایش گرامری و نگارشی مقاله
https://lnkd.in/dwQsyXVV

🧾 ۱۱– خلاصه‌سازی چند مقاله برای یافتن خلأ پژوهشی
https://lnkd.in/dKN3Yyxn

🎓 ۱۲– ارزیابی کیفیت پایان‌نامه
https://lnkd.in/dFrzuY25

🧭 ۱۳ – تجسم ایده‌ها و ایجاد ارتباط بین مفاهیم
https://lnkd.in/d4Q4pxS8

🗣 ۱۴– بازخورد انسانی برای مقاله‌ها
https://www.review-it.ai

@BIMining
👍4🙏1
📢 تحولی بزرگ در دنیای داده‌ها!

قدرت Chat-GPT با قدرت ClickHouse همگام شد!

🌐 بالاخره بعد از ماه‌ها تلاش بی‌وقفه، موفق به تلفیق قدرتمند هوش مصنوعی Chat-GPT با کلاستر ClickHouse شدیم. این دستاورد یک قدم بزرگ در مسیر دموکراتیک‌سازی دسترسی به داده‌هاست و ارائه گزارشات هوشمند را به سطح کاملاً جدیدی می‌برد.

💡 تحول عظیم در ارائه گزارشات هوشمند
دیگر نیازی به دانش فنی عمیق یا نوشتن کوئری‌های پیچیده نیست. با این تلفیق بی‌نظیر، شما می‌توانید تنها با استفاده از زبان طبیعی و یک جمله ساده، دقیق‌ترین و عمیق‌ترین گزارشات را از داده‌های خود استخراج کنید.

گزارشات مبتنی بر زبان طبیعی: کافیست سوال خود را به زبان ساده بپرسید: "بیشترین فروش ماه گذشته مربوط به کدام محصول بود؟" یا "عملکرد فروش در منطقه شمال شرق نسبت به سال قبل چگونه است؟" و سیستم، فوراً پاسخ را به صورت یک گزارش دقیق به شما ارائه می‌دهد.

سرعت بی‌نظیر: ClickHouse به عنوان موتور تحلیل داده، با سرعت فوق‌العاده بالا به پردازش میلیون‌ها و میلیاردها ردیف داده می‌پردازد و اطمینان می‌دهد که پاسخ شما در لحظه آماده است.
بزودی اطلاعات تکمیلی در همین کانال....
@BIMining
👍84👏1
سخنرانی با عنوان افزایش کارایی هوش مصنوعی با معماری توزیع شده کلیک هاوس
در الکامپ تاکز

@BIMining
👍61
📚 6 کتابخانه برتر AutoML برای پروژه‌ها

1️⃣ کتابخونه FLAML

💬 ساخت مایکروسافته و کلی وظیفه مثل دسته‌بندی و رگرسیون رو خودش سریع انجام می‌ده. فقط با چند خط کد!

2️⃣ کتابخونه PyCaret

💬 از صفر تا صد مدل‌سازی رو برات آسون می‌کنه. با این کتابخونه، راحت مدل آموزش می‌دی و خروجی می‌گیری.

3️⃣ کتابخونه MLJAR-Supervised

💬 کافی یه دیتا بهش بدی، خودش بهترین مدل رو با هوشمندی انتخاب و آموزش می‌ده؛ مهندسی ویژگی هم داره.

4️⃣ کتابخونه AutoGluon

💬 ساخت AWS و می‌تونی باهاش دیتای جدولی و سری زمانی رو هندل کنی و مدل‌های پایه رو هم فاین‌تون کنی.

5️⃣ کتابخونه AutoViML

💬 با حداقل ویژگی‌ها بهترین مدل رو پیدا می‌کنه و دیتا رو هم تمیز و آماده می‌کنه.

6️⃣ کتابخونه AutoKeras

💬 بر پایه Keras و برای کار با تصویر و متن خیلی کاربردیه.
@BIMining
👍61
ابزار ClickGraph v0.5.2 ؛ وقتی ClickHouse به یک موتور گراف تحلیلی تبدیل می‌شود:

تحلیل گرافی سال‌ها در قلمرو دیتابیس‌هایی مثل Neo4j بود؛ اما در سازمان‌هایی که همه‌چیز روی ClickHouse متمرکز است، انتقال داده به یک موتور جداگانه هزینه و ریسک بالایی دارد. ClickGraph برای همین متولد شده است: یک لایه تحلیلی گراف، سبک و stateless که روی ClickHouse سوار می‌شود، کوئری‌های Cypher را به SQL بهینه ترجمه می‌کند و آن‌ها را مستقیماً روی همان داده‌های موجود اجرا می‌کند؛ یعنی بدون مهاجرت داده، می‌توان یک دید گرافی قدرتمند از داده‌های ستونی ساخت و از اکوسیستم Neo4j مثل درایورها، cypher-shell، Browser و Bolt 5.8 استفاده کرد، در حالی که اجرا روی ClickHouse می‌ماند.
نسخه 0.5.2 روی همین ایده سوار است و آن را به بلوغ اینترپرایزی نزدیک کرده: پشتیبانی از الگوهای پیچیدهٔ اسکیمای گراف از پلی‌مورفیک تا denormalized و coupled edges، بهینه‌سازی مسیرهای چندمرحله‌ای و حفظ هم‌خوانی با ابزارهای Neo4j در کنار معماری سبک و تست‌شده، با تمرکز بر انعطاف در مدل‌سازی گراف و پرفورمنس قابل‌اتکا روی دیتاست‌های بزرگ.
@BIMining
👍4
نتفلیکس هر روز ۵ پتابایت لاگ (۱۰.۶ میلیون رویداد در ثانیه) را با ClickHouse پردازش می‌کند و نتایج را در کمتر از ۱ ثانیه برمی‌گرداند – مناسب برای ۴۰ هزار سرویس کوچک و ۳۰۰ میلیون کاربر.

📕سه ترفند کلیدی نتفلیکس
۱. ارسال سریع داده‌ها: به جای روش معمولی JDBC، کد مخصوص ساختند که داده‌ها را فشرده (LZ4) و با پروتکل native می‌فرستد. نتیجه: CPU و RAM کمتر، سرعت بیشتر از روش‌های آماده.

۲. گروه‌بندی لاگ‌ها بدون تأخیر: regex جستجوی متنی پیچیده را با lexer کامپایل‌شده (JFlex) جایگزین کردند – ۸–۱۰ برابر سریع‌تر، چون regex در ۱۰ میلیون رویداد در ثانیه قفل می‌کند.

۳. جستجوی سریع در برچسب‌ها: برچسب‌ها مثل ID سرویس را در ۳۱ جدول کوچک با LowCardinality تقسیم کردند به جای یک map بزرگ . زمان جستجو از ۳ ثانیه به ۰.۷ ثانیه رسید.
کاربرد برای بانک‌ها
داده‌های تازه (hot tier) در ClickHouse، داده‌های قدیمی در Iceberg، و API هوشمند. برای ۴۰ میلیون تراکنش روزانه بانکی، همین ترفندها (ارسال سریع + schema بهینه + تقسیم داده) کلید fraud detection و تحلیل realtime است.

@BIMining
👍111
برگزاری پنل هوش مصنوعی با عنوان
سنجش داده تا سناریوسازی ،زیرساخت های فناورانه،داده کاوی و طراحی مدل های پیش بینی با هوش مصنوعی

دوشنبه 24 آذرماه 1404 پاویون هوش مصنوعی مصلی امام خمینی
ساعت 11-12:15

@BIMining
👏2👍1
تحلیل داده ترکیبی متعادل از مبانی اصلی و مهارت‌های پشتیبان است.

🔹اسکریپت SQL ستون فقرات تحلیل (31%)
داده‌های کسب‌وکار عمدتاً در پایگاه‌داده‌ها ذخیره می‌شوند. تسلط بر SQL برای استخراج، پاکسازی و تبدیل داده ضروری است.
🔹 ابزارهای BI (15%)
ابزارهایی مثل Power BI یا Tableau داده‌های خام را به داستان‌های قابل‌فهم برای ذینفعان تبدیل می‌کنند.
🔹ابزار Excel (14%)
از تحلیل سریع تا گزارش‌گیری، Excel هنوز یک ابزار روزمره در سازمان‌هاست. یادگیری فرمول‌ها، پیوت‌ها و پاکسازی داده بسیار مفید است.
🔹زبان برنامه نویسی پایتون (14%)
پایتون از تحلیل‌های پیچیده، خودکارسازی و کار با حجم بزرگ داده پشتیبانی می‌کند.
🔹زبان R (10%)
اغلب در نقش‌های پژوهشی یا آماری استفاده می‌شود و برای مدل‌سازی عمیق مناسب است.
🔹ابزار و فرایند ETL (11% در مجموع)
درک جریان داده ETL و مبانی آماری، صحت و قابلیت اطمینان بینش‌ها را تضمین می‌کند.
🔹 کنترل نسخه، NoSQL، SAS مهارت‌های تکمیلی (%5 در مجموع)
این ابزارها در محیط‌ها و پروژه‌های خاص، به‌ویژه در مقیاس بزرگ، ارزش افزوده دارند.
@BIMining
👍9👏31
در پشت صحنۀ پلتفرم‌هایی که هر روز مورد استفاده قرار می‌گیرند، همواره این پرسش مطرح بوده است که چه رویدادهایی رخ می‌دهد. همچنین، این سؤال مطرح می‌شود که پلتفرم‌های مشهور جهان با چه زبان‌هایی ساخته شده‌اند.


@BIMining
👍8
🔺ورود چین به عصر ایجنت‌های هوش مصنوعی

🔹شرکت چینی بایت‌ دنس با معرفی مدل Doubao 2.0 رسماً به عصر ایجنت‌ها وارد شده و تلاش دارد جایگاه خود را در بازار رقابتی هوش مصنوعی حفظ کند. این مدل فراتر از یک چت‌بات است و برای انجام وظایف پیچیده دنیای واقعی طراحی شده است. نسخه Pro آن با مدل‌هایی مانند OpenAI و گوگل رقابت می‌کند.
🔹بایت‌دنس می‌گوید هزینه استفاده از Doubao 2.0 حدود ۱۰ برابر کمتر از رقبا است و این موضوع برای پردازش‌های پرمصرف مزیت مهمی به شمار می‌رود. این شرکت پس از غافلگیری از ظهور DeepSeek حالا می‌خواهد از تکرار آن تجربه جلوگیری کند. در بازار چین، Doubao با ۱۵۵ میلیون کاربر هفتگی در صدر قرار دارد و سایر رقبا نیز با سرعت در حال رشد هستند.

@BIMining
4👍1
در سال ۲۰۲۶، رویکرد اصلی در دیتا انجینیرینگ ELT است، نه ETL قدیمی.


- روش قدیمی (ETL): اول دیتا رو تبدیل (Transform) میکردی بعد بارگذاری (Load) میکردی، چون انبارهای داده قدیمی فقط دیتای ساختاریافته قبول میکردند.
- تغییر بزرگ: انبارهای مدرن مثل Snowflake و BigQuery الان دیتای نیمه‌ساختاریافته (مثل JSON) و بدون ساختار (مثل لاگ) رو هم قبول میکنند. نیازی به تبدیل قبلی نیست.
- روش جدید (ELT): اول دیتا رو بارگذاری خام (Load) میکنی، بعد با DBT تبدیل (Transform) انجام میدی. سریع‌تر، ساده‌تر و ارزان‌تر.
- چرا DBT مهم شده؟ تو اکثر آگهی‌های شغلی دیتا انجینیرینگ هست، SQL رو به یک فرآیند مهندسی نرم‌افزار تبدیل کرده (کنترل نسخه، تست، مستندات).
- کی هنوز ETL بهتره؟ توی خطوط بلادرنگ (مثل Kafka → Flink)، تبدیل‌های سنگین غیر SQL، یا سیستم‌های قدیمی که عوض کردنشان هزینه‌بالایی دارد.

نتیجه نهایی: پیش‌فرض ۲۰۲۶ برای اکثر پروژه‌ها، ELT با DBT است، اما بسته به نیاز خاص خودت انتخاب کن.

@BIMining
🙏21