Algorithm design & data structure
6.46K subscribers
821 photos
140 videos
174 files
419 links
این کانال برای تمامی علاقه‌مندان به کامپیوتر، مخصوصاً حوزه ساختمان داده‌ها و الگوریتم‌ها، مفید می باشد. آشنایی با ریاضیات مقدماتی، برنامه‌نویسی مقدماتی و پیشرفته و همچنین شی‌گرایی می‌تواند در درک بهتر مفاهیم این درس کمک‌ کند.

👨‍💻Admin👉 @Se_mohamad
Download Telegram
تصور کنید داده‌ها از دل اینترنت، با سرعت نور به سمت ما میان. چطور این اطلاعات رو بدون وقفه شکار کنیم، پردازششون کنیم و آماده‌شون کنیم برای مدل‌های یادگیری ماشین؟

این آموزش بهتون یاد میده چطور با FastAPI یه دروازه سریع برای جمع‌آوری داده‌ها از اینترنت بسازید. بعدش، با قدرت Apache Spark، داده‌های دریافتی رو توی یه پایپ‌لاین ETL (استخراج، تبدیل، بارگذاری) به بهترین شکل ممکن پردازش می‌کنیم. تمام این مراحل هم توسط Apache Airflow مثل یک ارکستر حرفه‌ای مدیریت می‌شن تا هیچ مشکلی پیش نیاد.

ویژگی جذاب این پیاده‌سازی، استفاده از پلتفرم Nebius AI Cloud هست که محیطی ایده‌آل برای این جور پروژه‌های مقیاس‌پذیر رو فراهم می‌کنه. مهمتر از همه، تمرکز اصلی ما روی تضمین کیفیت و یکپارچگی داده‌ها در هر مرحله است. همچنین، می‌بینیم که چطور با استفاده از Kubernetes، سیستمی با دسترس‌پذیری بالا (High Availability) و مدیریت داده‌های قدرتمند داشته باشیم.

https://www.newsletter.swirlai.com/p/data-pipelines-in-machine-learning

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
🔍🤖 UQLM: Hallucination Detection Library

در دنیای مدل‌های زبانی بزرگ (LLMs)، یکی از چالش‌های مهم، تولید اطلاعات نادرست یا ساختگی (Hallucination) است که می‌تواند به خروجی‌های غیرقابل اعتماد منجر شود.
اینجاست که UQLM وارد می‌شود!

در واقع UQLM یک کتابخانه‌ی کاربردی برای شناسایی و تشخیص Hallucination در خروجی مدل‌های زبانی است. این ابزار با اندازه‌گیری عدم قطعیت (Uncertainty) در پاسخ‌ها و استفاده از روش‌های امتیازدهی متنوع، امکان تحلیل دقیق‌تری از صحت خروجی‌ها را فراهم می‌کند.

🧩 یکی از ویژگی‌های جذاب UQLM، یکپارچگی کامل با LangChain است. این یعنی توسعه‌دهندگان می‌توانند خیلی راحت این ابزار را در زنجیره‌های کاری خود پیاده‌سازی کنند و برنامه‌های هوش مصنوعی قابل اطمینان‌تر و هوشمندتری بسازند.

https://github.com/cvs-health/uqlm

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
🔹 درک ساده‌ی MapReduce با یک تصویر! 🔹
📊 اگر با داده‌های بزرگ (Big Data) سروکار داری، حتماً اسم MapReduce به گوشت خورده! این تصویر مراحل اجرای این مدل محبوب پردازش داده رو خیلی ساده و شفاف نشون میده 👇

🟢 مرحله Map (نگاشت):
داده‌های خام (مثلاً چند فایل بزرگ متنی) به چند بخش کوچک‌تر تقسیم می‌شن (Split)،
هر بخش توسط یک Mapper پردازش می‌شه تا به صورت جفت‌های کلید-مقدار (Key-Value Pairs) تبدیل بشه.

⚙️ مرحله Shuffle (مرتب‌سازی و گروه‌بندی):
نتایج Mapperها بر اساس کلیدها گروه‌بندی و مرتب می‌شن تا آماده بشن برای مرحله بعد.

🔴 مرحله Reduce (کاهش):
هر Reducer داده‌های گروه‌بندی‌شده رو دریافت و جمع‌بندی یا تجزیه‌وتحلیل می‌کنه.
در نهایت، خروجی نهایی (مثلاً یک فایل متنی نهایی) تولید می‌شه. 📄

مزیت اصلی MapReduce اینه که می‌تونه داده‌های خیلی بزرگ رو روی چندین سرور به‌صورت موازی پردازش کنه.


📌در واقع MapReduce یکی از پایه‌های مهم در سیستم‌های مثل Hadoop برای تحلیل داده‌های عظیمه!


#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
پژوهشگران MIT در مقاله‌ای با عنوان «فرضیه مرکز معنایی: مدل‌های زبانی نمایه‌های معنایی مشترکی را در زبان‌ها و حالت‌های مختلف به اشتراک می‌گذارند» به بررسی نحوه پردازش داده‌های متنوع توسط مدل‌های زبانی بزرگ (LLM) پرداختند. این مطالعه نشان می‌دهد که LLMها، مشابه مغز انسان، اطلاعات را از طریق یک مرکز معنایی مشترک پردازش می‌کنند.

The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
سایت sosimulator.xyz یک شبیه‌ساز جالب و خلاقانه از تجربهٔ استفاده از Stack Overflow است که به‌صورت تعاملی طراحی شده است. این وب‌سایت مانند یک «موزهٔ کاربردی» برای توسعه‌دهندگان عمل می‌کند و به کاربران امکان می‌دهد تا با ارسال سؤالات، تجربه‌ای مشابه با محیط واقعی Stack Overflow داشته باشند.

در این شبیه‌ساز، ارسال هر سؤال هزینه‌ای معادل ۰.۰۰۰۰۳ دلار برای میزبان وب دارد، که این موضوع به‌صورت نمادین به اهمیت و هزینه‌های پنهان استفاده از منابع آنلاین اشاره دارد. همچنین، کاربران می‌توانند سؤالات تصادفی مشاهده کنند یا محیط را پاک‌سازی کرده و مجدداً شروع کنند.


#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
معرفی دیتاست و پیکره ParsOffensive جهت تشخیص سخنان ناسزا توی زبان فارسی!

یکی از دوستان ایرانی‌ام در لینکدین پستی منتشر کرده بود که توجه مرا جلب کرد:

🔍 معرفی دیتاست جدید برای تشخیص فحاشی در زبان فارسی

به‌تازگی دیتاستی با نام ParsOffensive منتشر شده است که شامل ۸٬۴۳۳ کامنت فارسی از اینستاگرام می‌باشد. این کامنت‌ها توسط دو متخصص زبان‌شناسی به‌صورت دستی برچسب‌گذاری شده‌اند و به دو دسته «توهین‌آمیز» و «خنثی» تقسیم می‌شوند. این مجموعه داده می‌تواند در پروژه‌های تحقیقاتی و توسعه مدل‌های یادگیری ماشین برای تشخیص زبان توهین‌آمیز در زبان فارسی مورد استفاده قرار گیرد.

Parsoffensive: Persian Offensive Comments Dataset

Dataset: https://github.com/alinazarizadeh/ParsOffensive

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
📢 دعوت به همکاری برای پیدا کردن فرصت‌های کارآموزی و کاری در حوزه‌های کامپیوتر 🌐💼

سلام به همراهان عزیز کانال 🎓
ما در تلاشیم فضایی فراهم کنیم برای به اشتراک‌گذاری فرصت‌های کارآموزی و کاری در حوزه‌های مختلف رشته کامپیوتر از جمله:

💡 هوش مصنوعی و یادگیری ماشین
🖥 طراحی سایت و توسعه وب
📊 تحلیل داده و برنامه‌نویسی
و سایر زمینه‌های مرتبط با فناوری و نرم‌افزار

از همه دوستان درخواست داریم:
🔍 اگر آگهی، بنر، یا اطلاعیه‌ای در این حوزه‌ها دیدین (از دانشگاه، شرکت‌ها، شبکه‌های اجتماعی و...) لطفاً برای ما ارسال کنین تا با ذکر منبع در کانال منتشر کنیم و بتونیم به بقیه هم کمک کنیم.

@Se_mohamad
grokking_algorithms_An_illustrated_guide_for_programmers_and_other.pdf
24.5 MB
ترجمه کتاب grokking algorithms - An illustrated guide for programmers and other curious people

مترجم: مهران افشار نادری

#الگوریتم
📣👨‍💻 @AlgorithmDesign_DataStructuer
فرصت شغلی ریموت (دورکاری) برای برنامه‌نویسان

موقعیت‌های زیر به‌صورت ریموت در حال جذب هستیم:

- برنامه‌نویس Java
- برنامه‌نویس ‌ C#
- برنامه‌نویس Go
- برنامه‌نویس Python
- برنامه‌نویس Rust
- برنامه‌نویس JS

شرایط:
• حداقل 3 سال سابقه کار
• تسلط به زبان انگلیسی
• حقوق: بین 2000 تا 3000 دلار (متناسب با مهارت)

در صورتی که علاقمند هستید یا کسی رو می‌شناسید که مناسب این موقعیت‌هاست، رزومه‌ش رو ارسال کنید.

#فرصت_شغلی

info@behlink.com
🧠 Agentic Document Workflows (ADW)

در واقع ADW به معنای استفاده از عوامل هوشمند برای مدیریت فرآیندهای چندمرحله‌ای اسناد است. این عوامل می‌توانند:

اطلاعات را با استفاده از LlamaParse استخراج و ساختاردهی کنند.

وضعیت و زمینه سند را در طول فرآیند حفظ کنند.

اطلاعات مرجع را از پایگاه دانش LlamaCloud بازیابی و تحلیل کنند.

بر اساس قوانین کسب‌وکار، پیشنهادات عملیاتی ارائه دهند.

📌 نمونه‌های کاربردی واقعی

بررسی قراردادها: عوامل هوشمند می‌توانند بندهای کلیدی قراردادها را شناسایی کرده و آن‌ها را با الزامات قانونی مقایسه کنند تا ریسک‌های احتمالی را مشخص نمایند.
Google Colab

خلاصه‌سازی پرونده‌های پزشکی: با تجزیه و تحلیل نتایج آزمایش‌ها و یادداشت‌های بالینی، عوامل می‌توانند خلاصه‌ای جامع از وضعیت بیمار ارائه دهند که به تصمیم‌گیری پزشکان کمک می‌کند.

Google Colab

رسیدگی به مطالبات بیمه خودرو: با تجزیه و تحلیل فرم‌های مطالبات و تطبیق آن‌ها با سیاست‌های بیمه، عوامل می‌توانند اطلاعات کلیدی را برای تصمیم‌گیری کارشناسان بیمه فراهم کنند.

Google Colab

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
ابزار heyCLI یک دستیار هوش مصنوعی برای خط فرمان لینوکس است که با استفاده از زبان طبیعی، دستورات مورد نیاز را تولید می‌کند. برای استفاده از آن، کافی است درخواست خود را با کلمه «hey» شروع کنید و سپس اقدام مورد نظر را بیان کنید. این ابزار به ویژه برای کاربران تازه‌کار یا کسانی که به یادآوری دستورات پیچیده علاقه‌مند نیستند، مفید است.

نمونه‌هایی از استفاده:
hey create a docker image for this dir

hey update my system

hey install firefox

hey find file image1

hey go to previous directory

https://eliteai.tools/tool/heycli

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
در تایوان، ربات پرستار "Nurabot" با همکاری شرکت‌های Foxconn و NVIDIA توسعه یافته است. این ربات با قابلیت‌هایی مانند تحویل دارو، پایش علائم حیاتی بیماران و راهنمایی بازدیدکنندگان، به کاهش بار کاری پرستاران کمک می‌کند.

https://www.the-sun.com/tech/14289670/ai-robot-nurse-hospital-video-nvidia/?utm_source=chatgpt.com

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
ارائه یک روش جدید به نام dMoE (Distribution-aware Mixture of Experts) برای کاهش سوگیری‌ها در تقسیم‌بندی تصاویر پزشکی که ناشی از توزیع‌های نامتوازن در داده‌ها (مثل سن، جنسیت، نژاد یا شدت بیماری) هستند. این مدل با الهام از تئوری کنترل بهینه طراحی شده و می‌تواند خودش را با توزیع‌های مختلف داده تطبیق دهد تا دقت و انصاف مدل را بهبود بخشد.

تصویر هم معماری مدل dMoE را نشان می‌دهد که برای تقسیم‌بندی منصفانه تصاویر پزشکی طراحی شده است.
در بخش (a)، شبکه dMoE با توجه به ویژگی‌های جمعیت‌شناختی (مثل سن یا نژاد) تصمیم می‌گیرد از کدام مسیر یا «متخصص» استفاده کند.
بخش (b) این ساختار را با یک سیستم کنترلی مقایسه می‌کند که می‌تواند بدون بازخورد، با بازخورد، یا با تغییر حالت (mode-switching) کار کند.

https://arxiv.org/abs/2502.00619

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
🏷 نام مجموعه:
استارتاپ گفتا – دستیار هوشمند فروش و پاسخگویی

🪑 پوزیشن شغلی:
🔹 توسعه‌دهنده فرانت‌اند میدلول (mid level Front-end Developer)

🔗 مهارت‌های شغلی:

تسلط به HTML، CSS، JavaScript

تسلط به فریم‌ورک‌ React

تجربه کار با Tailwind CSS یا سایر ابزارهای مدرن طراحی رابط کاربری

آشنایی با مفاهیم REST API و ارتباط با بک‌اند

دقت بالا در جزئیات طراحی و تجربه کاربری (UX)

روحیه کار تیمی، یادگیری سریع و مسئولیت‌پذیری

🌐 شرح وظایف:

توسعه صفحات وب اپلیکیشن گفتا

پیاده‌سازی بخش‌های جدید با همکاری تیم بک‌اند

بهینه‌سازی تجربه کاربری و سرعت بارگذاری صفحات

رفع باگ‌ها و نگهداری کد موجود

همکاری در طراحی ماژول‌های جدید و ارائه پیشنهادهای بهبود

🔥 مزایا:

حقوق منصفانه

انعطاف در زمان‌بندی و محل کار

فرصت یادگیری و رشد فردی


📌 نوع همکاری:
تمام وقت

📰 ارسال رزومه:
📩 t.me/goftaai_admin

📍 محل فعالیت:
تهران یا دورکاری

#فرصت_شغلی

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
بعد از برگزاری المپیاد ریاضی آمریکا در سال ۲۰۲۵، محقق‌ها سوالات آزمون رو به چند مدل زبانی پیشرفته که توانایی استدلال منطقی دارن، دادن تا ببینن چطور از پس حل مسائل برمیان. نتیجه اما خیلی غافلگیرکننده بود: هیچ‌کدوم از مدل‌ها نتونستن بیشتر از ۵ درصد نمره بگیرن.
این موضوع نشون می‌ده که عملکرد بالا و درخشان این مدل‌ها تو آزمون‌های دیگه، ممکنه بیشتر به خاطر شباهت سوال‌ها با دیتای آموزشی‌شون بوده باشه یا اینکه فقط تونستن به جواب درست برسن بدون اینکه واقعاً اثبات درستی ارائه بدن.

Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
🎯 آموزش مدل‌های هوش مصنوعی با داده‌هایی که اصلاً وجود خارجی ندارن!

💸 داده‌های واقعی هزینه‌بر، نامرتب، و اغلب درگیر مسائل محرمانگی هستن. همین باعث میشه آموزش و گسترش مدل‌های یادگیری ماشین سخت و گرون باشه.
راه‌حل؟ داده‌های مصنوعی!
برخلاف تصور، استفاده از داده مصنوعی خیلی گسترده‌تر از چیزیه که فکر می‌کنین:

📌 مدل‌های زبانی بزرگ (LLMs) از مدل‌های دیگه کمک می‌گیرن تا با داده مصنوعی خودشونو آموزش بدن.
📌 سیستم‌های تشخیص تقلب، تراکنش‌های شبیه‌سازی‌شده تولید می‌کنن تا بتونن موارد نادر و مرزی رو شناسایی کنن.
📌 مدل‌های بینایی کامپیوتری (Vision Models) اول با تصاویر مصنوعی آموزش می‌بینن و بعد روی داده‌های واقعی فاین‌تیون می‌شن.
🧠 حالا اگه شما هم بخواین با داده مصنوعی مدل بسازین، یه ابزار فوق‌العاده به اسم SDV هست که این کارو براتون انجام می‌ده.

https://github.com/sdv-dev/SDV

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
🧠 الگوهای طراحی هوش مصنوعی عاملی (Agentic AI):

این الگوها به مدل‌های زبانی بزرگ (LLMs) کمک می‌کنند تا وظایف را به‌صورت مرحله‌به‌مرحله و با خودمختاری بیشتر انجام دهند.

🔹 بازتاب (Reflection): مدل پاسخ خود را بررسی و اصلاح می‌کند.

🔹 استفاده از ابزار (Tool Use): مدل با ابزارهای خارجی مانند توابع پایتون یا پایگاه‌های داده تعامل دارد.

🔹 برنامه‌ریزی (Planning): مدل وظایف پیچیده را به مراحل کوچکتر تقسیم می‌کند.

🔹 چندعاملی (Multi-Agent): چندین عامل با نقش‌های مختلف برای رسیدن به هدفی مشترک همکاری می‌کنند.

این الگوها به توسعه سیستم‌های هوش مصنوعی پیشرفته‌تر و مستقل‌تر کمک می‌کنند.

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
این مقاله به بررسی عملکرد درخواست‌ها (Prompts) در تولید تصویر با متن می‌پردازد؛ حوزه‌ای که اخیراً با ظهور مدل‌های تولیدگر مانند diffusion models محبوب شده است. برخلاف بازیابی تصویر با متن، که در آن پیش‌بینی عملکرد درخواست‌ها موضوعی فعال در پژوهش است، تاکنون مطالعه‌ای دربارهٔ دشواری درخواست‌ها در تولید تصویر (براساس قضاوت انسانی) وجود نداشته است.

🔹 برای این منظور، نویسندگان اولین دیتاست حاوی درخواست‌هایی با برچسب‌های انسانی از نظر کیفیت تولید تصویر ارائه داده‌اند. آن‌ها همچنین این برچسب‌گذاری را به حوزهٔ بازیابی تصویر نیز گسترش داده‌اند.

🔹 در نتیجه، نخستین بنچمارک مشترک PQPP (Prompt/Query Performance Prediction) برای هر دو وظیفه ساخته شده که شامل بیش از ۱۰٬۰۰۰ درخواست است.


https://arxiv.org/abs/2406.04746

Code: https://github.com/Eduard6421/PQPP?tab=readme-ov-file#dataset-overview

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
Deep Reinforcement Learning in Action.pdf
14.9 MB
Deep Reinforcement Learning in Action

اگه دنبال یه منبع قابل اعتماد برای یادگیری عمیق‌ترین مفاهیم یادگیری تقویتی هستی، این جزوه دقیقاً همون چیزیه که نیاز داری. نه فقط مبانی رو به زبونی ساده و مفهومی توضیح می‌ده، بلکه قدم‌به‌قدم نشونت می‌ده چطور این مفاهیم رو وارد کد و پروژه‌های واقعی کنی. از درک شهودی الگوریتم‌ها گرفته تا پیاده‌سازی عملی، با این جزوه وارد مسیر حرفه‌ای یادگیری تقویتی می‌شی.

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer
Media is too big
VIEW IN TELEGRAM
«غریزه» فیلم کوتاه درخشان، دقیق و بی نقصی است که با AI ساخته شده و پیامی بسیار جذاب و چندلایه دارد؛
"آیا تمدن واقعاً پیشرفت است یا فقط یک تله دیگر؟"

این فیلم کاملا نشان داد که زین پس فقط درک سینما کافیست تا ابرپروژها چندمیلیون دلاری را با بودجه 0 بسازید.

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer