🦎خزنده وب یا crawler چیه؟
برای معنی crawler داخل فارسی میتونیم از خزنده وب استفاده کنیم ولی خب کلمه انگلیسی اون درست و تخصصی تره حالا بگذریم. web crawler ها در واقع بخش اصلی و مرکزی یک موتور جستجو و تشکیل میدن. در واقع به زبان ساده، یک نرم افزار یا اسکریپت اتوماتیکه که با توجه به الگوریتم مشخص و هدفمند انواع موتورهای جستجو که براش تعریف شده، تو وب سایت های موجود میگردن و محتوای اونا رو داخل دیتابیس موتور جستجو یا همون سرچ انجین ذخیره می کنن.
هر کراولر سایت از الگوریتم و معماری منحصر به فرد و کاملا مخفی تشکیل شده. اسامی مختلفی برای کراولر در نظر گرفته شده و معروفترینشون اینا هستن : Web Spider, Automatic Indexer, Web Robots یا نرم افزار FOAF.
🕸 یک وب کراولر چجوری کار می کنه؟
امروزه سرچ انجین های زیادی وجود دارن مثل Google، Bing، Yahoo!، DuckDuckGo، Baidu، Yandex و ... که هر کدوم از این انجین ها، کراولر مخصوص به خودشونو برای نمایه بندی صفحات به کار میگیرن.
این ربات ها، فرایند crawling رو از محبوب ترین وبسایت ها شروع می کنن. هدف اول ربات های وب، اینه که مفهوم اصلی محتوای هر صفحه رو منتقل کنن. از این رو، ربات های وب، کلمات این صفحه هارو سرچ می کنن. و یک لیست کاربردی از این کلمات تهیه می کنن. این لیست، دفعه بعد که قصد میکنید اطلاعاتی راجع به درخواست ها و پرسش هاتون پیدا کنید، توسط سرچ انجین مورد استفاده قرار می گیره.
تمام صفحات موجود در اینترنت، توسط (hyperlinks) به یکدیگر متصل هستن. بنابراین، ربات های کراولر، میتونن این لینک ها رو کشف کرده و اونارو تا صفحات بعدی دنبال کنن. ربات های وب، تنها زمانی متوقف میشن که محل تمامی مطالب و وبسایت های متصل به هم رو پیدا کنن. و بعد، اطلاعات ثبت شده رو برای نمایه جستجو میفرستن که بر روی سرورهای سراسر دنیا ذخیره شده. تمامی این فرایند، شبیه به یک تار عنکبوت واقعیه که در اون همه چیز در هم تنیده شده.
فرایند کراولینگ، بلافاصله بعد از این که صفحات، نمایه بندی شدن، متوقف نمیشه. موتور های جستجو به صورت متناوب، از کراولر های وب استفاده می کنن تا متوجه شن آیا تغییری تو صفحات ایجاد شده یا نه. اگر تغییری رخ داده باشه، نمایه تولید شده توسط موتور جستجو، بر اساس اون بروزرسانی میشه.
#searchengin #browser
@CodeModule
برای معنی crawler داخل فارسی میتونیم از خزنده وب استفاده کنیم ولی خب کلمه انگلیسی اون درست و تخصصی تره حالا بگذریم. web crawler ها در واقع بخش اصلی و مرکزی یک موتور جستجو و تشکیل میدن. در واقع به زبان ساده، یک نرم افزار یا اسکریپت اتوماتیکه که با توجه به الگوریتم مشخص و هدفمند انواع موتورهای جستجو که براش تعریف شده، تو وب سایت های موجود میگردن و محتوای اونا رو داخل دیتابیس موتور جستجو یا همون سرچ انجین ذخیره می کنن.
هر کراولر سایت از الگوریتم و معماری منحصر به فرد و کاملا مخفی تشکیل شده. اسامی مختلفی برای کراولر در نظر گرفته شده و معروفترینشون اینا هستن : Web Spider, Automatic Indexer, Web Robots یا نرم افزار FOAF.
🕸 یک وب کراولر چجوری کار می کنه؟
امروزه سرچ انجین های زیادی وجود دارن مثل Google، Bing، Yahoo!، DuckDuckGo، Baidu، Yandex و ... که هر کدوم از این انجین ها، کراولر مخصوص به خودشونو برای نمایه بندی صفحات به کار میگیرن.
این ربات ها، فرایند crawling رو از محبوب ترین وبسایت ها شروع می کنن. هدف اول ربات های وب، اینه که مفهوم اصلی محتوای هر صفحه رو منتقل کنن. از این رو، ربات های وب، کلمات این صفحه هارو سرچ می کنن. و یک لیست کاربردی از این کلمات تهیه می کنن. این لیست، دفعه بعد که قصد میکنید اطلاعاتی راجع به درخواست ها و پرسش هاتون پیدا کنید، توسط سرچ انجین مورد استفاده قرار می گیره.
تمام صفحات موجود در اینترنت، توسط (hyperlinks) به یکدیگر متصل هستن. بنابراین، ربات های کراولر، میتونن این لینک ها رو کشف کرده و اونارو تا صفحات بعدی دنبال کنن. ربات های وب، تنها زمانی متوقف میشن که محل تمامی مطالب و وبسایت های متصل به هم رو پیدا کنن. و بعد، اطلاعات ثبت شده رو برای نمایه جستجو میفرستن که بر روی سرورهای سراسر دنیا ذخیره شده. تمامی این فرایند، شبیه به یک تار عنکبوت واقعیه که در اون همه چیز در هم تنیده شده.
فرایند کراولینگ، بلافاصله بعد از این که صفحات، نمایه بندی شدن، متوقف نمیشه. موتور های جستجو به صورت متناوب، از کراولر های وب استفاده می کنن تا متوجه شن آیا تغییری تو صفحات ایجاد شده یا نه. اگر تغییری رخ داده باشه، نمایه تولید شده توسط موتور جستجو، بر اساس اون بروزرسانی میشه.
#searchengin #browser
@CodeModule
🔥7⚡4👌2