روش كار موتور جستجو

| | ارسال نظر | بازتاب (0) | قبلي

وقتي جستجويي در يك موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، كاربران در واقع نتيجه كار بخش هاي متفاوت موتور جستجوگر را مي بينند. موتور جستجوگر قبلا” پايگاه داده اش را آماده كرده است و اين گونه نيست كه درست در همان لحظه جستجو، تمام وب را بگردد. بسياري از خود مي پرسند كه چگونه ممكن است گوگل در كمتر از يك ثانيه تمام سايت هاي وب را بگردد و ميليون ها صفحه را در نتايج جستجوي خود ارايه كند؟

گوگل و هيچ موتور جستجوگر ديگري توانايي انجام اين كار را ندارند. همه آنها در زمان پاسخ گويي به جستجوهاي كاربران، تنها در پايگاه داده اي كه در اختيار دارند به جستجو مي پردازند و نه در وب! موتور جستجوگر به كمك بخش هاي متفاوت خود، اطلاعات مورد نياز را قبلا” جمع آوري، تجزيه و تحليل مي كند، آنرا در پايگاه داده اش ذخيره مي نمايد و به هنگام جستجوي كاربر تنها در همين پايگاه داده مي گردد. بخش هاي مجزاي يك موتور جستجوگر عبارتند از:

*
Spider يا عنكبوت
*
Crawler يا خزنده
*
Indexer يا بايگاني كننده
*
Database يا پايگاه داده
*
Ranker يا سيستم رتبه بندي

الف
Spider- (عنكبوت)
اسپايدر يا روبوت (Robot)، نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. اسپايدر به صفحات مختلف سر مي زند، محتواي آنها را مي خواند، لينكها را دنبال مي كند، اطلاعات مورد نياز را جمع آوري مي كند و آنرا در اختيار ساير بخش هاي موتور جستجوگر قرار مي دهد. كار يك اسپايدر، بسيار شبيه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازديد مي كنند، اسپايدر هم درست اين كار را انجام مي دهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را مي بيند اما كاربران نتيجه حاصل از كنار هم قرار گرفتن 
اين كدها را. index.html صفحه اي است كه كاربران آنرا مي بينند:

اما يك اسپايدر آنرا چگونه مي بيند؟
براي اين كه شما هم بتوانيد دنياي وب را از ديدگاه يك اسپايدر ببينيد، كافي است كه كدهاي HTML صفحات را مشاهده كنيد. براي اين كار در مرورگر مورد استفاده خود، مسير نشان داده شده در شكل (۲) دنبال كنيد.

آيا اين دنياي متني براي شما جذاب است؟

اسپايدر، به هنگام مشاهده صفحات، بر روي سرورها رد پا برجاي مي گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يك سايت و اتفاقات انجام شده در آن را داشته باشيد، مي توانيد مشخص كنيد كه اسپايدر كدام يك از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده است. يكي از فعاليتهاي اصلي كه در SEM انجام مي شود تحليل آمار همين ديد و بازديدها است.

اسپايدرها كاربردهاي ديگري نيز دارند، به عنوان مثال عده اي از آنها به سايت هاي مختلف مراجعه مي كنند و فقط به بررسي فعال بودن لينك هاي آنها مي پردازند و يا به دنبال آدرس ايميل (Email) مي گردند.

ب- Crawler (خزنده)
كراولر، نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي كند. آن مشخص مي كند كه اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع كراولر تصميم مي گيرد كه كدام يك از لينك هاي صفحه اي كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضي ها را دنبال كند و يا هيچ كدام را دنبال نكند.

كراولر، ممكن است قبلا” برنامه ريزي شده باشد كه آدرس هاي خاصي را طبق برنامه، در اختيار اسپايدر قرار دهد تا از آنها ديدن كند. دنبال كردن لينك هاي يك صفحه به اين بستگي دارد كه موتور جستجوگر چه حجمي از اطلاعات يك سايت را مي تواند (مي خواهد) در پايگاه داده اش ذخيره كند. همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.

شما به عنوان دارنده سايت، همان طور كه دوست داريد موتورهاي جستجوگر اطلاعات سايت شما را با خود ببرند، مي توانيد آنها را از بعضي صفحات سايت تان دور كنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. موتور جستجو اگر مودب باشد قبل از ورود به هر سايتي ابتدا قوانين دسترسي به محتواي سايت را (در صورت وجود) در فايلي خاص بررسي مي كند و از حقوق دسترسي خود اطلاع مي يابد. تنظيم ميزان دسترسي موتورهاي جستجوگر به محتواي يك سايت توسط پروتكل Robots انجام مي شود. به عمل كراولر ، خزش (Crawling) مي گويند.

ج- Indexer (بايگاني كننده)
تمام اطلاعات جمع آوري شده توسط اسپايدر در اختيار ايندكسر قرار مي گيرد. در اين بخش اطلاعات ارسالي مورد تجزيه و تحليل قرار مي گيرند و به بخش هاي متفاوتي تقسيم مي شوند. تجزيه و تحليل بدين معني است كه مشخص مي شود اطلاعات از كدام صفحه ارسال شده است، چه حجمي دارد، كلمات موجود در آن كدامند، كلمات چندبار تكرار شده اند، كلمات در كجاي صفحه قرار دارند و … .

در حقيقت ايندكسر، صفحه را به پارامترهاي آن خرد مي كند و تمام اين پارامترها را به يك مقياس عددي تبديل مي كند تا سيستم رتبه بندي بتواند پارامترهاي صفحات مختلف را با هم مقايسه كند. در زمان تجزيه و تحليل اطلاعات، ايندكسر براي كاهش حجم داده ها از بعضي كلمات كه بسيار رايج هستند صرفنظر مي كند. كلماتي نظير a ، an ، the ، www ، is و … . از اين گونه كلمات هستند.

د - DataBase (پايگاه داده)
تمام داده هاي تجزيه و تحليل شده در ايندكسر، به پايگاه داده ارسال مي گردد. در اين بخش داده ها گروه بندي، كدگذاري و ذخيره مي شود. همچنين داده ها قبل از آنكه ذخيره شوند، طبق تكنيكهاي خاصي فشرده مي شوند تا حجم كمي از پايگاه داده را اشغال كنند. يك موتور جستجوگر بايد پايگاده داده عظيمي داشته باشد و به طور مداوم حجم محتواي آنرا گسترش دهد و البته اطلاعات قديمي را هم به روز رساني نمايد. بزرگي و به روز بودن پايگاه داده يك موتور جستجوگر براي آن امتياز محسوب مي گردد. يكي از تفاوتهاي اصلي موتورهاي جستجوگر در حجم پايگاه داده آنها و همچنين روش ذخيره سازي داده ها در پايگاه داده است.

و- Ranker (سيستم رتبه بندي)
بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گويي به سوالات كاربران است. كاربران چند كلمه را در جعبه جستجوي (Search Box) آن وارد مي كنند و سپس با فشردن Enter منتظر پــاسخ مي مانند. براي پاسخگويي به درخواست كاربر، ابتدا تمام صفحات موجود در پايگاه داده كه به موضوع جستجو شده، مرتبط هستند، مشخص مي شوند. پس از آن سيستم رتبه بندي وارد عمل شده، آنها را از بيشترين ارتباط تا كمترين ارتباط مرتب مي كند و به عنوان نتايج جستجو به كاربر نمايش مي دهد.

حتي اگر موتور جستجوگر بهترين و كامل ترين پايگاه داده را داشته باشد اما نتواند پاسخ هاي مرتبطي را ارايه كند، يك موتور جستجوگر ضعيف خواهد بود. در حقيقت سيستم رتبه بندي قلب تپنده يك موتور جستجوگر است و تفاوت اصلي موتورهاي جستجوگر در اين بخش قرار دارد. سيستم رتبه بندي براي پاسخ گويي به سوالات كاربران، پارامترهاي بسياري را در نظر مي گيرد تا بتواند بهترين پاسخ ها را در اختيار آنها قرار دارد.

حرفه اي هاي دنياي SEM به طور خلاصه از آن به Algo ( الگوريتم) ياد مي كنند. الگوريتم، مجموعه اي از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر پارامترهاي صفحات موجود در پايگاه داده اش، تصميم مي گيرد كه صفحات مرتبط را چگونه در نتايج جستجو مرتب كند. در حال حاضر قدرتمندترين سيستم رتبه بندي را گوگل در اختيار دارد.

مي توان با ادغام كردن اسپايدر با كراولر و همچنين ايندكسر با پايگاه داده، موتور جستجوگر را شامل سه بخش زير دانست كه اين گونه تقسيم بندي هم درست مي باشد:

*
كراولر
*
بايگاني
*
سيستم رتبه بندي

تذكر- براي سهولت در بيان مطالب بعدي هر گاه صحبت از بايگاني كردن (شدن) به ميان مي آيد، مقصود اين است كه صفحه تجزيه و تحليل شده و به پايگاه داده موتور جستجوگر وارد مي شود.

براي آنكه تصور درستي از نحوه كار يك موتور جستجوگر داشته باشيد داستان نامتعارف زير را با هم بررسي مي كنيم. داستان ما يك شكارچي دارد. او تصميم به شكار مي گيرد:

- كار كراولر:
او قصد دارد براي شكار به منطقه حفاظت شده ابيورد، واقع در شهرستان درگز (شمالي ترين شهر خراسان بزرگ) برود.

- پروتكل Robots :
ابتدا تمام محدوديت هاي موجود براي شكار در اين منطقه را بررسي مي كند:

*
آيا در اين منطقه مي توان به شكار پرداخت؟
*
كدام حيوانات را مي توان شكار كرد؟
*
حداكثر تعداد شكار چه ميزاني است؟
*
و … .

فرض مي كنيم او مجوز شكار يك اوريال (نوعي آهو) را از شكارباني منطقه دريافت مي كند.

- كار اسپايدر
او اوريالي رعنا را شكار مي كند و سپس آنرا با خود به منزل مي برد.

- كار ايندكسر
شكار را تكه تكه كرده، گوشت، استخوان، دل و قلوه، كله پاچه و … آنرا بسته بندي مي كند و بخش هاي زايد شكار را دور مي ريزد.

- كار پايگاه داده
بسته هاي حاصل را درون فريزر قرار داده، ذخيره مي كند.

- كار سيستم رتبه بندي
مهمانان سراغ او مي آيند و همسرش بسته به ذائقه مهمانان براي آنها غذا طبخ مي كند. ممكن است عده اي كله پاچه، عده اي آبگوشت، عده اي … دوست داشته باشند. پخت غذا طبق سليقه مهمانان كار سختي است. ممكن است همه آنها آبگوشت بخواهند اما آنها مسلما” بامزه ترين آبگوشت را مي خواهند!

نكته ها:

*
شكارچي مي توانست براي شكار كبك يا اوريال و يا هر دو به آن منطقه برود همانطور كه موتور جستجوگر مي تواند از سرور سايت شما انواع فايل (عكس، فايل متني، فايل اجرايي و …) درخواست كند.
*
شكارچي مي تواند شب به شكار برود يا روز. موتور جستجوگر هم ممكن است شب به سايت شما مراجعه كند يا روز. بنابراين همواره مطمئن باشيد كه سايت شما آپ است و موتور جستجوگر مي تواند در آن به شكار فايلها بپردازد.
*
غذاي خوشمزه را مي توانيد با نتايج جستجوي دقيق و مرتبط مقايسه كنيد. اگر شكارچي بهترين شكار را با خود به منزل ببرد اما غذايي خوشمزه و مطابق سليقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
*
به عنوان آخرين نكته اين بخش ياد آوري مي كنم كه به شكار اوريالي رعنا آن هم در منطقه حفاظت شده ابيورد (پارك ملي تندوره) اصلا فكر نكنيد. اما توصيه مي شود كه حتما از طبيعت بكر آن ديدن فرماييد (بدون اسلحه!).

محققان(الهام بطحايي پور و رباب غفار زاده)

منبع: http://autoir.ir/page.php?id=196 

نظرات

ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage