نمایه گذاری پویای توزیع شده:

یکی از روش های نمایه گذاری، نمایه گذاری به صورت پویا است . می دانیم که بعد از انجام عمل Crawling و نمایه­ گذاری، به منابع کامپیوتری زیادی برای ذخیره­ کردن فایل­های crawlشده نیاز داریم. نمایه ­گذاری در واقع بین Crawling و جستجوکردن قرار دارد. نمایه ­گذاری به پردازش زیاد و منابع زیادی احتیاج دارد و تاثیر بسیار زیادی بر روی کارایی موتور جستجو دارد. با به کار گیری توزیع پردازش پرس ­ و جو بر روی کامپیوترهایی در فضای grid، و توزیع اطلاعات نمایه گذاری شده بر روی حافظه­ های توزیع­ شده، کارایی موتور جستجو افزایش می­ یابد. بنابراین ترکیب نمایه­ گذاری پویا و نمایه­ گذاری توزیع­ شده کارایی موتورهای جستجو را بدون نیاز به منابع محاسباتی زیاد، افزایش می ­دهد.

نمایه­ گذاری در واقع بر روی خروجی­ های خزنده کار می­ کند و هرچه کارآمدتر باشد، نتیجه ی پرس ­ و جو بهتر می­ شود. در واقع کارآمد بودن فرآیند نمایه­ گذاری بر روی زمان جستجوی کاربر و مشاهده­ ی نتایج تاثیر می­ گذارد. این متد بر روی مسئله­ ی پویا بودن موتور جستجو و مسئله­ ی پردازش توزیع­ شده تمرکز دارد. پویا بودن به این منظور است که اطلاعات صفحات وب در هر لحظه در حال تغییر هستند. مسئله­ ی دوم، پردازش داده­ های مجموعه­ های بزرگ وب را شامل می­شود که صفحات نمایه­ گذاری شده­ی وب نزدیک به 11.5 بیلیون صفحه است.

نمایه­ گذاری پویا می­ تواند از طریق قراردادن یک نمایه ی دیگر در کنار نمایه­ ی اصلی به کار رود. نمایه­ ی اصلی اطلاعات نمایه­ ی کلی را شامل می­شود که قبل از دریافت عملیات پرس­ و جو، جمع­ آوری و نمایه­ گذاری شده­ اند. نمایه­ ی دوم مسئول نمایه­ گذاری صفحاتی است که در هنگام عمل پرس­ و جو، Crawl شده­ اند، به صورتی که این صفحات می­ توانند جدید باشند و یا اینکه وجود داشته­ اند ولی به­ روزرسانی شده­ اند. بنابراین نمایه­ ی دوم این صفحات را نمایه­ گذاری می­ کند و به طور موقت درون خودش ذخیره می­ کند. وقتی که اطلاعات نمایه­ ی دوم به حد آستانه­ اش رسید، اطلاعاتش را با نمایه­ ی اول ادغام می­ کند. وقتی پرس­ و جویی انجام می­ شود، این پرس­ و جو در واقع به هر دو نمایه ارسال می­ شود و سپس اطلاعات هر دوی آن­ ها برای نمایش­ دادن خروجی بهتر، ادغام می­ شوند. شکل زیر این فرآیند را نشان می­ دهد.

 

 

 در سیستم توزیع­ شده، تعدادی کامپیوتر داریم که به طور همزمان کار می­ کنند و یک کامپیوتر مدیر داریم که فعالیت­ های آن­ها را مدیریت می­ کند. هر کامپیوتر اطلاعاتی را که کامپیوتر مدیر فرستاده است را دریافت می­کند و لیست معکوس آن را تولید می­کند و آن را به کامپیوتر اصلی برمی گرداند. این کار باعث موازات در عمل نمایه­ گذاری اطلاعات می­ شود. به طریق مشابه اطلاعات از کامپیوتر مدیر برای کامپیوترهای دیگر بر اساس واژگان ارسال می­ شود و آن کامپیوترها اطلاعات جدید را با اطلاعات فعلی ادغام می­ کنند که این کار باعث توزیع بار محاسباتی می­شود. برای این عملیات از Grid Computing استفاده می ­شود.

 

منبع: مقاله ی  Dynamic and Distributed Indexing Architecture in Search Engine using Grid Computing 

در یک سیستم بازیابی متن توزیع­ شده­ با معماری shared-nothing ، پرس ­و جو­ها در سرتاسر یک شاخص بازیابی که در میان تعدادی از سرویس­ دهنده­ های شاخص تقسیم شده­ اند، پردازش می­ شوند. در عمل، یک شاخص یا به صورت سند و یا به صورت واژه  تقسیم می­ شود. این انتخاب به ویژگی­ های زیرساخت­ های سخت­ افزاری، توزیع ترافیک پرس­ و­ جو و محدودیت­ هایی مانند در دسترس­ بودن و کارایی بستگی دارد. در پردازش پرس­ و­ جو در یک سیستم بازیابی که یک سیستم پارتیشن­ بندی شاخص بر اساس واژه را اتخاذ می­ کند، سربار ارتباطی بالا با توجه به انتقال مقادیر زیادی از داده از سرورهای شاخص، یک تنگنای عملکرد اصلی را که مقیاس­ پذیری کل سیستم بازیابی توزیع­ شده را  به صورت تدریجی خراب می­ کند، شکل می­ دهد. در این کار برای کاهش این مشکل، ما یک مدل جدید برای  بازیابی پارتیشن­ بندی شاخص ارایه می­ دهیم که متکی بر پارتیشن­ بندی ابرگراف است. در مدل ارایه­ شده، مستندات شاخص در دسترس به طور همزمان بر اساس الگوهای دسترسی شاخص که از لاگ­ های پرس­ و جوهای قبلی استخراج شده­ اند، معین شده­ اند. هدف این مدل به حداقل رساندن سربار ارتباطات است که بر اساس پرس­ و­ جوهای آینده به وجود می­ آیند. این درحالی است که همزمان تعادل بار محاسباتی در میان سرویس­ دهنده­ های شاخص حفظ می­ شود. ما عملکرد مدل ارایه شده را از طریق آزمایش­ های گسترده با استفاده از یک مجموعه متن زندگی واقعی و یک نمونه پرس­ و­ جوی جستجو ارزیابی کرده­ ایم. نتایج ما نشان می­ دهد که عملکرد قابل­ توجهی می­ تواند نسبت به استراتژی پارتیشن­ بندی شاخص مبتنی بر واژه  به دست آید. با این حال در اغلب موارد کارایی پارتیشن­ بندی بر اساس سند پایین ­تر است.

منبع: مقاله ی A Term-Based Inverted Index Partitioning Model for Efficient Distributed Query Processing