18 December, 2016 18:52
14 December, 2016 10:03
23 November, 2016 11:02
مقاله: نمایه گذاری پویای توزیع شده
Categories : Search Engine and Web Mining(0) Comment | (0) Trackbacks
نمایه گذاری پویای توزیع شده:
یکی از روش های نمایه گذاری، نمایه گذاری به صورت پویا است . می دانیم که بعد از انجام عمل Crawling و نمایه گذاری، به منابع کامپیوتری زیادی برای ذخیره کردن فایلهای crawlشده نیاز داریم. نمایه گذاری در واقع بین Crawling و جستجوکردن قرار دارد. نمایه گذاری به پردازش زیاد و منابع زیادی احتیاج دارد و تاثیر بسیار زیادی بر روی کارایی موتور جستجو دارد. با به کار گیری توزیع پردازش پرس و جو بر روی کامپیوترهایی در فضای grid، و توزیع اطلاعات نمایه گذاری شده بر روی حافظه های توزیع شده، کارایی موتور جستجو افزایش می یابد. بنابراین ترکیب نمایه گذاری پویا و نمایه گذاری توزیع شده کارایی موتورهای جستجو را بدون نیاز به منابع محاسباتی زیاد، افزایش می دهد.
نمایه گذاری در واقع بر روی خروجی های خزنده کار می کند و هرچه کارآمدتر باشد، نتیجه ی پرس و جو بهتر می شود. در واقع کارآمد بودن فرآیند نمایه گذاری بر روی زمان جستجوی کاربر و مشاهده ی نتایج تاثیر می گذارد. این متد بر روی مسئله ی پویا بودن موتور جستجو و مسئله ی پردازش توزیع شده تمرکز دارد. پویا بودن به این منظور است که اطلاعات صفحات وب در هر لحظه در حال تغییر هستند. مسئله ی دوم، پردازش داده های مجموعه های بزرگ وب را شامل میشود که صفحات نمایه گذاری شدهی وب نزدیک به 11.5 بیلیون صفحه است.
نمایه گذاری پویا می تواند از طریق قراردادن یک نمایه ی
دیگر در کنار نمایه ی اصلی به کار رود. نمایه ی اصلی اطلاعات نمایه ی کلی را شامل
میشود که قبل از دریافت عملیات پرس و جو، جمع آوری و نمایه گذاری شده اند. نمایه ی
دوم مسئول نمایه گذاری صفحاتی است که در هنگام عمل پرس و جو، Crawl شده اند، به
صورتی که این صفحات می توانند جدید باشند و یا اینکه وجود داشته اند ولی به روزرسانی
شده اند. بنابراین نمایه ی دوم این صفحات را نمایه گذاری می کند و به طور موقت
درون خودش ذخیره می کند. وقتی که اطلاعات نمایه ی دوم به حد آستانه اش رسید،
اطلاعاتش را با نمایه ی اول ادغام می کند. وقتی پرس و جویی انجام می شود، این پرس و جو
در واقع به هر دو نمایه ارسال می شود و سپس اطلاعات هر دوی آن ها برای نمایش دادن
خروجی بهتر، ادغام می شوند. شکل زیر این فرآیند را نشان می دهد.

در سیستم توزیع شده، تعدادی کامپیوتر داریم که به طور همزمان کار می کنند و یک کامپیوتر مدیر داریم که فعالیت های آنها را مدیریت می کند. هر کامپیوتر اطلاعاتی را که کامپیوتر مدیر فرستاده است را دریافت میکند و لیست معکوس آن را تولید میکند و آن را به کامپیوتر اصلی برمی گرداند. این کار باعث موازات در عمل نمایه گذاری اطلاعات می شود. به طریق مشابه اطلاعات از کامپیوتر مدیر برای کامپیوترهای دیگر بر اساس واژگان ارسال می شود و آن کامپیوترها اطلاعات جدید را با اطلاعات فعلی ادغام می کنند که این کار باعث توزیع بار محاسباتی میشود. برای این عملیات از Grid Computing استفاده می شود.
منبع: مقاله ی Dynamic and Distributed Indexing Architecture in Search Engine using Grid Computing
23 November, 2016 10:46
ترجمه ی مقاله: مدل پارتیشن بندی معکوس شاخص مبتنی بر واژگان برای پردازش پرس و جوهای توزیع شده ی کارآمد
Categories : Search Engine and Web Mining(0) Comment | (0) Trackbacks
در یک سیستم بازیابی متن توزیع شده با معماری shared-nothing ، پرس و جوها در سرتاسر یک شاخص بازیابی که در میان تعدادی از سرویس دهنده های شاخص تقسیم شده اند، پردازش می شوند. در عمل، یک شاخص یا به صورت سند و یا به صورت واژه تقسیم می شود. این انتخاب به ویژگی های زیرساخت های سخت افزاری، توزیع ترافیک پرس و جو و محدودیت هایی مانند در دسترس بودن و کارایی بستگی دارد. در پردازش پرس و جو در یک سیستم بازیابی که یک سیستم پارتیشن بندی شاخص بر اساس واژه را اتخاذ می کند، سربار ارتباطی بالا با توجه به انتقال مقادیر زیادی از داده از سرورهای شاخص، یک تنگنای عملکرد اصلی را که مقیاس پذیری کل سیستم بازیابی توزیع شده را به صورت تدریجی خراب می کند، شکل می دهد. در این کار برای کاهش این مشکل، ما یک مدل جدید برای بازیابی پارتیشن بندی شاخص ارایه می دهیم که متکی بر پارتیشن بندی ابرگراف است. در مدل ارایه شده، مستندات شاخص در دسترس به طور همزمان بر اساس الگوهای دسترسی شاخص که از لاگ های پرس و جوهای قبلی استخراج شده اند، معین شده اند. هدف این مدل به حداقل رساندن سربار ارتباطات است که بر اساس پرس و جوهای آینده به وجود می آیند. این درحالی است که همزمان تعادل بار محاسباتی در میان سرویس دهنده های شاخص حفظ می شود. ما عملکرد مدل ارایه شده را از طریق آزمایش های گسترده با استفاده از یک مجموعه متن زندگی واقعی و یک نمونه پرس و جوی جستجو ارزیابی کرده ایم. نتایج ما نشان می دهد که عملکرد قابل توجهی می تواند نسبت به استراتژی پارتیشن بندی شاخص مبتنی بر واژه به دست آید. با این حال در اغلب موارد کارایی پارتیشن بندی بر اساس سند پایین تر است.
منبع: مقاله ی A Term-Based Inverted Index Partitioning Model for Efficient Distributed Query Processing
13 October, 2016 10:26