در لینک زیر، اسلاید نسخه ی اولیه ی پروژه ی نمایه گذاری یک موتور جستجو آپلود شده است. 
این اسلایدها در تاریخ 28 آذر سال 1395 ارائه داده شده است. 
 
https://drive.google.com/open?id=0By76UK9RcZWDSzZ2VWNwYmoxZEU
پروژه ی درس موتورهای جستجو و وب کاوی در مورد راه اندازی یک موتور جستجو است. یک موتور جستجو از بخش های مختلفی تشکیل شده است، از جمله Crawler، Indexing، Ranking،Query،  سیستم های پیشنهاد دهنده.  هر کدام از این بخش ها به گروه های مختلف واگذار شده اند. پروژه ی مورد بررسی ما بخش نمایه گذاری یا همان Indexing است. 
نمایه گذاری در موتورهای جستجو به عنوان مهم ترین رکن موتور جستجو است و عدم کارکرد صحیح آن منجر به کارایی ضعیف موتور جستجو می شود. 
 در لینکی که در ادامه گذاشته شده است، شما می توانید جزییات مربوط به سمینار نمایه گذاری را ملاحظه فرمایید.
در این سمینار مطالب مختلفی از جمله نمایه گذاری پویا، نمایه گذاری معنایی، نمایه گذاری اسناد و پرس و جو های چند زبانه، نمایه گذاری به روش NGram، نمایه گذاری Context، نمایه گذاری Big Data، نمایه گذاری اسناد ویدیویی و برخی دیگر از رو های نمایه گذاری پوشش داده شده اند. 
https://drive.google.com/open?id=0By76UK9RcZWDU1Z2aU1VVjBTOTg

نمایه گذاری پویای توزیع شده:

یکی از روش های نمایه گذاری، نمایه گذاری به صورت پویا است . می دانیم که بعد از انجام عمل Crawling و نمایه­ گذاری، به منابع کامپیوتری زیادی برای ذخیره­ کردن فایل­های crawlشده نیاز داریم. نمایه ­گذاری در واقع بین Crawling و جستجوکردن قرار دارد. نمایه ­گذاری به پردازش زیاد و منابع زیادی احتیاج دارد و تاثیر بسیار زیادی بر روی کارایی موتور جستجو دارد. با به کار گیری توزیع پردازش پرس ­ و جو بر روی کامپیوترهایی در فضای grid، و توزیع اطلاعات نمایه گذاری شده بر روی حافظه­ های توزیع­ شده، کارایی موتور جستجو افزایش می­ یابد. بنابراین ترکیب نمایه­ گذاری پویا و نمایه­ گذاری توزیع­ شده کارایی موتورهای جستجو را بدون نیاز به منابع محاسباتی زیاد، افزایش می ­دهد.

نمایه­ گذاری در واقع بر روی خروجی­ های خزنده کار می­ کند و هرچه کارآمدتر باشد، نتیجه ی پرس ­ و جو بهتر می­ شود. در واقع کارآمد بودن فرآیند نمایه­ گذاری بر روی زمان جستجوی کاربر و مشاهده­ ی نتایج تاثیر می­ گذارد. این متد بر روی مسئله­ ی پویا بودن موتور جستجو و مسئله­ ی پردازش توزیع­ شده تمرکز دارد. پویا بودن به این منظور است که اطلاعات صفحات وب در هر لحظه در حال تغییر هستند. مسئله­ ی دوم، پردازش داده­ های مجموعه­ های بزرگ وب را شامل می­شود که صفحات نمایه­ گذاری شده­ی وب نزدیک به 11.5 بیلیون صفحه است.

نمایه­ گذاری پویا می­ تواند از طریق قراردادن یک نمایه ی دیگر در کنار نمایه­ ی اصلی به کار رود. نمایه­ ی اصلی اطلاعات نمایه­ ی کلی را شامل می­شود که قبل از دریافت عملیات پرس­ و جو، جمع­ آوری و نمایه­ گذاری شده­ اند. نمایه­ ی دوم مسئول نمایه­ گذاری صفحاتی است که در هنگام عمل پرس­ و جو، Crawl شده­ اند، به صورتی که این صفحات می­ توانند جدید باشند و یا اینکه وجود داشته­ اند ولی به­ روزرسانی شده­ اند. بنابراین نمایه­ ی دوم این صفحات را نمایه­ گذاری می­ کند و به طور موقت درون خودش ذخیره می­ کند. وقتی که اطلاعات نمایه­ ی دوم به حد آستانه­ اش رسید، اطلاعاتش را با نمایه­ ی اول ادغام می­ کند. وقتی پرس­ و جویی انجام می­ شود، این پرس­ و جو در واقع به هر دو نمایه ارسال می­ شود و سپس اطلاعات هر دوی آن­ ها برای نمایش­ دادن خروجی بهتر، ادغام می­ شوند. شکل زیر این فرآیند را نشان می­ دهد.

 

 

 در سیستم توزیع­ شده، تعدادی کامپیوتر داریم که به طور همزمان کار می­ کنند و یک کامپیوتر مدیر داریم که فعالیت­ های آن­ها را مدیریت می­ کند. هر کامپیوتر اطلاعاتی را که کامپیوتر مدیر فرستاده است را دریافت می­کند و لیست معکوس آن را تولید می­کند و آن را به کامپیوتر اصلی برمی گرداند. این کار باعث موازات در عمل نمایه­ گذاری اطلاعات می­ شود. به طریق مشابه اطلاعات از کامپیوتر مدیر برای کامپیوترهای دیگر بر اساس واژگان ارسال می­ شود و آن کامپیوترها اطلاعات جدید را با اطلاعات فعلی ادغام می­ کنند که این کار باعث توزیع بار محاسباتی می­شود. برای این عملیات از Grid Computing استفاده می ­شود.

 

منبع: مقاله ی  Dynamic and Distributed Indexing Architecture in Search Engine using Grid Computing 

در یک سیستم بازیابی متن توزیع­ شده­ با معماری shared-nothing ، پرس ­و جو­ها در سرتاسر یک شاخص بازیابی که در میان تعدادی از سرویس­ دهنده­ های شاخص تقسیم شده­ اند، پردازش می­ شوند. در عمل، یک شاخص یا به صورت سند و یا به صورت واژه  تقسیم می­ شود. این انتخاب به ویژگی­ های زیرساخت­ های سخت­ افزاری، توزیع ترافیک پرس­ و­ جو و محدودیت­ هایی مانند در دسترس­ بودن و کارایی بستگی دارد. در پردازش پرس­ و­ جو در یک سیستم بازیابی که یک سیستم پارتیشن­ بندی شاخص بر اساس واژه را اتخاذ می­ کند، سربار ارتباطی بالا با توجه به انتقال مقادیر زیادی از داده از سرورهای شاخص، یک تنگنای عملکرد اصلی را که مقیاس­ پذیری کل سیستم بازیابی توزیع­ شده را  به صورت تدریجی خراب می­ کند، شکل می­ دهد. در این کار برای کاهش این مشکل، ما یک مدل جدید برای  بازیابی پارتیشن­ بندی شاخص ارایه می­ دهیم که متکی بر پارتیشن­ بندی ابرگراف است. در مدل ارایه­ شده، مستندات شاخص در دسترس به طور همزمان بر اساس الگوهای دسترسی شاخص که از لاگ­ های پرس­ و جوهای قبلی استخراج شده­ اند، معین شده­ اند. هدف این مدل به حداقل رساندن سربار ارتباطات است که بر اساس پرس­ و­ جوهای آینده به وجود می­ آیند. این درحالی است که همزمان تعادل بار محاسباتی در میان سرویس­ دهنده­ های شاخص حفظ می­ شود. ما عملکرد مدل ارایه شده را از طریق آزمایش­ های گسترده با استفاده از یک مجموعه متن زندگی واقعی و یک نمونه پرس­ و­ جوی جستجو ارزیابی کرده­ ایم. نتایج ما نشان می­ دهد که عملکرد قابل­ توجهی می­ تواند نسبت به استراتژی پارتیشن­ بندی شاخص مبتنی بر واژه  به دست آید. با این حال در اغلب موارد کارایی پارتیشن­ بندی بر اساس سند پایین ­تر است.

منبع: مقاله ی A Term-Based Inverted Index Partitioning Model for Efficient Distributed Query Processing