شاخص گذاری در داده های حجیم

Published on 06/17,2017

در این پست می‌خواهم در مورد ارائه ای که در کلاس درباره شاخص گذاری در داده‌های حجیم انجام دادم صحبت کنم
در ابتدای این ارائه مفاهیمی که در مورد کار با داده های حجیم باید می‌دانستیم ارائه شد از جمله مفاهیمی چون Hadoop ، برنامه نویسی نگاشت و کاهش ، hbase و ....
برنامه نویسی نگاشت و کاهش : یک مدل برنامه نویسی است که برای کار با داده‌های حجیم استفاده می‌شود که تعدادی key و value می‌گیرد و پس از پردازش بر روی آن‌ها خروجی به‌صورت <key,value>  تولید می‌کند.
Hadoop : بستری است که برای برنامه نویسی نگاشت و کاهش استفاده می شود .
Hbase : جدولی است که برای دسترسی سریع به داده ها از آن استفاده می‌کنیم .
پس از آن چند مدل شاخص گذاری در داده‌های حجیم ارائه شد از جمله شاخص گذاری مبتنی بر predicate‌های مشترک ،شاخص‌گذاری های مبتنی بر گره‌های برچسب گذاریشاخص گذاری یکپارچه،شاخص گذاری مبتنی بر بخش بندی بر اساس predicate سپس با استفاده از گرفتن ایده از روش اول ، روش جدیدی ارائه شد که آن را پیاده سازی کرده اند .
این روش از سه قسمت استخراج ساختار از داده ، ذخیره داده و بازیابی داده تشکیل شده است .
در قسمت استخراج ساختار از داده با استفاده از روشی RDFهای موجود را خوشه بندی می‌کنیم و هر خوشه را در یک جدول Hbase  نگه می‌داریم .
در قسمت ذخیره داده : الگوهای موجودیت‌های موجود در اسناد را درآورده و آن‌ها را در شبیه‌ترین خوشه قرار می‌دهیم .
در قسمت بازیابی داده : پرس و جو را دریافت کرده ، الگوی آن را پیدا کرده و پاسخ را به کاربر برمی‌گردانیم .
در زیر لینک اسلایدهای این ارائه با توضیحات و جدول قرار داده شده است
https://drive.google.com/open?id=0B5nhdxcxQ6Ajckl5VGF1RmZEeGc


Comments

Leave a Reply

Add comment
Info

unmoderate_note

Comments are moderated to prevent spam. This may cause a delay before your post appears.

 authimage