Ontology Evaluation یا ارزیابی آنتولوژی ها بخش دوم

04/15/2011

 

 


برمیگردیم سراغ مبحث اصلی خودمان!
همان طور که گفتیم روش اول برای ارزیابی یک آنتولوژی، روش مقایسه ی آنتولوژی با آنتولوژی بود که به طور مفصل مورد بحث و بررسی قرار گرفت.

در حالت دوم که مدل مرجع مجموعه ای از مستندات رسمی و دقیق علمی می باشد، باز هم به مقایسه اجزای آنتولوژی با اجزای آن مجموعه مستندات می پردازیم و هرچه تشابه بیشتری بین انها وجود داشته باشد، کیفیت آنتولوژی بالاتر است چون دانش نمایش داده شده در آن آنتولوژی با دانش بیان شده در آن مجموعه مستندات تشابه بیشتری دارد. اما نکته مهم در اینجا آن است که برخلاف حالت قبل (مقایسه آنتولوژی با آنتولوژی)، در این حالت در مورد اجزای مورد مقایسه محدودیت داریم. روش ساده آن است که منطور از اجزا، را فقط اجزای متنی بدانیم یعنی فقط لغات، عبارات و کلمات کلیدی موجود در مستندات مرجع را با نام کلاسها، روابط، و خصیصه های آنتولوژی مقایسه نماییم. به بیان دیگر در این حالت به نوعی مقایسه ما صرفا یک مقایسه در سطح syntax است و نه یک مقایسه در سطح semantic. یعنی مثلا بررسی می کنیم که چنددرصد از کلمات کلیدی مستندات مرجع، در نام عناصر آنتولوژی استفاده شده است. اما نمی توانیم (یا خیلی سخت است که) بررسی کنیم چه میزان از ساختارها و روابط موجود در مستندات مرجع، در ساختار آنتولوژی ذخیره شده است.
دو معیار مهم که در اینجا مطرح می شوند و می توان از آنها برای کمی کردن کیفیت آنتولوژی استفاده کرد عبارتند از معیارهای precision و recall.
precision: نسبت تعداد مفاهیمی از آنتولوژی که در مرجع مورد استفاده نیز ذکر شده اند به تعداد کل مفاهیمی که در آنتولوژی موجود می باشند.
recall: نسبت تعداد مفاهیم و کلمات کلیدی موجود در مرجع مورد استفاده که در آنتولوژی هم موجود می باشند به تعداد کل مفاهیم موجود در مرجع مذکور.


در این قسمت برای روشن تر شدن مفاهیم precision و recall ، بخش دیگری را برایتان تشریح می نمایم که البته ممکن است با برخی از مفاهیم و مطالب گفته شده ی قبلی همپوشانی داشته باشد. ولی به هر حال خواندن آن لازم به نظر می رسد.
همان طور که گفتیم برای ارزیابی آنتولوژی روشهای متفاوتی وجود دارد كه ما در اینجا از معیار كاربرد آنتولوژی و روش مبتنی بر پردازش زبان طبیعی استفاده كرده ایم.
 هدف ما تعیین میزان كارایی آنتولوژی در كاربرد بازیابی صفحات متنی از وب و میزان صحت آنها میباشد. بنابراین ما از یک خزشگر تاكیدی استفاده كردیم كه وظیفه آن یافتن و جمع آوری صفحات وب بر اساس شبه آنتولوژی بدست آمده است. رفتار این خزشگر در حالت کلی مشابه خزشگر ها ی معمولی است با این تفاوت که پس از بررسی صفحات ، فقط در صورت مطلوب بودن آنها اقدام به ذخیره سازی و شاخص گذاری میکند و در غیر اینصورت از آنها و لینک هایشا ن صرفنظر میکند.

خزشگر تاکیدی با استفاده از یک فیلتر (میزان مطلوبیت صفحه که معمولا بر حسب شباهت محتوای صفحه به حوزه موردنظر محاسبه می شود) بعضی از مسیرها را هرس میکند. در روش ، ابتد ا میزان شبا هت هر صفحه جدید ر ا نسبت به شبه آنتولوژ ی تولید شده محاسبه می نماییم. ابتدا کلمات موجود در صفحه جدید را استخراج کرده و یک بردار برای آن میسازیم . آنگاه با استفاده از مدل فضای برداری شباهت صفحه جدید و شبه آنتولوژی را محاسبه می کنیم و در صورتی که از مقدار آستانه بیشتر باشد آن صفحه را ذخیره نموده و پس از استخراج لینک هایش عملیات را روی آن تکرار میکنیم. با توجه به اینکه در اینجا مساله نگهداری یا حذف صفحات جدید یک مساله دوحالته است، برای تسهیل عملیات از برای بازیابی استفاده کرده ایم. در واقع نسبت ترم های مدل بولی مشترک بین شبه آنتولوژی و صفحات جدید به کل ترم های موجود در شبه آنتولوژی را به عنوان معیار رد یا قبول صفحات به کار گرفته ایم.

اما این معیار به تنهایی منجر به بروز یک مشکل مهم میشود. هنگامیكه به یک صفحه بسیار بزرگ (مثلا یک وبلاگ) برخورد می کنیم ، اگر بخش کوچکی از آن به علوم کامپیوتر اختصاص داده شده باشد، با توجه به این نکته که میزان اشتراک کلمات صفحه و آنتولوژی به کل کلمات آنتولوژی مقدار قابل توجهی است، این صفحه به عنوان یک صفحه مرتبط شناخته خواهد شد در حالی که چنین نیست . برای رفع این معضل ، راه حل پیشنهادی ما در نظرگرفتن دو حد آستانه است:

1.    حد آستانه دقت كه به صورت نسبت اشتراک کلمات شبه آنتولوژی و صفحه به اندازه شبه آنتولوژی تعریف می شود. لذا فقط صفحاتی از این فیلتر رد خو اهند شد که حداقلی از ترم های حوزه علوم کامپیوتر (اینجا ۲۰ کلمه)  را در خود داشته باشند.

2.     حد آستانه یاد آوری  كه عبارتست از نسبت اند ازه مجموعه اشتراک صفحه و شبه آنتولوژی به اندازه صفحه . این معیار باعث حذف صفحاتی می شود كه فقط درصد کمی از حجم خود را به حوزه مورد نظر اختصاص داده اند.

از نکات مهم در مبحث خزش تاکیدی اولویت دهی به لینک های خروجی است و روش های متعددی برای آن وجود د ارد . روش ما به این صورت است كه در صورت برخورد با یک لینك نامربوط (که براسا س محتوا مشخص می شود) از پردازش لینک های خروجی آن خودداری میکنیم. اما برای دو نوع صفحه دیگر (مربوط و مربوط با حجم بالا)  لینک ها ی خروجی را نیز پردازش میکنیم. برای انجام عملیات خزش، با توجه به اینکه درصد بسیار ناچیزی از مجموعه کل صفحات به حوزه مورد نظر مربو ط هستند، در صورتی که مانند خزشگرهای معمولی از دایرکتوری های همه منظوره (مانند  Dmoz یا Yahoo) شروع کنیم مشکل عمده ، محدودیت تعداد لینک های آنهاست .

برای رفع حل این مشکل صفحاتی را پیدا کردیم که در زمینه پژوهش علوم کامپیوتر اصطلاحا Hub  ها ی خوبی باشند . مفهوم Hub اولین بار توسط آقای Kleinberg و در قالب الگوریتم HITS  معرفی شد. صفحات Hub صفحاتی هستند که حاوی تعداد زیادی لینک به صفحات مورد نظر کاربر باشند .  به عنوان مثال می توان به موتور جستجوی Teoma اشاره کرد که پس از دریافت یک عنوان سعی میکند Hub های مناسب را برای آن پیدا کند. ما با استفاده از این موتور تعدادیHub  مناسب برای حوزه پژوهش در علوم کامپیوتر پیدا نمودیم:

1.     لیست دانشگاههای دارای دپارتمان علوم كامپیوتر
2.     لیست علوم كامپیوتر
3.     افراد و سازمانهای مرتبط با علوم كامپیوتر

از میان این صفحات ، اولین مورد به دلیل گستردگی و تنوع نمونه ها گزینه بسیار مناسبی میباشد. با شروع از این سایت و با استفاده از خزشگر تاكیدی در مدت حدود ۲۴ ساعت موفق به گرد آوری بیش از ۲۲۰۰۰ صفحه شدیم. سپس با استفاده از میزان شباهت واژگان هر صفحه به شبه آنتولوژی مرحله قبل و با کمک حدود آستانه تنظیم شده، از این تعداد حدود ۸۰۰۰ صفحه مرتبط تشخیص داده شدند. بررسی تصادفی صفحات نشان داد كه با دقت بسیار خوبی (حدود۷۰ % ) صفحات مرتبط با موضوع شناسایی شده اند. بنابراین میتوان نتیجه گرفت آنتولوژی تولید شده با درصد مناسبی می تواند برای شناسایی و استخراج صفحات وب مورد استفاده قرار گیرد.

0 Comments Add your own



Leave a Reply

ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage

درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds