پروژه پیاده سازی الگوریتم PageRank و بهبود آن برای صفحات دانشگاهی

Published on 01/23,2017

همانطور که در مطالب قبلی ذکر شدف الگوریتم PageRank الگوریتمی ساختاری است که به صورت آفلاین اجرا شده ورتبه صفحات را محاسبه می کند در این پروژه، هدف ما پیاده سازی اگوریتم برروی صفحات دانشگاهی است که به صورت موردی روی صفحات دانشگاه فردوسی مشهد اعمال شده است.
این پیاده سازی به زبان جاوا و با نرم افزار NetBeans صورت گرفته است.
مرحله اول انجام پروژه، به دست آورد اطلاعات لینک های بین صفحات می باشد. برای این کار، از داده های حاصل از اجرای کرالر استفاده شده است. فایل لینک های حاصل از کرالر که برای قابل نمایش بودن قبلا پارس شده است، فایلی متنی است که به صورت زیر می باشد:
PageUrl inlinks:
fromurl: InlinkUrl
 fromurl: InlinkUrl 
 ما این داده ها را تفکیک کرده وPageUrl ها را داخل لیست قرار دادیم که دارای زیرلیستی از InlinkUrlهایش می باشد.
با توجه به این که برای محاسبه رتبه هر صفحه، درجه خروجی لینک های ورودی اش موردنیاز است، این لینک های خروجی محاسبه شده و داخل لیستی قرار داده شده است.
مرحله دوم پیاده سازی الگوریتم اولیه است که روی داده های حاصل از مرحله قبل اعمال می شود. در این پیاده سازی مقدار d=0.85 در نظر گرفته شده است
مرحله سوم ، با هدف پوشش ضعف الگوریتم PageRank که توجه به صفحات قدیمی تر است صورت گرفته است. برای این کار با الهام از الگوریتم improved PageRank از فاکتور زمان استفاده شده است که معکوس تعداد دفعات مراجعه کرالر به هر صفحه می باشد. ولی با توجه به این که این داده ها در زمان مناسب از داده های کرالر حاصل نشد، برای محاسبه مقداری تصادفی استفاده شد که دقت اعداد را کاهش داد.
در ادامه کار می توان این اعداد را در پیاده سازی به کاربرده و میزان دقت الگوریتم جدید را با الگوریتم قبلی مقایسه کرد. 


نظرات

Leave a Reply

ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage