Menu:

آخرين مطالب بروز شده

موضوعات

کلی [1]


پيوندها

کلی


نظرسنجی


اتحاديه

RSS 0.90
RSS 1.0
RSS 2.0
Atom 0.3


costomized

fumblog

مقاله The PageRank Citation Ranking: Bringing Order to the Web

اشکان رضازاده | 20 November, 2017 23:52

رتبه بندی استناد "رتبه صفحه" PageRank:

آوردن نظم به وب

29 ژانویه 1998

                                                                        چکیده

اهمیت یک صفحه وب به خودی خود یک مسئله مهم است که به علاقه ،دانسته ها و دیدگاه ها ی خوانندگان بستگی دارد.

با این حال هنوز مطالب زیادی را می توان راجع به اهمیت نسبی صفحات وب مطرح کرد. این مقالبه رتبه صفحه یا PageRank را توضیح می دهد که یک روش برای رتبه بندی صفحات وب به صورت عینی و مکانیکی ، با دقت بالایی در اندازه گیری علاقمندی های انسان و توجهی که به آنها اختصاص داده شده است.

ما PageRank را با یک مرور گر ایده آل تصادفی مقایسه میکنیم . ما نشان می دهیم که به چه صورت می توان به صورت بهینه رتبه صفحه را برای تعداد زیادی از صفحات محاسبه کرد  و چگونه می توان PageRank را برای جستجو و مسیریابی کاربران استفاده نمود.

1- معرفی و انگیزش

شبکه سراسری وب چالش های فراوانی را برای بازیابی اطلاعات ایجاد می کند ، این شبکه بسیار بزرگ و ناهمگن است. تخمین های فعلی نشان می دهد که در حال حاضر 150 میلیون صفحه وب با عمر کمتر از یک سال وجود دارند ، مهم تر از آن این است که صفحات وب بسیار متنوع هستند ، از سوالاتی همچون " جویی امروز ناهار چی داره؟" گرفته تا "مقالات راجع به بازیابی اطلاعات". به علاوه ی این چالش ها ، موتور های جستجوی وب با کاربران بی تجربه و صفحاتی که مهندسی شده اند تا توابع رتبه بندی موتور های جستجو را دستکاری کنند رقابت می کنند. به هر حال بر خلاف  مجموعه های مستند " flat " شبکه گسترده وب متن سطح بالا است و اطلاعات کمکی زیادی را در بالای متن های صفحه وب فراهم میکند ، اطلاعاتی مانند ساختار پیوند و متن آن.در این مقاله ما از ساختار پیوند وب استفاده میکنیم تا یک رتبه بندی مهم و سراسری برای هر صفحه وب را فراهم کنیم . این رتبه بندی ، PAGERANK نام دارد و به موتور های جستجو و کاربران کمک میکند تا به سرعت ناهمگونی گسترده شبکه گسترده وب را درک کنند و از ان استفاده کنند.

1.1 تنوع صفحات وب

بر خلاف اینکه در حال حاضر مقالات زیادی در تحلیل آکادمیک نقل قول ها وجود دارد ، تفاوت های عمده ای میان صفحات وب و نشریات علمی وجود دارد. بر خلاف مقالات آکادمیک که به صورت دقیق بررسی شده اند ، صفحات وب بدون کنترل کیفیت یا هزینه انتشار تکثیر می شوند، تعداد زیادی صفحه را می توان با یک برنامه ساده تولید کرد و به صورت مصنوعی تعداد نقل قول ها را افزایش داد. به دلیل اینکه محیط وب شامل رقابت برای جذب سود و سرمایه گذاری است ، توجه ها موجب تکامل استراتژی های الگوریتم های موتور جستجو شده است.به همین دلیل ، هر استراتژی ارزیابی که ویژگی های تکراری صفحات وب را در نظر میگیرد در معرض دستکاری شدن است، علاوه بر این ، مقالات علمی به خوبی واحد های عملیاتی را تعریف کرده اند ، به سختی در کیفیت و تعداد نقل قول ها شباهت دارند ، همینطور که در هدف با یکدیگر تفاوت دارند و به منظور توسعه دانش ارائه میگردند. صفحات وب در یک مقیاس بسیار بزرگتر نسبت به مقالات علمی راجع به کیفیت ، استفاده، نقل قول ها و طول قرار دارند. یک پیغام آرشیو شده ی تصادفی که یک سوال مبهم راجع به یک کامپیوتر IBM مطرح می کند نسبت به صفحه اصلی IBM بسیار متفاوت است. یک مقاله پژوهشی راجع به تاثیرات استفاده از موبایل روی دقت راننده نسبت به تبلیغ یک ارائه دهنده موبایل خاص بسیار متفاوت است. کیفیت میانگین صفحه وب که توسط یک کاربر استفاده شده است بالا تر از کیفیت میانگین صفحه وب است، این به دلیل ساده بودن ساخت و انتشار یک صفحه وب است که منجر به تعداد زیادی صفحات با کیفیت پایین می شود که کاربران علاقه ای به خواندن آن ها ندارند.

محورهای بسیاری وجود دارد که ممکن است صفحات وب در آن ها متفاوت باشند. در این مقاله ما به صورت اختصاصی به یکی از آن ها میپردازیم ، "یک تقریب کلی از اهمیت نسبی صفحات وب ".

1.2 PageRank

به منظور اندازه گیری اهمیت نسبی صفحات وب، ما PageRank را پیشنهاد میکنیم که یک روش برای محاسبه رتبه بندی برای هر صفحه وب بر اساس گراف وب."رتبه صفحه" برنامه هایی برای جستجو ، گشت و گذار و تخمین ترافیک دارد.

بخش دوم یک توضیح ریاضی وار و توجیه بصری راجع به "رتبه صفحه" را ارائه می دهد. در بخش سوم ما نشان می دهیم که چگونه می توان به صورت بهینه "رتبه صفحه" را برای تعداد زیادی در حدود 518 ملیون از لینک ها محاسبه کرد.

به منظور آزمون کارایی "رتبه صفحه" برای جستجو، ما یک موتور جستجوی وب به نام "Google" ساختیم. (بخش 5)

همچنین ما در بخش 7.3 مشخص میکنیم که "رتبه صفحه" چطور میتواند به عنوان یک کمک برای مرور کردن وب استفاده شود.

2- یک رتبه بندی برای هر صفحه در وب

2.1 عملیات مربوطه

کار های زیادی در تجزیه و تحلیل آکادمیک استناد انجام شده است. گافمن یک تئوری جالب را در مورد اینکه چطور جریان اطلاعات در یک جامعه علمی یک پردازش جهانی است مطرح می کند.

در مورد چگونگی بهره برداری از ساختار پیوند ابر متن های سیستم های بزرگ مانند وب ، اخیرا فعالیت های زیادی صورت گرفته است. پیتکو اخیرا تز دکترای خود را در مورد "سازمان دهی محیط های شبکه جهانی وب " با تحلیل های زیاد بر پایه پیوند به اتمام رسانده است. Weiss در مورد روش های خوشه بندی که ساختار پیوند را وارد حساب می کنند بحث می کند.

اسپرتوس راجع به اطلاعاتی که می توان برای انواع برنامه ها از یک ساختار لینک به دست آورد صحبت می کند . تجسم خوب نیاز به اضافه کردن به ساختار متن بالا است و در مقاله [MFH95,MF95] راجع به آن صحبت شده است. کلینبرگ اخیرا یک مدل جالب از وب به عنوان قطب ها و مقامات را توسعه داده است که بر اساس محاسبه ی بردار حقیقی ماتریس همراهی استناد وب است. و در نهایت صحبت هایی راجع به معنای دقیق "کیفیت" در شبکه در یک جامعه کتابخانه مطرح شده است.

واضح است که سعی کنید تکنیک های استاندارد ارزیابی استناد را به ساختار استناد ابر متنی وب اعمال کنید.

ممکن است که یک نفر به سادگی هر پیوند را مانند یک استناد علمی در نظر بگیرد. بنابراین به یک صفحه مهم مثل یاهو هزاران استناد می شود. این حقیقت که صفحه خانگی یاهو پیوند های برگشتی زیادی دارد ، به طور کلی به این معناست که این صفحه به شدت مهم است. در واقع، خیلی از موتور های جستجوی وب از تعداد پیوند های اشاره به خودشان به عنوان راهی برای سوق دادن پایگاه های داده شان به منظور کیفیت بالاتر و یا صفحات مهم بیشتر استفاده می کنند. به هر حال ، تعداد پیوند های برگشتی چندین مشکل در وب دارند. بعضی از این مشکلات راجع به ویژگی هایی از وب هستند که در پایگاه داده های استناد معمولی علمی حضور ندارند.

2.2 ساختار پیوند وب

اگر چه تخمین ها متفاوت است ، اما نمودار فعلی وب قابل رویت حدود 150 میلیون گره (صفحه) و 1.7 میلیارد لبه(پیوند) دارد. هر صفحه شامل چندین پیوند رو به جلو ( یال خروجی) و چندین پیوند برگشتی (یال ورودی) دارد. (شکل 1 را مشاهده نمایید). ما هیچوقت نمیتوانیم مشخص کنیم که تمامی پیوند های برگشتی به یک صفحه را پیدا کرده ایم اما اگر آن را دانلود کنیم میتوانیم همه پیوند های رو به جلویش در آن لحظه را شناسایی کنیم.

 

 

موضوع کلی . نظر دهيد: (0). بازتاب:(0). لینک همیشگی