وبلاگ شخصی ملیحه حریری

این وبلاگ برای درج گزارشات درس موتورهای جستجو و وب کاوی طراحی شده است

مقاله های ترجمه شده

9523430050 | 31 October, 2016 11:00


: ردیابی اسپم وب با استفاده از توپولوژی شبکه (Web Topology)

چکیده:

اسپم وب میتواند به طور چشمگیری بر کیفیت نتایج جست و جوی موتورهای جست و جو­گر تاثیر منفی بگذارد.پس این مشکل محرک و مشوقی است برای موتورهای جست و جوگر، تا صفحات اسپم را کارامد و دقیق تر شناسایی و ردیابی کنند.در این مقاله ما یک سیستم ردیابی و شناسایی اسپم را ارائه می کنیم که ویژگی های پیوند مبنا(link based) و محتوا مبنا(content-based)را با هم ترکیب می کند، و با بهره بری از وابستگی های پیوندی بین صفحات وب، از این توپولوژی وب گراف (web graph) استفاده می کند. به این رسیده ایم که میزبان های متصل به هم متمایلند به یک کلاس یا دسته یکسان متعلق و وابسته باشند: یا هر دو اسپم هستند یا هیچکدام اسپم نیستند. ما سه روش برای یک پارچه سازی توپولوژی گراف وب به پیش بینی های که توسط طبقه بندی کننده های پایگاه مان بدست آمده، نشان می دهیم ؛1-دسته بندی کردن (کلاستر کردن) گراف های میزبان، و تعیین برچسب همه میزبان ها در دسته با توجه به اکثریت، 2-گسترش و نشر برچسب های پیش بینی شده میزبان های مجاور، و 3-استفاده از برچسب های پیش بینی شده میزبان مجاور به عنوان ویژگی های جدید و نگه دارنده طبقه بندی کننده ها. نتیجه سیستمی دقیق برای شناسایی اسپم وب می شود که در مجموعه داده های بزرگ و عمومی آزمایش شده، البته با استفاده از الگوریتم هایی که می تواند در عمل برای داده های وب (web data) در مقیاس بیشتر استفاده شود.

 

الگوریتم های بازیابی اطلاعات سنتی برای جمع آوری اسناد تقریبا کوچک و مرتبط مانند مقالات روزنامه یا کاتالوگ های کتاب در کتابخانه ها توسعه یافته اند. مقدار خیلی کمی از محتوای این اطلاعات می تواند به عنوان اسپم معرفی شود، البته اگر همین مقدار هم موجود باشد.در مقایسه با این مجموعه ها، وب گسترده و عظیم است، به سرعت تغییر می کند، و در سطح کامپیوترهایی که به صورت جغرافیایی پخش شده اند، گسترش می یابد. [2]. تمیز دادن بین محتوای مطلوب و نامطلوب  در چنین سیستمی چالش چشم گیری را عرضه میدارد، همانطور که هر روزه تعداد بیشتری از مردم از موتورهای جستجو استفاده می کنند

اسپم موتورهای جست و جو (Search Engine Spamming) که با نام spamdering شناخته شده است، تلاش های منفی و مضری به همراه دارد که با هدف داشتن یک رتبه بندی بالای ناشایست، خروجی الگوریتم های رتبه بندی را تحت تاثیر قرار می دهد. بدست آوردن یک رتبه بندی بالاتر به اندازه زیادی به ترافیک وابسته است، و یک رده بندی بالاتر اغلب به بازده بیشتری می انجامد. بنابراین، برای صاحبان وب سایت ها انگیزه اقتصادی ای وجود دارد تا به جای این که بر بهبود بخشیدن وب سایت هایشان سرمایه گذاری کنند بر اسپم کردن موتورهای جست و جو سرمایه گذاری کنند. اسپم کردن وب ارزان و در موارد زیادی موفقیت آمیز است.

اسپم وب مشکل جدیدی نیست، و احتمالا در آینده نزدیک نیز این مشکل حل نمی شود.بنابر هنزینگر و همکاران [17] ، "اسپمینگ آنقدر رایج شده است که هر موتور جست و جوی تجاری مجبور شده است اقداماتی برای شناسایی و حذف اسپم داشته باشد. بدون این اقدامات و اعمال، کیفیت رده بندی ها شدیدا متاثر می شود."

اسپم وب به شهرت موتورهای جست و جو خدشه وارد می کند و اعتماد مصرف کنندگان آن ها را ضعیف می کند [16].برای مثال، ایرون و همکاران 100 میلیون صفحه وب را با استفاده از PageRank رده بندی کردند و دریافتند که از 20 صفحه برتر و در صدر،11 تای آن ها صفحات هرزه نگاری و سایت های غیر اخلاقی بودند، که از طریق دستکاری در لینک ها به چنین رده بندی بالایی رسیده بودند، که نشان دهنده این است که الگوریتم رتبه بندی صفحات نسبت به اسپم حساس و تحت تاثیر آن است.تکنیک های اسپم کردن به طور گسترده ای شناخته شده اند که حتی در مسابقات هم اسپم کرده اند (برای مثال، مسابقه رده بندی حداکثر برای جستار " سیاهپوستی در  آنسوی دریا" در بین بقیه)

از منظر موتور جست و جو، حتی اگر صفحات اسپم به قدر کافی زیاد رده بندی نشده باشند، علاوه بر آزار کاربران هزینه ای برای کرال کردن ،ایندکس کردن و ذخیره صفحات اسپم وجود دارد. ایده آل این است که موتور جست و جو روی هم رفته مایل است قبل از اینکه اسپم بتواند از منابعی که برای ذخیره، فهرست بندی و رده بندی محتوای قانونی استفاده می شود، استفاده کند، از صفحات اسپم جلوگیری کند .

بازبینی رویکرد ما. ما با ساخت یک طبقه بندی کننده خودکار شروع می کنیم که مجموعه از ویژگی های پیوند مبنا(link based) و محتوا مبنا(content-based) را ترکیب می کند.

در کل، روش های سنتی فراگیری ماشین بر این فرضند که موارد اطلاعات و داده ها مستقل هستند.در مورد وب، وابستگی هایی در بین صفحات و میزبان ها وجود دارد. در یک چنین وابستگی ای که لینک ها به صورت تصادفی قرار نگرفته اند و در کل، صفحات مشابه به این گرایش دارند که اغلب به هم متصل باشند و پیوند بخورند تا اینکه ناهماهنگ و نامشابه باشند.

چنین وابستگی ای برای میزبان ها و صفحات اسپم ثابت هستند: اسپم این گرایش را دارد تا در وب خوشه بندی شود. یک توضیح برای این رفتار اسپم این است که صفحات اسپم اغلب از تکنیک های افزایش رتبه پیوند مبنا مانند Link farming (تعریف link farm شخصی که می تواند به طور مداوم و فوری وسریع لینک  و آدرس هایی مربوط به هر موضوعی که مورد بحث است تولید کند) استفاده می کنند. این تکنیک ها میتوانند به آسانیِ ایجاد مقدار زیادی از پیوند هایی به یک صفحه باشند که رتبه اش باید بالا رود.در عمل شخص ارسال کننده اسپم از ساختار های پیچیده و پیشرفته ای استفاده می کنند که شناسایی آن ها سخت است.

ما در جست و جوی تکنیک هایی هستیم که ارتباطات بین میزبان های اسپم را مورد استفاده قرار می دهد تا دقت طبقه بندی کننده ها را بهبود ببخشد. ما فرض می کنیم که میزبان هایی که به طور مناسبی بهم متصل شده اند، احتمالا برچسب طبقه بندی یکسانی دارند (اسپم یا غیر اسپم).به طور کلی تر، میتوانیم فرض کنیم که دو میزبان در کلاس یکسان باید با مسیر های کوتاهی به هم متصل باشند که اغلب از میزبان ها در کلاس و طبقه مشابه عبور می کنند.

 

کارهای قبلی در مورد شناسایی وب اسپم اکثرا بر شناسایی سه نوع وب اسپم تمرکز کرده است: اسپم لینک (link spam)، اسپم محتوا، و پوششی (cloaking).

لینک اسپم شامل ایجاد ساختار لینک ، که معمولا مجموعه ای از لینک های نزدیک بهم است، می باشد، که هدف آن تاثیر گذاشتن بر نتایج الگوریتم رتبه بندی پیوند مبنا است (link-based ranking algorithm).روش ها برای شناسایی اسپم پیوند مبنا وابسته به این موارد است ؛ دسته کننده های خود کار (برای مثال [4])، انتشار اعتماد یا بی اعتمادی سراسر لینک ها (برای مثال [13])، شناسایی رفتار غیرعادی الگوریتم های رتبه بندی پیوند مبنا [30]، حذف لینک هایی که بهر دلیلی مشکوک اند (برای مثال [9])، یا استفاده از ازدحام  فعالیت های لینکی بعنوان یک سیگنال شک برانگیز[25]

 اسپم محتوا با دستکاری کردن عمدی محتوای صفحات وب انجام می شود [14]، برای مثال، با وارد کردن کلمات کلیدی که بیشتر به کلمات پرسشی مربوط است تا به محتوای حقیقی صفحات. روش های شناسایی این نوع اسپم استفاده از دسته کننده ها [22]، یا دقت کردن در اختلاف مدل زبان [21] است. تا اندازه ای ، این تکنیک ها با بعضی از روش های فیلترینگ اسپم که در ایمیل استفاده می شود همپوشانی دارد.

 cloaking، شامل فرستادن محتواهای مختلف به موتورهای جست و جو و به بازدیدکنندگان معمول یک وب سایت  است (برای مثال [27].)نسخه صفحه ای که به موتور جست و جو ارسال می شود معمولا حاوی اسپم محتوا هستند ، و می توان با استفاده از روش های شناسایی اسپم محتوا، یا با مقایسه نسخه ایندکس فهرست شده ی یک صفحه با صفحه ی حقیقی که کاربر در صفحه مانیتور می بیند، آن را شناسایی کرد.

لینک اتصال بین صفحات اسپم استفاده شده تا برچسب "غیر اسپم" در TrustRank [13]، یا برچسب "اسپم " را در BadRank [28]، یا هر دو را  منتشر کند . [29،6]. در مقابل، تشخیص  اسپم وب که در این مقاله مطرح شده است، بر اساس تسریع پیش بینی های بدست آمده توسط سیستم دسته بندی شده است، نه بر اساس انتشار خود برچسبها .

در نوشته های منتشر شده از فراگیری ماشین ، خیلی از مقالات در مورد روش های انتشار برچسب (label- propagation) هستند (برای مثال [19،20]). اخیرا، بعضی از محققان از روش های منظم سازی برای بهبود دقت عملیات دسته بندی صفحات وب استفاده کرده اند [24،31،1]. برای مثال،  Angelovaو  Weikum [1] یک دسته بند متن را، با استفاده از وابستگی های لینک و  وزن دهی لینک ها با توجه به شباهت متن بهبود بخشیده اند.

روش های انتشار برچسب در مجموعه ها در ترتیب هزاران گره آزمون شده اند، اما نمیتوان مستقیما از آن ها برای داده های در مقیاس وب استفاده کرد، زیرا آن ها نیاز دارند که گراف را در طول مرحله تسریع در حافظه اصلی نگه دارند که در عمل امری غیر ممکن است. ما فقط از روش های تسریعی استفاده می کنیم که با گراف نشان داده شده بعنوان یک جریان در حافظه ثانویه، کار کند، و می تواند با مجموعه داده های وب با هر اندازه ای استفاده شود. نشان میدهیم که حتی وقتی ما میخواهیم از استفاده تکنیک های منظم کننده پیچیده بخاطر مقیاس پذیری اجتناب کنیم، هنوز هم می توانیم پیشرفت های چشمگیری در طبقه بندی دقت سیستم پایه داشته باشیم.

3. مجموعه داده ها و چارچوب (ساختار)

3.1 مجموعه داده ها

   ما از مجموعه داده WEBSPAM-UK2006 استفاده میکنیم،  یک مجموعه وب اسپم که برای عموم در دسترس است. بر اساس مجموعه ای(crawl: جمع آوری و سازمان دهی ورودی ها برای یک موتور جست و جو، از طریق خواندن صفحات وب و اطلاعات مرتبط) از دامین های .uk است که در ماه می 2006 انجام شده است، شامل 77.9 میلیون صفحه و بیش تر از 3 میلیارد لینک در تعداد تقریبی 11400 میزبان.

  این مجموعه مرجع در سطح میزبان با گروهی از داوطلبان برچسب زده شده است.  ارزیاب ها میزبان ها را با عنوان "معمولی"، "حد وسط"، و "اسپم" برچسب زدند، و جفتی بودند تا هر میزبان نمونه برداری شده به طور مستقل توسط دو نفر برچسب گذاری شود. برای مشاهده دقیق تر ( ground truth: اطلاعاتی که از طریق مشاهده نزدیک جمع آوری شده است نه با استتنتاج و حدس)، ما از میزبان هایی استفاده کردیم که ارزیاب ها با آن ها موافق بودند، بعلاوه میزبان های داخل مجموعه غیر اسپم برچسب خورده اند، زیرا متعلق به دامین خاصی مانند Police.uk یا .gov.uk هستند.

  مزیت برچسب گذاری میزبان ها به جای خود صفحات این است که پوشش بیشتری می توانیم داشته باشیم، به این معنا که نمونه شامل چندین نوع وب اسپم است، و اطلاعات پیوند مفیدی در بینشان یافت می شود. از آنجا که حدود 2725 میزبان (host) با حداقل دو ارزیاب مورد ارزیابی قرار گرفته اند، یک برچسب با منابع یکسان در سطح صفحات یا کاملا ارتباطش قطع شده است(اگر صفحات همگی به طور تصادفی نمونه برداری شوند)، یا پوشش کمتری می داشت(اگر یک زیر مجموعه از سایت ها به طور اتفاقی در ابتدای نمونه برداری صفحات، انتخاب شود.) از طرف دیگر، اشکال برچسب گذاری در سطح میزبان آن است که تعداد کمی از میزبان ها ترکیبی از محتواهای اسپم/غیر اسپم را دارا هستند،که خطای دسته بندی را افزایش می دهد. برچسب گذاری در سطح دامین گزینه ی دیگری است و بهتر است در کارهای آتی مورد تحقیق قرار گیرد.

برای تحلیل محتوا، خلاصه محتوای هر میزبان با گرفتن 400 صفحه قابل دسترس اول با استفاده از الگوریتم جست و جوی اول سطح (Breadth-first search) ، جمع آوری شد. نمونه خلاصه شده شامل 3.3 میلیون صفحه وب است.همه اطلاعات محتوا که در ادامه این مقاله از آن استفاده شده است، از نسخه خلاصه شده پیمایش استخراج شده است. دقت داشته باشید که ارزیاب ها به طور متوسط 5 دقیقه برای هر میزبان وقت صرف می کنند، بنابراین اکثریت صفحاتی که آن ها بازبینی و بررسی کرده اند در نمونه خلاصه شده وجود دارند.

Normal 0 false false false EN-US X-NONE AR-SA Normal 0 false false false EN-US X-NONE AR-SA