آشنایی با کنفرانس ها و مسابقات حوزه بازیابی داده

| | ارسال نظر | بازتاب (0)
 
با گسترش روز افزون حجم داده ها و کاربری آنها در زمینه های مختلف زندگی بشر، و نیز با رشد چشمگیر شبکه های اجتماعی، مدیریت داده ها و استفاده هر جه بهتر از آن ها اهمیت بسیار زیادی یافته است.
 
به همین دلیل به منظور ارائه ی ایده های جدید در این حوزه، کنفرانس ها،همایش ها و مسابقات زیادی برای علاقه مندان به حوزه های داده کاوی و بازیابی اطلاعات در حال برگزاری است. از میان این همایش ها و مسابقات من چند نمونه از آن ها را که اطلاعاتی در مورد آن ها دارم در ادامه آورده ام.
  • Trec: یکی از موسساتی که در این زمینه همایش، کارگاه و مسابقه برگزار می کند موسسه Nist میباشد.کنفرانس هایی که توسط این موسسه برگزار می گردد با عنوان Text REtrieval Conference (TREC) می باشد. برای دسترسی میتوانید به آدرس http://trec.nist.gov مراجعه نمایید. 
  • Normal 0 false false false EN-US X-NONE AR-SA Yelp: در سال 2004 برای کمک به مردم برای یافتن مکان های مورد نظرشان بر اساس موقعیت مکانی که دارند بنا شده است. همچنین علاوه بر این میتوان از yelp به منظور اطلاع از رویدادها و سخنرانی ها نیز استفاده نمود. Yelp از سیستم ها و نرم افزار های اتوماتی به منظور پیشنهاد به کاربران بهره می برد. به همین منظور سالانه برای ارتقای ایده ها و بهره وری هرچه بسشتر و بهتر از داده های در جریان موجود اقدام به برگزاری رقابتی برای اطلاع از ایده های جدید می نماید.
  • Normal 0 false false false EN-US X-NONE AR-SA www: یکی از کنفرانس های موجود در این حوزه International World Wide Web Conference  می باشد که کنفرانسی دانشگاهی است که هر ساله در حوزه ی وب جهانی برگزار می گردد.

    مدیریت این کنفرانس توسط  IW3C2انجام می گیرد.

سیستم های توصیه کننده

| | ارسال نظر | بازتاب (0)
 
سیستم های پیشنهاد دهنده سیستم هایی هستند که در پیدا کردن و انتخاب نمودن آیتم های مورد نظر کاربران به آنها کمک می کنند. طبیعی است که این سیستم ها بدون در اختیار داشتن اطلاعات کافی و صحیح در مورد کاربران و آیتم های مورد نظر آنها (بعنوان مثال فیلم، موزیک، کتاب و ...)  قادر به پیشنهاد دادن نمی باشند. بنابراین یکی از اساسی ترین اهداف آنها جمع آوری اطلاعات گوناگون در رابطه با صلایق کاربران و آیتم های موجود در سیستم است. منابع و روش های گوناگونی برای جمع آوری چنین اطلاعاتی وجود  دارد. یک روش جمع آوری اطلاعات بصورت صریح که در آن کاربر صراحتا اعلام می کند که به چه چیز هایی علاقه دارد ( بعنوان نمونه با امتیاز دادن (rate) به یک موزیک). روش دیگر روش ضمنی  است که کمی دشوار تر است و در آن سیستم باید صلایق کاربر را با کنترل و دنبال کردن رفتار ها و فعالیت های او بیابد ( بعنوان مثال باید ببینید کاربر به چه موزیک هایی بیشتر گوش می دهد، چه صفحاتی را بازدید می کند، با چه کسانی در ارتباط است و ...). علاوه بر اطلاعات ضمنی و صریح برخی از سیستم ها نیز هستند که از اطلاعات شخصی کاربران استفاده می کنند. بعنوان مثال سن، جنسیت و ملیت کاربران می تواند منبع خوبی برای شناخت کاربر  و ارائه پیشنهاد به وی باشد. به این گونه از اطلاعات  Information Context گفته می شود که گروهی از سیستم های پیشنهاد دهنده مبتنی بر همین اطلاعات بنا شده اند. با ظهور web 2 و گسترش شبکه های اجتماعی در سال های اخیر محققین به منبع اطلاعاتی دیگری برای بهبود کیفیت پیشنهاد ها پی بردند  که همان اطلاعات موجود در شبکه های اجتماعی بود  و بر همین اساس کار های تحقیقاتی زیادی در این حوزه شکل ریزی گردید.
 
 

اهمیت سیستم های پیشنهاد دهنده وقتی بیش از پیش مشخص می شود که کاربران با انبوهی از اطلاعات و آیتم ها مواجه باشند. در چنین شرایطی سیستم باید پیشنهاد های خود را با در نظر گرفتن موارد زیر به کاربر دهد :

  • شرایط و محیطی که کاربر در ان قرار دارد (user context)
  • نیاز کاربر
  • دانش سیستم در مورد کاربر
  • سابقه فعالیت های کاربر

اصول سیستم های پیشنهاددهنده

برای پایه ریزی و ایجاد یک سیستم پیشنهاددهنده کارا، مواردی وجود دارند که باید به آنها توجه نموده و در پروسه طراحی و پیاده سازی سیستم در نظر گرفته شوند. این موارد، به شرح ذیل می باشند.
 

نوع داده های موجود در بستر سیستم: بنا به کاربرد سیستم، ممکن است انواع مختلفی از منابع اطلاعاتی در سیستم وجود داشته باشد. این اطلاعات می توانند امتیازهای کاربران به آیتم ها، اطلاعات شخصی کاربران، محتوای مربوط به آیتم های سیستم، ارتباطات موجود در شبکه های اجتماعی و اطلاعات مربوط به موقعیت کاربر  باشند. طبیعی است که در پروسه طراحی یک سیستم پیشنهاددهنده، باید به نوع داده های در اختیار توجه بسیار نمود.

الگوریتم فیلترینگ مورد استفاده: هدف سیستم های پیشنهاددهنده، در واقع، رتبه بندی آیتم های سیستم به لحاظ نزدیک بودن به علایق کاربران می باشد تا در هنگام ارائه پیشنهاد، آیتم هایی با رتبه بالاتر را به کاربر پیشنهاد دهند. برای این منظور، الگوریتم های متعددی پیشنهاد شده اند که مهم ترین آن ها عبارت اند از:

  1.  Collaborative Filtering
  2.  Content-based Filtering
  3.  Social-based Filtering
  4.  Context-aware Filtering
  5. Knowledge-based Filtering
  6. Hybrid Filterin

مدل انتخابی برای سیستم: در حال حاضر، برای پیاده سازی سیستم های پیشنهاددهنده، دو راهکار استفاده می شود: یکی، استفاده مستقیم از داده های موجود در سیستم است که به این راهکار، روش مبتنی بر حافظه گفته می شود و راهکار دیگر که کمی هوشمندانه تر است، از یک مدل برای ارائه پیشنهاد استفاده می کند که در اصطلاح به آن، راهکار مبتنی بر مدل گفته می شود؛ یعنی استفاده از الگوریتم های ژنتیک، شبکه های عصبی و فازی.

فن مورد استفاده در پیشنهاددادن: راهکارها و فن های مختلفی برای پیاده سازی هسته یک سیستم پیشنهاددهنده وجود دارد؛ به عنوان مثال، می توان از الگوریتم های ژنتیک، شبکه های عصبی، روش های احتمالی و یا الگوریتم های همسایگی برای پیاده سازی هسته چنین سیستم هایی استفاده کرد.

کیفیت نتایج قابل ارائه: نتایجی که یک سیستم پیشنهاددهنده ارائه می دهد، می تواند با توجه به کاربرد آن و اینکه در چه حوزه ای از بازار کسب وکار در حال استفاده است، متفاوت باشد؛ به عنوان مثال، هدف در برخی از سیستم ها ممکن است ارائه جدیدترین ها  باشد؛ درحالی که در برخی دیگر هدف می تواند پوشش دادن به تمامی آیتم ها باشد. به طورکلی، در سیستم های پیشنهاددهنده، هدف فراهم آوردن سه فاکتور: تازگی، دقت و پوشش در نتایج پیشنهادی است.

معیار های ارزیابی سیستم های توصیه کننده

به منظور بررسی کیفیت سیستم های توصیه کننده از معیارهای گوناگونی استفاده می گردد. در این میان معیار های precision and recall و DCG و mean squared error و root mean squared error از مهم ترین و رایج ترین معیارهای ارزیابی در این حوزه می باشند.

 

 

 

رتبه بندی در موتورهای جستجوی وب معنایی

| | ارسال نظر | بازتاب (0)
 
یکی از مهم ترین معیارهای کیفیتی و رقابتی در موتورهای جستجو کیفیت رتبه بندی در آن ها میباشد. در لینک زیر میتوانید اسلایدهای ارائه شده توسط من در درس وب معنایی در مبحث رتبه بندی را دانلود نمایید.
 
دانلود اسلایدهای رتبه بندی

موتور های جستجو

| | ارسال نظر | بازتاب (0)
موتورهای جستجو در سطح وب به نرم افزار ها و ابزاری گفته می شود که از میان فایل ها و اسناد موجود در وب کلمه ای را جستجو می کنند و بر اساس نیاز اطلاعاتی کاربر صفحات و اسناد مرتبط با آن کلمه را در اختیار کاربر قرار می دهند.
موتور های جستجو از سه بخش اصلی تشکیل شده اند:1- خزنده2-نمایه گزار3-رتبه بند
 نحوه ی ارتباط میان اجزای موتور جستجو را می توانید در شکل زیرمشاهده نمایید. و خلاصه ای از نحوه ی فعالیت هر بخش در ادامه بیان شده است.

1- خزنده: نرم افزاری که در تلاش برای گردآوری به روز ترین اسناد و مطالب در سطح وب میباشد. خزنده به صورت اتومات فعالیت خود را انجام داده و با الگوریتم های گوناگونی در میان صفحات مختلف پرش می کند و صفحات جدید اضافه شده و یا تغییرات موجود در صفحات فعلی ا در منبع اطلاعاتی خود ذخیره می کند.
 
2-  نمایه گزار: الگوریتم های نمایه گزار فراوانی وجود دارد که با بکارگیری ان ها نمایه گزار اطلاعات موجود در منبع داده ی موتور جستجو را شاخص گذاری می نماید. شاخص گزار، اسناد موجودرا بر اساس کلماتی که در آن ها موجود است فهرست بندی می کند.
 
3- رتبه بند: با وجود داده ها و صفحات زیادی که در سطح وب موجود می باشد، احتمال مرتبط بودن صفحات زیادی با یک پرس و جو بسیار زیاد میباشد، موتور های جستجو در رقابت با یکدیگر و برای کمک به کاربر نتایج بدست آمده را به ترتیب اولویت و کاربری آن ها مرتب کرده و به کاربر نمایش میدهند. به همین دلیل یکی از معیارهایی که کیفیت یک موتور جستجو را مشخص می نماید میزان رتبه بندی درست نتایج می باشد.