"مدل‌سازی ارتباط به عنوان یک تابع رتبه بازیابی"

  

چکیده

ارزیابی‌های دسته‌ای روی آزمایش‌های IR که عموماً با استفاده از قضاوت‌های مرتبط که به شکل یک pool نمونه از اسناد است، ساخته ‌شده‌اند. بااین‌حال، به نظر می‌رسد پوشش قضاوت نسبت به معیارهای استفاده‌شده برای محاسبه اثربخشی، ناقص است از آنجا که اندازه مجموعه برای قضاوت هر سند اغلب به لحاظ مالی آن را غیرعملی می‌کند. درنتیجه، یک قسمت قابل‌توجه از کار به بررسی مسئله چگونگی عادلانه بودن مقایسه سیستم‌ها در برابر اسناد قضاوت نشده می‌پردازد. در اینجا ما همان مشکل را از دیدگاه دیگر در نظر می‌گیریم و رابطه بین احتمال ارتباط و رتبه بازیابی را بررسی می‌کنیم، به دنبال شناسایی روش‌های قابل‌قبول برای برآورد ارتباط سند و سپس محاسبه بهره پیش‌بینی‌شده هستیم. طیف وسیعی از مدل‌ها متناسب با دو مجموعه داده متداول TREC هستند و از دو منظر ارزیابی می‌شود: با مجموعه کاملی از قضاوت‌های مرتبط شناخته‌شده به‌خوبی سازگار باشد و یا ازنظر توانایی پیش‌بینی هنگامی‌که pool های اولیه کم عمق فرض شده باشد و امتیازهای معیار برون یابی ‌شده بر اساس مدل‌هایی که از pool‌های کم‌عمق ساخته‌شده‌اند محاسبه می‌شود.

 
Modeling Relevance as a Function of Retrieval Rank

Abstract. Batched evaluations in IR experiments are commonly built using relevance judgments formed over a sampled pool of documents. However, judgment coverage tends to be incomplete relative to the metrics being used to compute effectiveness, since collection size often makes it financially impractical to judge every document. As a result, a considerable body of work has arisen exploring the question of how to fairly compare systems in the face of unjudged documents. Here we consider the same problem from another perspective, and investigate the relationship between relevance likelihood and retrieval rank, seeking to identify plausible methods for estimating document relevance and hence computing an inferred gain. A range of models are fitted against two typical TREC datasets, and evaluated both in terms of their goodness of fit relative to the full set of known relevance judgments, and also in terms of their
predictive ability when shallower initial pools are presumed, and extrapolated metric scores are computed based on models developed from those shallow pools.