انتشار مقالات اولین کنفرانس پردازش خط و زبان فارسی


مقالات ارائه‌شده در نخستین کنفرانس پردازش خط و زبان فارسی در وب‌گاه همایش‌های علمی دانشگاه سمنان قرار گرفت.

نخستین کنفرانس پردازش خط و زبان فارسی در ۱۵ و ۱۶ شهریورماه ۱۳۹۱ در دانشگاه سمنان برگزار شد.

علاقه‌مندان می‌توانند مقالات این کنفرانس را از طریق پیوند زیر دریافت نمایند:
http://conf.semnan.ac.ir/index.aspx?siteid=49&pageid=3275
 
 مقالات مرتبط با کارهای من نیز از پیوندهای زیر قابل دانلود می باشد:
 
ارائه یک ابزار ارزیابی خودکار خلاصه‏سازهای چکیده‏ای فارسی با بهره‏گیری از شبکه واژگان  
 
طراحی ابزار پارسر زبان فارسی  
 
طراحی یک سیستم توصیه‏گر ترکیبی معنایی با استفاده از تکنیک‏های پردازش زبان طبیعی فارسی  
 
دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات فارسی با بهره گیری از شبکه واژگان
 

Comments (3) Posted to ابزار ارزیابی خلاصه ها , ارزیابی سیستم های توصه گر , پردازش متن 04/28/2013 Edit

سامانه خلاصه ساز ایجاز

سامانه خلاصه ساز تک سندی و چند سندی متون خبری فارسی تحت عنوان "ایجاز" به صورت برخط قابل استفاده می باشد.
 sum
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی و بهره گیری از ابزارهایی نظیر خلاصه‌سازهای خودکار و مترجم های ماشینی بیش از پیش احساس می شود. خلاصه‌سازی خودکار متن به عنوان هسته‌ی
مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن مانند سیستم‌های تصمیم‌یار، سیستم‌های پاسخ گو، موتورهای جستجو و غیره از سال‌ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.
در پیاده سازی این سامانه، سعی شده است تا از تجربیات مجموعه کارهای مشابه داخلی و خارجی استفاده شود و با ارائه ی پارامترهای جدید، بر دقت خلاصه‌ساز به میزان قابل توجهی افزوده گردد. همچنین برای اولین بار با بهره گیری از یک پیکره بزرگ خلاصه سازی و همچنین با استفاده از ابزار ارزیابی استاندارد، روش ارائه شده با سایر روش های موجود برای متون فارسی به صورت استاندارد مقایسه و ارزیابی شده است. نتایج حاصل از این ارزیابی ها قابل توجه می باشد.
 
برای مشاهده سامانه اینجا کلیک نمایید. 

Comments (2) Posted to ابزار ارزیابی خلاصه ها 02/15/2013 Edit

ابزارهای مورد نیاز برای پردازش متن


در این پایان­نامه تلاش شده است تا در گام اول بسیاری از ابزارهای پایه­ای پردازش زبان فارسی که با دقت بالا موجود نبودند، از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان فارسی طراحی و پیاده­سازی گردد. از جمله­ی این ابزارها می­توان ابزار نرمال­ساز یا یکسان­ساز، ابزار تشخیص دهنده جملات، ابزار تشخیص دهنده لغات، ابزار ریشه­یاب، ابزار پاسر، ابزار برچسب­زن اجزای واژگانی کلام و غیره را نام برد.

·      نرمال­ساز (Normalizer): در ابتدا بايستي همه‌ي نويسه‌هاي (کاراکترهاي) متن با جايگزيني با معادل استاندارد آن يکسان‌سازي گردند.

·      جداکننده کلمات (Tokenizer): با کمک این پردازشگر می­توان کلمات متن را استخراج نمود.

·      حذف کننده کلمات ایست (Stopword Remover): با استفاده از این ابزار می­توان کلمات ایست را حذف نمود.

·      جدا کننده جملات (Sentence Splitter): با کمک این پردازشگر می­توان جملات را از متن استخراج کرد.

·      ریشه یاب (Stemmer) : وظیفه ریشه­یابی کلمات را برعهده دارد.

·      برچسب زننده اجزای واژگانی کلام (POS): از این پردازشگر برای برچسب­زنی اجزای واژگانی کلام استفاده می­شود.

·      پارسر (Parser) : از این پردازشگر برای تجزیه نحوی جملات استفاده می­شود.

در روند هرگونه پردازش روي متن­هاي زبان طبيعي انجام يک سري پيش­پردازش امري اجتناب ناپذیر است. علاوه بر آن، دقت اين پيش­پردازش­ها تاثير بسزايي در فازهاي بعدي نتايج اعمال الگوريتم­ها دارد. هرچقدر که دقت پيش­پردازش بيشتر باشد الگوريتم­ها به نتايج واقعي خود نزديک­تر خواهند شد.

پردازش زبان فارسی از جهاتی با پردازش زبان انگلیسی تفاوت دارد. در زبان انگلیسی تمامی حروف و تمامی کلمات جدا از هم و با قانونی مشخص نوشته می­شوند و این در حالی است که در زبان فارسی بعضی از حروف به هم چسبیده‌اند، بعضی از حروف جدا از هم نوشته می­شوند، بعضی از کلمات یکپارچه­اند، بعضی از کلمات با فاصله یا نیم­فاصله به دو یا چند بخش تقسیم می­شوند. علاوه براین بعضی از حروف مانند "ی" در بعضی از نوشته­ها با نسخه عربی مانند "ی عربی" نوشته می‌شوند که مشکلاتی را در مقایسه کلمات بوجود می­آورد.

Comments (3) Posted to ابزار ارزیابی خلاصه ها 09/23/2012 Edit

ارزیابی خلاصه سازهای ماشینی


با توجه به روشن شدن اهمیت بسیار زیاد خلاصه­سازها، موضوع مهمی که به عنوان یک مشکل در این زمینه، مطرح است؛ آنست که پس از تولید خلاصه چه طور کیفیت آنها را ارزیابی کنیم.

ارزيابي خلاصه­ها و سيستم­هاي خودکار خلاصه­سازي متن، فرايندهاي مشخص و واضحي نيستند. بطورکلي حداقل دو خصوصيت از خلاصه وجود دارد که در هنگام ارزيابي و همچنين در سيستم­هاي خلاصه­سازي، بايد مورد سنجش قرار گيرند[Hov97]: نرخ فشرده­سازي (ميزان کوتاه بودن خلاصه نسبت به متن اصلي) و نرخ حفظ (ميزان اطلاعاتي که حفظ مي­شوند).

يک مرحله­ي تعيين­کننده در هر سيستم، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است. سيستم­هاي پردازش زبان طبيعي نيز از اين قاعده، مستثني نيستند. بلکه با توجه به بي­قاعدگي­هاي زبان انساني، در ارزیابی ابزارهای مرتبط با زبان طبیعی با مشکلات بیشتری مواجه خواهیم بود و اثبات منطقي اين پيکره­ي بي­قاعده، يک ريسک است. يک رويه­ی متداول براي برقراري ارتباط با اين حقيقت، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده، به صورت زيرمجموعه­اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي­شود. در نتيجه نمود رويه­اي خاص، مي­تواند در قالب يک آزمايش، اعتبارسنجي شود.

امروزه اکثر سيستم هاي خودکار خلاصه­سازي متن، مبتني بر استخراج هستند. گرچه کارهايي براي پس- ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصه­ها چه از نظر کلمات بکار رفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصه­ها در مقايسه با يک خلاصه مرجع ثابت و تغيير ناپذير، رضايت­بخش نيست. همچنين با توجه به اينکه نرخ­هاي فشردگي مختلف براي انواع مختلفي از متون مناسب است، روش­هاي ارزيابي که امکان ارزيابي براي نرخ­هاي مختلف مي دهند را بايد مورد توجه قرار داد.

روش­هاي ارزيابي خودکار عموما با مشابهت­هاي محتوا بين خلاصه­ها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روش­ها که در ادامه توضيح داده مي­شود، بايد براي پوشش هرچه بيشتر اين جنبه­ها (قابليت مقايسه نتايج با سيستم­هاي ديگر، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روش­هاي خلاصه­سازي متفاوت) بکارگرفته شود.

واضح است که به منظور اطمينان از پاسخ­دهي نتايج و انجام يک مقايسه­ي قابل اطمينان در ميان سيستم­هاي خلاصه­سازي، چند نوع محيط استاندارد شده براي ارزيابي اين نتايج شديدا مورد نياز مي­باشد. دو رهيافت عمده در ارزيابي سيستم‌هاي خلاصه‌سازي وجود دارد: قضاوت انساني و مقايسه با خلاصه‌ي مرجع.

به منظور ارزيابي خلاصه‌اي که يک ماشين از يک متن توليد مي‌کند، مي‌توان آن خلاصه را با خلاصه­هاي توليد شده توسط انسان­ها مقايسه کرد. از آنجايي که در خلاصه­هاي انساني ممکن است هر شخص با توجه به نظرات شخصي خود، بخشي از متن را مهم­تر تشخيص دهد، پس ميان خلاصه‌هاي انساني نيز ممکن است تفاوت‌هايي باشد. براي اعمال اين موضوع، هر خلاصه­ي ماشيني با چند خلاصه انساني متفاوت از همان متن مقايسه مي­گردد و نتيجه­ي نهايي، مي­تواند ميانگين نتايج حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني و يا بيشينه­ي امتياز حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني باشد.

Comments (0) Posted to ابزار ارزیابی خلاصه ها 09/13/2012 Edit

خلاصه سازی متن ؟؟؟


امروزه با رشد چشمگير حجم مستندات منتشر شده در وب و نياز اساسي به نگهداري، دسته­بندي، بازيابي و پردازش ماشيني و سريع آنها توجه به پردازش زبان طبيعي و بهره­گيري از ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني، بيش از پيش خودنمايي مي­کند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان به دنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. خلاصه‌سازی خودکار متن به عنوان هسته‌ی مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن از سال‌ها پیش همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.

 خلاصه‌سازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه رايانه‌اي به نحوي که ويژگي‌ها و نکات اصلي سند اوليه حفظ شود[MAN99]. بنابر تعريف ارائه شده در استاندارد ISO215، خلاصه "يک بازگويي مختصر از سند" مي­باشد. خلاصه­سازی از دیدگاه­های مختلف دارای تقسیم­بندی­های متفاوتی می­باشند. از یک دیدگاه به دو دسته خلاصه گزینشی و چکیده­ای تقسیم می­شوند. در خلاصه­های گزینشی، متن خلاصه از کنار هم قرار گرفتن کلمات و جملات انتخابی متن مرجع بوجود می­آید؛ درحالیکه در خلاصه­های چکیده­ای، لغات تغییر می­یابند و جملات خلاصه می­توانند بازتولید گردند. دسته­بندی­های دیگری هم برای روش­های خلاصه­سازی وجود دارد که در قسمت­های بعدی به آنها پرداخته شده است.

 خلاصه­سازي خودکار توسط رایانه انجام مي­شود و به همين دليل تفاوت­هاي زيادي با خلاصه­اي که توسط انسان توليد مي­شود دارد. انسان­ها با توجه به هوش و شعور ذاتي خود قادر به درک و فهم مفاهيم موجود در متن و ارتباط بين آنها مي­باشند و اين در حالي است که انجام اين عمليات توسط ماشين کار بسيار دشوار و پيچيده­اي مي­باشد.

 هدف نهایی سیستم­های خلاصه­سازی تولید خلاصه­هایی با کیفیت نزدیک به خلاصه­های انسانی می­باشد. اما برای رسیدن به این مهم چالش­های زیادی پیش رو وجود دارد. مهم­ترین مشکل در گام نخست انتخاب مناسب­ترین جملات متن اصلی می­باشد به نحوی که مطالب مهم و اصلی متن را پوشش داده، از پیوستگی و خوانایی بالایی برخوردار بوده، دارای ساختار گرامری مناسبی باشد و در عین حال فاقد افزونگی و جملات تکراری یا شبیه به هم باشد.

Comments (0) Posted to ابزار ارزیابی خلاصه ها 09/04/2012 Edit

گزارش‌های جدید از ارزیابی خودکار خلاصه‌سازهای ماشینی فارسی

 

امروزه ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني، توجه زيادي را به خود جلب نموده‌اند و فعاليت‌هاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. در زبان فارسي هم نظير ديگر زبان‌ها تلاش‌هايی در اين زمينه صورت گرفته است. از اين رو ارزيابي چنين ابزارهايي از اهميت ويژه‌اي برخوردار است. در اين پایان­نامه، ابزاري به منظور ارزيابي سيستم­هاي خلاصه­سازي خودکار ارائه شده است که البته قابليت استفاده در ديگر کاربردهاي پردازش زبان طبيعي و بازيابي اطلاعات را نيز دارد. اين ابزار شامل معيارهايي براي تعيين کيفيت خلاصه­ها به صورت خودکار، از طريق مقايسه آنها با خلاصه­هاي توليد شده توسط انسان (خلاصه­هاي ايده­آل) مي­باشد. اين معيارها تعداد واحدهايي که بين خلاصه­هاي سيستمي و خلاصه­هاي انساني هم­پوشاني دارند نظير n تايي­ها، رشته­ي کلمات و جفت کلمات را محاسبه مي­نمايند. بدیهی است برای انجام مقایسه­ی متون در سطح معنا در مورد خلاصه­های چکیده­ای، مقایسه­ی ظاهر لغات کافی نمی­باشد و بهره­گیری از شبکه­ی واژگان، ضروری به نظر می­رسد که با ایده­ای مناسب برای زبان فارسی به کار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است.

ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکره­ای عظیم و تست ابزار بر روی اسناد این پیکره می­باشد. پیکره­ای مناسب شامل 100 متن خبری و 1000 خلاصه در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان خلاصه­یار تولید شد که 500 عدد چکیده­ای و 500 عدد استخراجی می‌باشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.
 
از این پس گزارشات مربوط به پیشرفت کار به مرور زمان در وبلاگ قرار خواهد گرفت.
 
 

Comments (0) Posted to ابزار ارزیابی خلاصه ها 08/30/2012 Edit

مجموعه داده های استاندارد برای خلاصه سازی


یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، CASTcorpus و DUCcorpus اشاره نمود. با توجه به بررسی های انجام شده، مجموعه داده های (DocumentUnderstandingConferences(DUC انتخاب شده اند. در ذیل مختصرا این مجموعه داده ها شرح داده شده است.
 
داده های استاندارد DUC
 
کنفرانس DUC از سال 2001 زیر نظر NIST شروع به انتشار داده های مورد نیاز برای خلاصه سازی متون کرده است و تا کنون 7 مجموعه از داده ها را تحت عنوان DUC2001 تا  DUC2007 ارائه نموده است. هر کدام از این مجموعه ها با اهداف خاصی انتشار یافته اند. هدف اصلی این کنفرانس کمک در ارزیابی روش های خلاصه سازی خودکار متون و بررسی روش های ارزیاب خلاصه سازی می باشد. مجموعه داده های DUC2001 تا  DUC2004 برای خلاصه سازی تک سندی و چند سندی تولید شده اند. مجموعه داده های DUC2005 تا  DUC2007 هم فقط برای خلاصه سازی چند سندی تولید شده اند. با توجه به اینکه مجموعه داده DUC2007 آخرین مجموعه از این داده ها و کامل¬ترین آنها می باشد، در حال حاضر اکثر مقالات این مجموعه مورد ارجاع قرار می گیرد. داده های DUC2007 در مجموع شامل 45 موضوع بوده که هر کدام شامل 25 سند می باشد. 10 نفر از اعضای NIST وظیفه نوشتن خلاصه های دستی برای این مجموعه را بر عهده داشته اند به طوری که برای هر موضوع 4 نفر به صورت تصادفی انتخاب شده و خلاصه های چکیده ای تولید کرده اند.
 
 
با تشکر از آصف پورمعصومی 
 

Comments (1) Posted to ابزار ارزیابی خلاصه ها 11/04/2011 Edit

توضیحات تکمیلی در مورد ابزار ارزیابی خلاصه سازها

 

 

معیارهای ارزیابی متون خلاصه

این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به تعداد واژگان مشترک، تعداد جفت کلمات مشترک با فاصله آزاد در متن ، تعداد n تایی های مشترک در متن، ، طول بزرگبرین زیر رشته مشترک و طول بزرگبرین زیر رشته مشترک وزن‌دار می‌توان اشاره کرد. در ادامه به این معیار ها اشاره خواهد شد. 

معیار ارزیابی تعداد واژگان مشترک

به عنوان ساده‌ترین معیار شباهت دو متن می‌توان تعاد واژگان مشترک بین آنها را در نظر گرفت. در این معیار تعداد واژگان مشترک بین خلاصه ماشینی با هریک از خلاصه‌های انسانی محاسبه می شود و بر تعداد کل واژگان تقسیم می گردد. سپس میانگسن این پمج عدد به عنوان معیار ارزیابی بازگزدانده می شود. 

معیار ارزیابی  تعداد n تایی های مشترک

این معیار، روشی است که مبتنی بر فراخوانی n تایی ها بین یک خلاصه سیستمی و مجموعه ای از خلاصه های انسانی می باشد. در این معیار تعداد n تایی‌های مشترک بین خلاصه‌های انسانی و خلاصه ماشینی بر کل تعداد nتایی‌های موجود در خلاصه انسانی تقسیم می گردد، که در آن n  بر گرفته شده از طول n تایی می باشد.

پر واضح است که این معیار، یک معیار مبتنی بر فراخوانی  می باشد. معیار مشابه BLEU که در ترجمه ماشینی مورد استفاده قرار می گیرد یک روش مبتنی بر دقت  می باشد. این معیار میزان انطباق یک ترجمه ماشینی را با تعدادی از ترجمه های انسانی، از طریق محاسبه ی میزان درصد n تایی هایی که بین دو ترجمه مشترک هستند ارزیابی می کند.

لازم به یادآوری است که در محاسبه این معیار هرچه تعداد خلاصه های مرجع بیشتر شود ، تعداد n تایی ها هم در معادله بیشتر خواهد شد که این امر معقول می باشد چراکه ممکن است چندین خلاصه خوب موجود باشد. هر زمان که تعدادی خلاصه مرجع به مجموعه خلاصه های ایده آل افزوده شود، در حقیقت فضای خلاصه های جایگزین و مطلوب افزوده خواهد شد.

معیار ارزیابی طولانی‌ترین زیررشته مشترک

در این معیار ارزیابی از الگوریتم های محاسبه طولانی ترین زیر رشته مشترک بین دو رشته  استفاده می شود.

یکی از مزایای این معیار این است که نیازی به محاسبات انطباق متوالی ندارد. مزیت دوم این روش این است که به صورت اتوماتیک طولانی‌ترین زیر رشته ی nتایی را در نظر می گیرد و بنابراین نیازی به تعیین طول n تایی پیش فرض نمی باشد.  همانطور که قبلا هم اشاره شد این معیار از F-Measure برای ارزیابی استفاده می کند و این در حالی است که در معیار تعداد n تایی های مشترک از معیار Recall استفاده می شود. Recall  میزان انطباق کلمات جمله های خلاصه ی مرجع (ایده آل) در خلاصه‌ی سیستمی را محاسبه می کند. Precision بر عکس Recall بوده و میزان انطباق کلمات خلاصه های سیستمی در خلاصه مرجع را محاسبه می کند. هر دو فاکتور دقت و فراخوانی، به ترتیب بین کلمات توجهی نمی‌کنند و این یک نقطه ضعف برای معیار تعداد n تایی های مشترک می باشد. این موضوع در طولانی‌ترین زیر رشته‌ی مشترک در نظر گرفته می شود. به مثال زیر توجه نمایید

مثال : فرض کنید که سه جمله S1 و S2 وS3 به صورت زیر موجود باشند.

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

فرض می کنیم S1 به عنوان مرجع بوده و S2 و S3 هم جملات خلاصه های سیستمی باشد. S2 و S3 امتیازات یکسانی را در تعداد 2 تایی های مشترک کسب می‌کنند چراکه هر 2 جمله شامل یک 2تایی مشترک  “the gunman” با جمله مرجع می باشند و این در حالی است که معنای این دو جمله کاملا متفاوت از همدیگر می باشد. در ارزیابی با طولانی‌ترین زیر رشته مشترک ، جمله S2 امتیاز 3/4=0.75 و جمله S3 امتیاز 2/4=0.5 را کسب می کنند. بنابراین در این مثال با ارزیابی طولانی‌ترین زیر رشته مشترک ، جمله دوم امتیاز بیشتری نسبت به جمله سوم کسب خواهد  کرد.               

به هر حال LCS دارای یک مشکل هم می باشد و آن هم این است که فقط به بزرگترین زیر رشته توجه می کند و به سایر زیررشته ها توجهی ندارد.به عنوان مثال در جمله

S4. the gunman police killed

الگوریتم LCS ، یکی از زیر رشته های “the gunman” یا  “police killed” و نه هر دو را در نظر گرفته و بر همین اساس امتیاز جمله 4 و جمله 3 در معیار  طولانی‌ترین زیر رشته مشترک یکسان می شود. در معیار تعداد nتایی‌های مشترک جمله 4 به جمله 3 ترجیح داده می شود.        

در قسمت قبل به محاسبه طولانی‌ترین زیر رشته مشترک در سطح جمله اشاره شد. برای محاسبه آن در سطح خلاصه هم مانند قسمت قبل از LCS استفاده می شود. اگر خلاصه مرجع شامل u جمله و در مجموع m کلمه باشد و خلاصه سیستمی شامل v جمله و n کلمه باشد معیار ارزیابی طولانی‌ترین زیر رشته مشترک به صورت زیر محاسبه خواهد شد.

 

معیار ارزیابی طولانی‌ترین زیر رشته مشترک وزن‌دار      

LCS ویژگی های جذابی دارد که در قسمت قبل به آنها اشاره کردیم.  متاسفانه LCS مشکل دیگری هم دارد و آن عدم در نظر گرفتن فاصله قرار گیری بین کلمات می باشد. به عنوان مثال جمله مرجع X و جملات خلاصه Y1 و Y2 را به صورت زیر در نظر بگیرید:

X:  [A B C D E F G]

Y1: [A B C D H I K]

Y2: [A H B K C I D]

با معیار طولانی‌ترین زیر رشته مشترک ، Y1 و Y2 هر دو به طور یکسان امتیاز می گیرند. در حالی که Y1 باید امتیاز بیشتری کسب نماید. طولانی‌ترین زیر رشته مشترک وزن‌دار با بخاطر سپردن طول کلمات متوالی این مشکل را حل می کند..   

معیار ارزیابی تعداد جفت کلمات مشترک با فاصله آزاد در متن

به هر جفت کلمه (با حفظ ترتیب) در جمله، Skip-bigram گفته می شود. این معیار با اندازه گیری تعداد Skip-bigram های مشترک بین خلاصه های سیستم و خلاصه های مرجع محاسبه می شود.  به عنوان مثال جملات زیر را در نظر بگیرید :

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

S4. the gunman police killed               

هر جمله ای C(4,2) = 6    تا  Skip-bigram دارد.

S1 = ( “police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman” )

با محاسبه تعداد انطباق ها در خلاصه های مرجع و سیستمی این معیار محاسبه می شود. از این معیار بیشتر در ارزیابی ترجمه ماشینی استفاده می شود.

 

 

 

Comments (3) Posted to ابزار ارزیابی خلاصه ها 07/22/2011 Edit

Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار


 
 
ابزار ارزیابی ( Rouge( A Package for Automatic Evaluation of Summaries        

ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی   و بازیابی اطلاعات  هم استفاده شده است. Rouge مخفف جمله ی "Recall-Oriented Understudy for Gisting Evaluation" به معنای "ارزیابی مبتنی بر یادآوری برای خلاصه" می باشد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به ROUGE-N، ROUGE-L، ROUGE-W و ROUGE-S می توان اشاره کرد. در ادامه به این معیار ها اشاره می کنیم.

معیار ارزیابی ROUGE-N
معیار ارزیابی ROUGE-L: Longest Common Subsequence
معیار ارزیابی ROUGE-W: Weighted Longest Common Subsequence       
معیار ارزیابی ROUGE-S: Skip-Bigram Co-Occurrence Statistics
معیار ارزیابی ROUGE-SU: Extension of ROUGE-S     
 
 
البته ما در این نرم افزار علاوه بر این ها، معیارهای دیگری را نیز در نظر گرفته، الگوریتم آن را طراحی و پیاده سازی نموده ایم که به مرور آنها را توضیح خواهم داد.
 

Comments (1) Posted to ابزار ارزیابی خلاصه ها 06/01/2011 Edit

روش هاي ارزيابي خلاصه ساز ها - بخش دوم


 
ارزيابي بيروني (جعبه سياه) [2] 
برخلاف ارزيابي دروني ، در ارزيابي بيروني توجه برروي کاربر نهايي معطوف مي شود .درنتيجه در اين روش ميزان مؤثر بودن و قابليت پذيرش خلاصه هاي توليد شده با بعضي روشها ، مثل ارزيابي رابطه اي يا قابليت فهم در خواندن ، سنجيده مي شود. همچنين اگر خلاصه به نوعي شامل مجموعه دستوراتي باشد يک روش ممکن براي ارزيابي آن ، بررسي قابليت رسيدن به نتيجه با پيروي از دستورات خواهد بود. ساير روشهاي ممکن براي سنجش ، جمع آوري اطلاعات در يک مجموعه بزرگ از اسناد است ، ميزان تلاش و زمان موردنياز براي پس_ويرايش خلاصه توليد شده توسط ماشين براي بعضي مقاصد خاص ، يا تاثير سيستم خلاصه ساز برروي سيستمي که جزئي از آن است ، براي مثال بازخورد مرتبط در يک موتور جستجو و يا يک سيستم پرسش_پاسخ ، مي باشد. 
چندين سناريوي بازي مانند به عنوان روشهاي سطحي براي ارزيابي خلاصه ، پيشنهاد داده شده که ترتيب هاي مختلفي دارند. در ميان آنها بازي Shannon (تئوري اطلاعات) ، بازي سوال (کارايي عمل ) ، بازي دسته بندي و کلمات کليدي انجمني (بازيابي اطلاعات) مي توان نام برد. [1] 
بازي Shannon 
بازي Shannon که نوعي از معيارهاي سنجش Shannon در تئوري اطلاعات است ، تلاشي براي تعيين کيفيت محتوي اطلاعات بوسيله حدس لغت بعدي (حرف يا کلمه) مي باشد ، و به اين ترتيب متن اصلي را مجددا ايجاد مي کند. اين ايده از معيارهاي Shannon از تئوري اطلاعات اقتباس شده است ، که در آنجا از سه گروه مخبر خواسته مي شود قطعات مهم از مقاله منبع را (با مشاهده متن کامل ، يک خلاصه توليد شده و يا حتي هيچ متني) به صورت حرف به حرف يا کلمه به کلمه مجددا توليد کنند. سپس معيار حفظ اطلاعات با تعداد ضربه هاي کليدي که براي ايجاد مجدد قطعه اصلي طول مي کشد ، . سنجيده مي شود. Hovey و Marcu نشان دادند که اختلاف زيادي در اين سه سطح (در حدود فاکتور 10 در بين هر گروه) وجود دارد. مشکل روش Shannon اين است که به فردي که عمل حدس زدن را انجام مي دهد وابسته است و درنتيجه بطورضمني مشروط به دانش خواننده است. معيار اطلاعات با دانش بيشتر از زبان و حوزه و ... کاهش مي يابد. 
بازي سوال 
هدف از بازي سوال ، آزمايش ميزان فهم خواننده از خلاصه و توانايي آن براي نقل وقايع کليدي مقاله منبع است . اين عمل ارزيابي در دو مرحله انجام مي شود . ابتدا آزمايشگر مقاله هاي اصلي را مي خواند و بخشهاي مرکزي آن را علامت گذاري مي کند. سپس از عبارات مهم بخشهاي مرکزي متن ، سوالاتي طرح مي کند. و در مرحله بعد ، ارزياب سوالات را سه مرتبه پاسخ مي دهد ؛ يکبار بدون مشاهده هيچ متني (baseline 1) ، پس از مشاهده يک خلاصه ساخته شده توسط سيستم ، و درانتها پس از مشاهده متن اصلي (baseline 2) . خلاصه ايي که به خوبي وقايع کليدي مقاله را نقل کرده باشد ، بايد قادر به پاسخگويي به بيشتر سوالات (با نزديکتر بودن به baseline2 نسبت به baseline1 ) باشد . اين طرح ارزيابي براي مثال در ارزيابي خلاصه متن Q&A و TIPSTER SUMMAC هنگاميکه نرخ اطلاع رساني صحيح را براي فشردگي 1.5 يافت ، مورد استفاده قرار گرفته است. 
بازي دسته بندي 
بازي دسته بندي با دسته بندي اسناد منبع (آزمايشگرها) و متون خلاصه (اطلاع دهنده ها ) ، سعي درمقايسه قابليت دسته بندي آنها به يکي از N دسته دارد. سپس مطابقت دسته بندي خلاصه ها به متون اصلي سنجيده مي شود. يک خلاصه کاربردي بايد در همان دسته ي سند منبع اش قرارگيرد . دو نسخه از اين آزمايش در SUMMAC اجرا شد. اگر هر دسته با يک يا چند کلمه کليدي تعريف شود ، بازي دسته بندي به سناريوي تداعي کلمات کليدي ، عموميت پيدا مي کند. 
تداعي کلمات کليدي 
تداعي کلمات کليدي ، يک رويه ساده اما تاحدودي سطحي تر است که به کلمات کليدي وابسته ، (دستي يا اتوماتيک) براي اسناد در حال خلاصه شدن اکتفا مي کند. 
براي مثال خلاصه هاي توليد شده توسط سيستم هاي خلاصه سازي را به همراه پنج ليست از کلمات کليدي چاپ شده در مجلات، به قاضي هاي انسان ارائه مي دهند. سپس اين قاضي ها هرخلاصه را با ليست صحيحي از کلمات کليدي مرتبط مي کنند . از آنجا که کلمات کليدي تعيين شده توسط ناشر مرتبط با محتوي مقاله است ، اگر موفقيت آميز بود ، خلاصه پوشش دهنده جنبه هاي مرکزي متن موردنظر مي باشد. مزيت اصلي اين روش آن است که هيچ زحمتي از بابت حاشيه نويسي تحميل نمي کند. 

ابزارهاي ارزيابي 
به منظور استفاده از يک رويه سخت تر و قابل تکرار ، براي خودکارکردن نسبي عمل مقايسه خلاصه ها ، ساخت يک پيکره دقيق که شامل منابع و خلاصه هاي استخراج شده آنها باشد ، سودمند است. 
هر استخراج ، چه توسط يک مخبر انساني تهيه شده باشد يا يک ماشين ، به عنوان يک خلاصه صحيح از متن اصلي درنظر گرفته مي شود؛ يعني براي حفظ معني در بالاترين درجه ممکن .از آنجا که واحدهاي جمله اي از متن اصلي و خلاصه هاي مختلف به صورت موجوديت شناخته شده اند پايه و بناي يک پيکره استخراج شده ، مي تواند کاملا به برنامه هاي کامپيوتري واگذار شود. تعدادي از ابزارها براي اين منظور گسترش يافته اند. 
محيط ارزيابي خلاصه ها 
محيط ارزيابي SEE ، محيطي است که در آن ارزيابها مي توانند کيفيت يک خلاصه را در مقايسه با يک خلاصه مرجع مورد سنجش قرار دهند. متوني که درگير ارزيابي هستند ، با شکسته شدن به ليستي از قطعات (عبارات ، جملات و..) مورد پيش پردازش قرار مي گيرند .براي مثال هنگامي که يک سيستم مستخرج با سايز قطعه جمله را ارزيابي مي کنيم ، ابتدا متون با شکسته شدن به جملات آماده سازي مي شوند. 
در طول فاز ارزيابي ، هر دو خلاصه در دو صفحه مجزا نشان داده مي شوند و واسطه ايي براي ارزيابي درنظرگرفته شده تا برروي محتوا و کيفيت خلاصه ها قضاوت کنند. براي سنجش محتوي ، ارزياب از ميان خلاصه مورد ارزيابي ، قطعه به قطعه حرکت مي کند و برروي يک يا چند واحد مرتبط در خلاصه مدل کليک مي کند. 
براي هر کليک، ارزياب مي تواند تعيين کند آيا واحدهاي علامت دار تمام ، بيشتر ، بعضي و يا کمي از محتوي مدل کليک شده را بيان مي کنند .براي سنجش کيفيت ارزياب وضعيت گرامري ، پيوستگي و همبستگي را در سطح مختلف ارزيابي مي کند؛ تمام ، اکثريت ، بعضي ، کمي ، هيچ . کيفيت هم براي هر قطعه از خلاصه همتا و هم براي کيفيت کلي خلاصه همتا (پيوستگي ، طول ، پوشش محتوي گرامري و سازمان متن همتا به صورت کلي) ارزيابي مي شود. البته نتايج مي تواند هر زمان ذخيره و بارگذاري مجدد شود. نسخه خاصي از SEE در مسابقات دوره هاي 2001-2004 براي ارزيابي دروني متون خلاصه اخبارمورد استفاده قرارگرفت. 
MEADeval 
MEADeval ابزاري براي ارزيابي خلاصه هاي استخراج شده با فرمت DUC و MEAD است که با مقايسه خلاصه با يک خلاصه مرجع (يا خلاصه ايده آل) اين سنجش را انجام مي دهد. MEADeval اساسا روي فايلهاي استخراجي عمل مي کند که جملاتي را که در خلاصه استخراجي هستند را توصيف مي کند. 
ISI ROUGH بسته ي ارزيابي خودکار خلاصه 
بسته ي ISI ROUGH لين که بعدها با نام ROUGH معروف شد، تلاشي براي خودکار کردن ارزيابي خلاصه ها است که هم رخدادي هاي کلمه _n موقعيتي در بين سه تايي هاي خلاصه را موردسنجش قرار مي دهد. اين سه تايي ها معمولا شامل يک يا چند خلاصه توليد شده توسط سيستم است به همراه يک يا چند خلاصه مرجع ساخت انسان که به عنوان استاندارد طلايي براي مقايسه عمل مي کند. 
ROUGH مخفف Recall-Oriented Understudy for Gisting Evaluation است. ROUGH در مقايسه با BLEU که دقت مدار است ، فراخواني مدار است ؛ و جداگانه کلمات _nموقعيتي مختلفي را ارزيابي مي کند. همچنين ROUGH هيچ جريمه اي براي طول اعمال نمي کند که با توجه به ذات خلاصه سازي متن که در آن هدف فشرده سازي متن است ، همخواني دارد. در نسخه هاي اوليه ROUGH از دقت در F_measure استفاده مي شد که در رابطه آن دقت هم دخالت داشت .نسخه ROUGH 1/5/5 به صورت زير امتيازدهي انجام مي داد : 
ROUGE-1. . . n : هم پوشاني _nموقعيتي _n) نگاشتي) بين خلاصه سيستم و خلاصه ها ي مرجع. 
ROUGE-L : مانند ROUGE-W است با اين تفاوت که به منظور توسعه کلمات متوالي، از سيستم وزن دهي استفاده مي کند. 
ROUGE-Sn : از هم_وقوعي آماري دونگاشتي ، بدون محدوديت در طول فاصله، و با حداکثر فاصله n کلمه عبور مي کند . 
ROUGE-Sun : مانند ROUGE-Sn ، با اين تفاوت که تک نگاشت ها درنظر گرفته نمي شوند. 
Rough همچنين امکان ريشه يابي (با الگوريتم Porter) و حذف کلمات توقف را پيش از محاسبه معيار مي دهد. اين امکانات متاسفانه تنها براي زبان انگليسي طراحي شده است. 
 

Comments (1) Posted to ابزار ارزیابی خلاصه ها 05/24/2011 Edit

روش هاي ارزيابي خلاصه ساز ها - بخش اول

 
 
  

يک مرحله تعيين کننده در هر سيستم ، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است . سيستم ها ي پردازش زبان طبيعي نيز از اين قاعده مستثني نيستند. بلکه با توجه به بي قاعدگي هاي زبان انساني ، اثبات منطقي اين پيکره ي بي قاعده ، يک ريسک است. يک رويه متداول براي برقراري ارتباط با اين حقيقت ، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده ، به صورت زيرمجموعه اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي شود .در نتيجه نمود رويه اي خاص ، مي تواند در قالب يک آزمايش، اعتبارسنجي شود. 
امروزه اکثر سيستم هاي خودکار خلاصه سازي متن ، مبتني بر استخراج هستند . گرچه کارهايي براي پس_ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي ، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصه ها چه از نظر کلمات بکاررفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن ، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصه ها در مقايسه با يک خلاصه مرجع ثابت و تغييرناپذير ، رضايت بخش نيست. همچنين با توجه به اينکه نرخهاي فشردگي مختلف براي انواع مختلفي از متون مناسب است ، روشهاي ارزيابي که امکان ارزيابي براي نرخهاي مختلف مي دهند را بايد مورد توجه قرار داد. 
روشهاي ارزيابي خودکار که در اين گزارش ارائه شده اند عموما با مشابهت هاي محتوا بين خلاصه ها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روشها که در ادامه توضيح داده مي شود ، بايد براي پوشش هرچه بيشتر اين جنبه ها (قابليت مقايسه نتايج با سيستم هاي ديگر ، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روشهاي خلاصه سازي متفاوت) بکارگرفته شود. 
واضح است که به منظور اطمينان از پاسخ دهي نتايج و انجام يک مقايسه قابل اطمينان در ميان سيستم هاي خلاصه سازي ، چند نوع محيط استاندارد شده براي ارزيابي شديدا مورد نياز مي باشد. نخستين تفکيک که در روشهاي ارزيابي سيستم ها ي خلاصه انجام مي شود ، روشهاي ارزيابي دروني و بروني است. 

ارزيابي دروني (جعبه شيشه اي) 
ارزيابي دروني سيستم خلاصه را بدون توجه به هدف نهايي آن مورد سنجش قرار مي دهد. در عوض ، توجه برروي فاز توليد در چرخه عمر يک خلاصه است. اکثر روشهاي ارزيابي خلاصه دروني هستند و اغلب با يک استاندارد طلايي مقايسه مي شوند. در NLP ، به يک مجوعه ايده آل از نمونه هاي مرجع ، اغلب پيکره زباني استاندارد طلايي اتلاق مي شود. معمولا يک استاندارد طبيعي به صورت يک مدل بسيارخوب درنظر گرفته مي شود و بعنوان حد بالايي از آنچه معقول است و مي خواهيم با ابزارهاي اتوماتيک به آن برسيم ، عمل مي کند. در مورد خلاصه سازي ، اين مجموعه خلاصه هاي استاندارد طلايي را مي تواند با يک سيستم مرجع خلاصه ساز يا مخبران انساني توليد کرد. ارزيابي دروني توجه اصلي اش بروي پيوستگي و اطلاع رساني خلاصه ها است و درنتيجه تنها کيفيت هاي خروجي را مورد سنجش قرار مي دهد. [1] 
پيوستگي خلاصه : 
متن خلاصه اي که از طريق روشهاي مبتني بر استخراج (عمليات کپي و درج روي عبارات ، جملات و يا پاراگرافها) توليد مي شوند، گاهي از بعضي بي ارتباطي هاي معنايي در دنباله ي جملات متوالي رنج مي برند . يک راه براي سنجش پيوستگي خلاصه ، رتبه بندي يا درجه بندي جملات برحسب ميزان پيوستگي شان و سپس درجه جملات خلاصه با امتيازات خلاصه هاي مرجع ، با امتيازات جملات منبع ، يا با امتيازات ساير سيستم هاي خلاصه ساز ، مقايسه شود. 
اطلاع رساني خلاصه : 
يک راه براي سنجش ميزان اطلاع رساني خلاصه توليد شده ، مقايسه آن با متن اصلي از نظر ميزان اطلاعات حفظ شده از منبع در خلاصه مي باشد. روش ديگر مقايسه خلاصه توليد شده با يک مرجع است که ميزان اطلاعات خلاصه مرجع را که در خلاصه توليد شده ، وجود دارد مورد سنجش قرار مي دهد . براي يک مجموعه اسناد ، پارامترهاي P&R و همچنين پارامترهاي سودمندي و مبتني بر محتوا را مي توان براي ارزيابي عملکرد بکار گرفت. 
دقت و بازخواني جمله : 
بازخواني تعداد جملات خلاصه مرجع که در خلاصه توليد شده حضور دارند را مشخص مي کند. به همين ترتيب مي توان دقت را به صورت تعداد جملات خلاصه توليد شده که در خلاصه مرجع وجود دارند ، تعريف کرد. بازخواني و دقت معيارهاي استاندارد در بازيابي اطلاعات هستند و اغلب از ترکيب آنها، تحت عنوان F_measure ياد مي شود. مشکلات اصلي که اين معيارها براي خلاصه سازي متن دارند آن است که قادر به تشخيص بين خلاصه هاي ممکن ولي يکسان از نظر کيفيت نيستند و همچنين خلاصه هايي که محتواي بسيار متفاوتي دارند ممکن است امتيازات مشابهي دريافت کنند. 
رتبه دهي به جملات : 
از آنجا که در رتبه دهي ، جملات خلاصه ، از روي شايستگي شان براي شمول در خلاصه ساخته مي شود ، يک رويه جزء نگرتري نسبت به بازخواني و دقت است و از معيارهاي همبستگي مي توان براي مقايسه بين خلاصه توليد شده با خلاصه مرجع کمک گرفت. بازخواني و دقت ، اساسا براي خلاصه ها ي مبتني بر استخراج اعمال مي شوند، حتي اگرامکان اعمال روشهاي استاندارد تنظيم جمله با چکيده ها وجود داشته باشد . گرچه اين مسئله براي انسان طبيعي نيست و ممکن است گمان شود که تقليد از يک الگوريتم کامپيوتري بهترين راه براي جمع آوري خلاصه هاي مرجع نيست. 
روش سودمند : 
روش سودمند به خلاصه هاي مرجع امکان دربرداشتن واحدهاي استخراج شده (جمله ، پاراگراف و ...) با يک تابع عضويت فازي در خلاصه مرجع را مي دهد. در UM خلاصه مرجع شامل تمام جملات اسناد منبع، به همراه مقادير اطمينان ، از 0 تا 10 ، براي احتمال شمول در خلاصه مي باشد. درمورد رتبه جملات ، اين مقادير اطمينان توسط مخبران انسان اختصاص داده مي شود. بعلاوه روشهاي سودمند قابليت توسعه براي اعمال تاثير منفي واحدهاي استخراج شده برروي يکديگر را دارند . اين ويژگي خصوصا هنگاميکه ارزيابي خلاصه هاي چند سندي موردنظر باشد ، درجايي که يک جمله ، امتياز جمله مشابه با آن را جريمه مي کند (يعني سيستمي که دو يا چند جمله معادل را استخراج مي کند ، جريمه بيشتري نسبت به سيستمي که تنها يکي از اين جملات (حتي جمله با اطلاعات کمتر(درجه اطمينان پائين تر ) را استخراج مي کند ، دريافت مي کند) مفيد است. درمقابل معيارهاي بازخواني و دقت و درصد توافق ، که به صورت تعداد توافقات براي کل توافقات ممکن تعريف مي شود، روش سودمند امکان ارزيابي خلاصه ها را در نرخ هاي فشردگي متفاوت مي دهد .روش سودمند هم مانند بسياري از معيارهاي ارزيابي مشابه ، بيشتر براي خلاصه هاي مبتني بر استخراج مفيد است. آزمايشات جديدتر ارزيابي ، موجب توسعه معيار سود نسبي شده است. 
مشابهت محتوا : 

معيارهاي شباهت محتوا مي تواند براي ارزيابي محتواي معنايي ، هم در خلاصه هاي مبتني بر استخراج و هم چکيده ها اعمال شود. يکي از اين معيارها آزمون تست مجموعه لغات يک زبان است که در آن روشهاي بازيابي اطلاعات استاندارد ، براي مقايسه بردارهاي تکرار کلمه ، که پس از محاسبه ريشه ها در خلاصه موضوع بندي و استفاده مي شود. فرهنگ لغت کنترل شده و مجموعه هاي هم معني که با تحليل معاني پنهان يا شاخص تصادفي ايجاد مي شود ، را مي توان با ترکيب فرکانس عبارات هم معني ، براي کاهش عبارتها در بردارها بکار برد ، که موجب تغييرات بيشتري در بين خلاصه ها مي شود که اين مسئله در هنگام ارزيابي چکيده ها بسيار مفيد است. 
يکي از معايب اين روشها آن است که تا حدي نسبت به نفي و تغيير در ترتيب کلماتي که برروي تفسير محتوا تاثير گذارند ، حساس است. يک رويکرد ممکن براي غلبه بر اين مسئله استفاده از فرکانس بروي دنباله هايي از کلمات (يعني _n موقعيتي) بجاي يک کلمه واحد است. همچنين با تحليل معنايي پنهان يا شاخص گذاري تصادفي ، بايد براين حقيقت واقف باشيم که اين روشها لزوما مجموعه هاي هم معني درستي توليد نمي کنند ، عموما اين مجموعه ها همچنين کلمات متضاد و شمول و کلمات ديگري که در زمينه هاي معنايي مشابه روي مي دهد ، (در سطح کلمه يا سند براي RI و در سطح سند براي LSA ) ، را نيز شامل مي شوند.  
 

Comments (3) Posted to ابزار ارزیابی خلاصه ها 05/19/2011 Edit

ابزار ارزیابی خلاصه سازهای ماشینی برای زبان فارسی ROUGE

 

 

سلام

مدتیه که کار بر روی ابزار ارزیابی خلاصه سازهای ماشینی برای زبان فارسی یا همون Rouge رو شروع کردیم و تقریبا مراحل پایانی پیاده سازی این نرم افزار رو داریم انجام میدیم.

به زودی توضیحات لازم در مورد روند عملکرد نرم افزار ، الگوریتم های بکار رفته و جزئیات پیاده سازی رو توی وبلاگ قرار می دم.

پیروز باشید

 

 

Comments (0) Posted to ابزار ارزیابی خلاصه ها 05/14/2011 Edit


درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds