ارزیابی سیستم های توصیه گر


سلام به تمام خوانندگان و دنبال کنندگان وبلاگ

من از این به بعد برای درس سیستم های تصمیم یار جناب دکتر کاهانی بر روی موضوع Evaluation Metrics for  Recommendation Systems کار خواهم کرد و مطالب وبلاگ از این به بعد بیشتر  به سمت وسوی این موضوع میل خواهد کرد.

به مرور زمان مطالب گردآوری شده و نتایج  بدست آمده در رابطه با این موضوع در وبلاگ انتشار داده خواهد شد.

پیروز باشید و سربلند

Comments (3) Posted to ارزیابی سیستم های توصه گر 12/13/2011 Edit

برگزاری کلاس های کنکور درس اصول طراحی کامپایلر


 
با توجه به تقاضای دانشجویان بسیاری مبنی بر برگزاری کلاس کنکور درس اصول طراحی کامپایلر برای آزمون کارشناسی ارشد امسال، متقاضیان می توانند از طریق ایمیل با اینجانب در تماس باشند.
در صورت آزاد بودن وقت اینجانب در خدمت دوستان متقاضی خواهم بود. 
 
پیروز باشید
 

Comments (1) Posted to حل تمرین درس کامپایلر 11/30/2011 Edit

آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی مشهد‬ برگزار می کند


 
سومین دوره سالانه کارگاه های آموزشی آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی مشهد‬ 
 
Web Technology Lab
 
پیرامون موضوعات: 
وب معنایی
پردازش زبان طبیعی
داده های پیوندی
ابزارهای کاربردی
5 لغایت 9 آذر ماه 1390 
 
امکان ثبت نام در روز برگزاری کلاس ها در محل برگزاری کارگاه ها نیز امکان پذیر می باشد. 
 
برای کسب اطلاعات بیشتر، لینک زیر را مطالعه کنید.
 
مطالعه جزئیات کارگاه ها
 
 

Comments (0) Posted to وب معناگرا چیست؟ 11/25/2011 Edit

مجموعه داده های استاندارد برای خلاصه سازی


یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، CASTcorpus و DUCcorpus اشاره نمود. با توجه به بررسی های انجام شده، مجموعه داده های (DocumentUnderstandingConferences(DUC انتخاب شده اند. در ذیل مختصرا این مجموعه داده ها شرح داده شده است.
 
داده های استاندارد DUC
 
کنفرانس DUC از سال 2001 زیر نظر NIST شروع به انتشار داده های مورد نیاز برای خلاصه سازی متون کرده است و تا کنون 7 مجموعه از داده ها را تحت عنوان DUC2001 تا  DUC2007 ارائه نموده است. هر کدام از این مجموعه ها با اهداف خاصی انتشار یافته اند. هدف اصلی این کنفرانس کمک در ارزیابی روش های خلاصه سازی خودکار متون و بررسی روش های ارزیاب خلاصه سازی می باشد. مجموعه داده های DUC2001 تا  DUC2004 برای خلاصه سازی تک سندی و چند سندی تولید شده اند. مجموعه داده های DUC2005 تا  DUC2007 هم فقط برای خلاصه سازی چند سندی تولید شده اند. با توجه به اینکه مجموعه داده DUC2007 آخرین مجموعه از این داده ها و کامل¬ترین آنها می باشد، در حال حاضر اکثر مقالات این مجموعه مورد ارجاع قرار می گیرد. داده های DUC2007 در مجموع شامل 45 موضوع بوده که هر کدام شامل 25 سند می باشد. 10 نفر از اعضای NIST وظیفه نوشتن خلاصه های دستی برای این مجموعه را بر عهده داشته اند به طوری که برای هر موضوع 4 نفر به صورت تصادفی انتخاب شده و خلاصه های چکیده ای تولید کرده اند.
 
 
با تشکر از آصف پورمعصومی 
 

Comments (1) Posted to ابزار ارزیابی خلاصه ها 11/04/2011 Edit

بالاخره پروژه قرآنی به کجا رسید؟

 

تکمیل RDF های سوره ها و آیات قرآن کریم


طراحي و پياده‌سازي پيكره متني قرآن كريم در قالب RDF  و به شكل محتواي الكترونيكي در بر گیرنده¬ی هر گونه اطلاعات مفید و سودمند برای انجام عملیات متن کاوی، اصلی ترین بخش پروژه ی ما را به خود اختصاص داده است.
ما در فاز اولیه ی پروژه که با وجود وقفه در انجام آن مجددا از سر گرفته شد، آنتولوژی ها و پیکره های قرآنی موجود را جمع آوری کرده و به طور دقیق مورد بررسی قرار دادیم و با توجه به نیازهای فعلی و اطلاعات لازم برای گام های بعدی پروژه و انجام عملیات متن کاوی بر روی قرآن تصمیم گرفتیم که در نهایت، یک قالب ثابت برای سوره و آیه های قرآن کریم در نظر گرفته و با گردآوری پیکره های مناسب و موجود، محتوی این RDF ها را با برنامه نویسی تکمیل نماییم.
قالب RDF های در نظر گرفته شده برای پروژه به صورت زیر می باشد:
قالب RDF در نظر گرفته شده برای سوره:
-     نام سوره
-    شماره ی سوره
-    جزء های در بر گیرنده ی سوره
-    حزب های در بر گیرنده ی سوره
-    اسامی دیگر سوره
-    معنی نام سوره
-    نام سوره به زبان عربی
-    مکی یا مدنی بودن سوره
-    مفهوم کلی مطرح شده در سوره
-    کلیه ی مفاهیم ذکر شده در آیات سوره
-    صفحه ی آغازین سوره در قرآن عثمان طه
-    صفحه ی پایانی سوره در قرآن عثمان طه
-    تعداد آیه های سوره
-    تعداد سجده های سوره
-    تعداد سجده های واجب سوره
-    سوره ی قبلی
-    سوره ی بعدی
قالب RDF در نظر گرفته شده برای آیه:
-    فیلد مشخص کننده ی چندمین آیه از چندمین سوره
-    جزء در بر گیرنده ی آیه
-    حزب در بر گیرنده ی آیه
-    متن آیه به زبان عربی
-    ترجمه ی آیه به زبان فارسی
-    ترجمه ی آیه به زبان انگلیسی
-    ترجمه ی آیه به سایر زبان های موجود
-    تفسیر آیه به زبان های موجود
-    مفاهیم ذکر شده در آیه
-    شماره سوره ی در بر گیرنده ی آیه
-    نام سوره ی در بر گیرنده ی آیه
-    مکی یا مدنی بودن سوره ی در بر گیرنده ی آیه
-    شامل سجده بودن آیه
-    شامل سجده ی واجب بودن آیه
-    تعداد تکرار هر کدام از حروف الفبا در آیه
-    تعداد نقاط به کار رفته در حروف بکار رفته در آیه
-    تعداد تکرار هر کدام از حرکات، تنوین ها، سکون و تشدید به کار رفته در آیه


با قالب های در نظر گرفته شده برای سوره و آیه و تکمیل اطلاعات فوق، دامنه ی وسیعی از اطلاعات مفید و سودمند را برای انجام عملیات متن کاوی برای پژوهشگران و محققان قرآنی فراهم خواهیم آورد. در حال حاضر بخش اعظم RDF های در نظر گرفته تکمیل گردیده و یکی از مهم ترین بخش هایی که در حین کار خودمان به پروژه اضافه کردیم، مفاهیم مطرح شده در هر آیه و هر سوره است که به عنوان مثال می¬توان به روش های الگوریتمیک و البته با دقت نه چندان بالا مفهوم کلی هر آیه و سوره را استخراج کرد.
همانطور که ذکر گردید مفاهیم مطرح شده در هر آیه و هر سوره یکی از مهم ترین داده های موجود در RDF آیه و سوره است که می تواند به شدت مورد استفاده¬ی پژوهشگران و محققان قرآنی قرار گیرد. واحد پژوهش بیت القرآن امام علی (ع) شهرستان قم، اقدام به انتشار قرآنی نموده است که در هر آیه ی قرآن مضامین و مفاهیم مطرح شده در آن آیه ذکر گردیده است و با توجه به مکتوب بودن سند فوق، ما همینک در حال تلاش برای تماس با مجری طرح جهت دستیابی به فایل متنی فوق می باشیم.
در صورت دستیابی به این فایل، با تکمیل RDF های موجود، با فراهم آوردن اطلاعات بسیار مفید و سودمندی برای سوره ها و آیات قرآن کریم، بخش اعظمی از پروژه به اتمام خواهد رسید و گام بعدی پروژه، انتشار داده ها بر روی سایت WTLab می باشد.

انتشار داده های قرآنی به صورت RDFبر روی سایت WTLab
در حال حاضر برای هر کدام از سوره ها و آیه ها یک URL تخصیص داده ایم و  اطلاعات موجود پس از تکمیل، آماده ی انتشار به صورت RDFبر روی سایت WTLabمی باشند.
-    به عنوان مثال تخصیص URL برای سوره ی حمد و همچنین اولین آیه از سوره ی حمد به صورت زیر صورت خواهد بود:


http://wtlab.um.ac.ir/LinkData/Quran/1

http://wtlab.um.ac.ir/LinkData/Quran/1/1
 

 و من الله توفیق

Comments (2) Posted to پروژه قرآنی 10/24/2011 Edit

شروع سال تحصیلی جدید

 

با شروع سال تحصیلی جدید منتظر مطالب جدید و متنوعی در وبلاگ باشید. در تابستان با توجه به مسافرت های تابستانی، بروز رسانی وبلاگ به ندرت انجام می شد که با شروع سال تحصیلی مجدد مطالب به طور مکرر به روز رسانی می شود و شما را در رابطه با موضوعات و پروژه های در حال انجام در جریان خواهم گذاشت. در ضمن از کلیه ی کسانی که با نظرات خود، اینجانب را مورد لطف خود قرار می دهند، تشکر می نمایم.

پیرزو باشید و سربلند

Comments (3) Posted to کلی 09/09/2011 Edit

حلول ماه مبارک رمضان ماه امت محمدی (ص) ماه میهمانی خدا مبارک باد

 

طلیعه رمضان

بار دیگر رمضان، ماه اُنس دوستان خدا از راه رسید و غریو شادی و همهمه عاشقان به آسمان برخاست و مژده اسارت شیطان و هوای نفسْ در همه جا پیچید. آری، آمد آن ماهی که به انتظارش بودیم؛ ماهی که جان را طراوتی دوباره می بخشد و روان آدمی را زنگار از چهره می شوید. طلیعه این ماه مبارک را بر ره پویان کوی حقیقت تبریک می گوییم.

پیشوای عارفان، حضرت امام سجاد علیه السلام در فرازهایی از دعای ماه مبارک رمضان چنین می فرمایند: «خداوندا، ماه رمضان را از کارهای برگزیده و واجبات ویژه، قرار دادی؛ ماهی که آن را از میان دیگر ماه ها برگزیدی و از میان تمام زمان ها و روزگاران، آن را انتخاب نمودی و بر جمیع اوقات سال برتری بخشیدی و انتخاب آنْ به دلیل قرآن و نوری است که در آن ماه فروفرستادی و ایمان را در آن دو برابر ساختی و روزه اش را واجب و شب زنده داران را برای عبادت در آن ترغیب فرمودی و شب قدر را که از هزار شب برتر است، در آن عظمت بخشیدی. پس به فرمان تو، روزش را روزه می داریم و به یاری تو، شبش را به عبادت می پردازیم».

در این ماه مبارک و به خصوص در لحظات نورانی و ملکوتی افطار ، سایرین را نیز از دعای خیر خود فراموش ننمایید... شاید با دعای شما سرنوشت یکی از دوستانتان را از سر بنویسید و اگر چنین کنید خیر دنیا و آخرت نصیبتان خواهد گردید...

التماس دعا

Comments (1) Posted to کلی 08/01/2011 Edit

توضیحات تکمیلی در مورد ابزار ارزیابی خلاصه سازها

 

 

معیارهای ارزیابی متون خلاصه

این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به تعداد واژگان مشترک، تعداد جفت کلمات مشترک با فاصله آزاد در متن ، تعداد n تایی های مشترک در متن، ، طول بزرگبرین زیر رشته مشترک و طول بزرگبرین زیر رشته مشترک وزن‌دار می‌توان اشاره کرد. در ادامه به این معیار ها اشاره خواهد شد. 

معیار ارزیابی تعداد واژگان مشترک

به عنوان ساده‌ترین معیار شباهت دو متن می‌توان تعاد واژگان مشترک بین آنها را در نظر گرفت. در این معیار تعداد واژگان مشترک بین خلاصه ماشینی با هریک از خلاصه‌های انسانی محاسبه می شود و بر تعداد کل واژگان تقسیم می گردد. سپس میانگسن این پمج عدد به عنوان معیار ارزیابی بازگزدانده می شود. 

معیار ارزیابی  تعداد n تایی های مشترک

این معیار، روشی است که مبتنی بر فراخوانی n تایی ها بین یک خلاصه سیستمی و مجموعه ای از خلاصه های انسانی می باشد. در این معیار تعداد n تایی‌های مشترک بین خلاصه‌های انسانی و خلاصه ماشینی بر کل تعداد nتایی‌های موجود در خلاصه انسانی تقسیم می گردد، که در آن n  بر گرفته شده از طول n تایی می باشد.

پر واضح است که این معیار، یک معیار مبتنی بر فراخوانی  می باشد. معیار مشابه BLEU که در ترجمه ماشینی مورد استفاده قرار می گیرد یک روش مبتنی بر دقت  می باشد. این معیار میزان انطباق یک ترجمه ماشینی را با تعدادی از ترجمه های انسانی، از طریق محاسبه ی میزان درصد n تایی هایی که بین دو ترجمه مشترک هستند ارزیابی می کند.

لازم به یادآوری است که در محاسبه این معیار هرچه تعداد خلاصه های مرجع بیشتر شود ، تعداد n تایی ها هم در معادله بیشتر خواهد شد که این امر معقول می باشد چراکه ممکن است چندین خلاصه خوب موجود باشد. هر زمان که تعدادی خلاصه مرجع به مجموعه خلاصه های ایده آل افزوده شود، در حقیقت فضای خلاصه های جایگزین و مطلوب افزوده خواهد شد.

معیار ارزیابی طولانی‌ترین زیررشته مشترک

در این معیار ارزیابی از الگوریتم های محاسبه طولانی ترین زیر رشته مشترک بین دو رشته  استفاده می شود.

یکی از مزایای این معیار این است که نیازی به محاسبات انطباق متوالی ندارد. مزیت دوم این روش این است که به صورت اتوماتیک طولانی‌ترین زیر رشته ی nتایی را در نظر می گیرد و بنابراین نیازی به تعیین طول n تایی پیش فرض نمی باشد.  همانطور که قبلا هم اشاره شد این معیار از F-Measure برای ارزیابی استفاده می کند و این در حالی است که در معیار تعداد n تایی های مشترک از معیار Recall استفاده می شود. Recall  میزان انطباق کلمات جمله های خلاصه ی مرجع (ایده آل) در خلاصه‌ی سیستمی را محاسبه می کند. Precision بر عکس Recall بوده و میزان انطباق کلمات خلاصه های سیستمی در خلاصه مرجع را محاسبه می کند. هر دو فاکتور دقت و فراخوانی، به ترتیب بین کلمات توجهی نمی‌کنند و این یک نقطه ضعف برای معیار تعداد n تایی های مشترک می باشد. این موضوع در طولانی‌ترین زیر رشته‌ی مشترک در نظر گرفته می شود. به مثال زیر توجه نمایید

مثال : فرض کنید که سه جمله S1 و S2 وS3 به صورت زیر موجود باشند.

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

فرض می کنیم S1 به عنوان مرجع بوده و S2 و S3 هم جملات خلاصه های سیستمی باشد. S2 و S3 امتیازات یکسانی را در تعداد 2 تایی های مشترک کسب می‌کنند چراکه هر 2 جمله شامل یک 2تایی مشترک  “the gunman” با جمله مرجع می باشند و این در حالی است که معنای این دو جمله کاملا متفاوت از همدیگر می باشد. در ارزیابی با طولانی‌ترین زیر رشته مشترک ، جمله S2 امتیاز 3/4=0.75 و جمله S3 امتیاز 2/4=0.5 را کسب می کنند. بنابراین در این مثال با ارزیابی طولانی‌ترین زیر رشته مشترک ، جمله دوم امتیاز بیشتری نسبت به جمله سوم کسب خواهد  کرد.               

به هر حال LCS دارای یک مشکل هم می باشد و آن هم این است که فقط به بزرگترین زیر رشته توجه می کند و به سایر زیررشته ها توجهی ندارد.به عنوان مثال در جمله

S4. the gunman police killed

الگوریتم LCS ، یکی از زیر رشته های “the gunman” یا  “police killed” و نه هر دو را در نظر گرفته و بر همین اساس امتیاز جمله 4 و جمله 3 در معیار  طولانی‌ترین زیر رشته مشترک یکسان می شود. در معیار تعداد nتایی‌های مشترک جمله 4 به جمله 3 ترجیح داده می شود.        

در قسمت قبل به محاسبه طولانی‌ترین زیر رشته مشترک در سطح جمله اشاره شد. برای محاسبه آن در سطح خلاصه هم مانند قسمت قبل از LCS استفاده می شود. اگر خلاصه مرجع شامل u جمله و در مجموع m کلمه باشد و خلاصه سیستمی شامل v جمله و n کلمه باشد معیار ارزیابی طولانی‌ترین زیر رشته مشترک به صورت زیر محاسبه خواهد شد.

 

معیار ارزیابی طولانی‌ترین زیر رشته مشترک وزن‌دار      

LCS ویژگی های جذابی دارد که در قسمت قبل به آنها اشاره کردیم.  متاسفانه LCS مشکل دیگری هم دارد و آن عدم در نظر گرفتن فاصله قرار گیری بین کلمات می باشد. به عنوان مثال جمله مرجع X و جملات خلاصه Y1 و Y2 را به صورت زیر در نظر بگیرید:

X:  [A B C D E F G]

Y1: [A B C D H I K]

Y2: [A H B K C I D]

با معیار طولانی‌ترین زیر رشته مشترک ، Y1 و Y2 هر دو به طور یکسان امتیاز می گیرند. در حالی که Y1 باید امتیاز بیشتری کسب نماید. طولانی‌ترین زیر رشته مشترک وزن‌دار با بخاطر سپردن طول کلمات متوالی این مشکل را حل می کند..   

معیار ارزیابی تعداد جفت کلمات مشترک با فاصله آزاد در متن

به هر جفت کلمه (با حفظ ترتیب) در جمله، Skip-bigram گفته می شود. این معیار با اندازه گیری تعداد Skip-bigram های مشترک بین خلاصه های سیستم و خلاصه های مرجع محاسبه می شود.  به عنوان مثال جملات زیر را در نظر بگیرید :

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

S4. the gunman police killed               

هر جمله ای C(4,2) = 6    تا  Skip-bigram دارد.

S1 = ( “police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman” )

با محاسبه تعداد انطباق ها در خلاصه های مرجع و سیستمی این معیار محاسبه می شود. از این معیار بیشتر در ارزیابی ترجمه ماشینی استفاده می شود.

 

 

 

Comments (3) Posted to ابزار ارزیابی خلاصه ها 07/22/2011 Edit

مقاله در مورد ترجمه ی ماشینی

 

با توجه به درخواست بسیاری از دوستان مبنی بر اطلاعات بیشتر در مورد ترجمه ی ماشینی در زبان فارسی و درخواست برخی از دوستان مبنی بر معرفی مقالات فارسی در این زمینه، من یک مقاله فارسی در این رابطه با نام " انسان مترجم و ترجمة ماشيني: بررسي موردي مشكلات ماشين ترجمة انگليسي به فارسي «پديده»" از نشریه ی فصلنامه كتابداري و اطلاع رساني را در این قسمت آورده ام.

چكيده
هدف از نگارش اين مقاله آن بود تا دست‌كم بخشي از مشكلات ترجمه ماشيني، مشخص و ريشه‌يابي گردد. يافته‌ها حاكي از آن بود كه «پديده» در حال حاضر داراي مشكلات فراواني است كه ريشة آن‌ها را در سه چيز مي‌توان جستجو كرد: 1) نبود زبانشناسان مجرب در گروه برنامه‌نويسان؛ 2) نحوـ‌ محوربودن تئوري زباني؛ 3) نبود قدرت تعقل و تفكر در ماشين‌هاي ترجمه. ضمناً مشخص گرديد كه مشكلات نوع اول را مي‌توان با به‌كارگيري نيروي متخصص رفع نمود. مشكلات نوع دوم با تجديدنظر در تئوري زباني و توجه به معنا قابل رفع است، اما- دست‌كم در شرايط كنوني- نمي‌توان قدرت تعقل و تفكر را به ماشين داد و بنابراين مشكلات مربوط به مورد 3 قابل حل نيستند. با وجود اين، نتيجه‌گيري شد كه براي ترجمة متون اينترنتي و حجم زيادي از اطلاعات، بويژه وقتي هدف درك كليات متن باشد، استفاده از ماشين به جاي انسان هم راحت‌تر است و هم سريع‌تر و معقول‌تر.
كليدواژه‌ها: ماشين ترجمه، ترجمة ماشيني، ترجمة انساني، شيوة ميان زباني در ترجمة ماشيني، شيوة انتقال در ترجمة ماشيني، ماشين ترجمة «پديده»، ترجمة انگليسي‌ـ فارسي
مقدمه
در آغاز اجازه دهيد ديدگاه‌هاي مختلفي را كه دربارة بخش آغازين عنوان اين مقاله وجود دارد، باهم مرور كنيم. در يك نگاه كلي سه ديدگاه مختلف درخصوص عنوان اين مقاله هست: 1) طرفداران نظرية نبود تفاوت بين انسان مترجم و ماشين ترجمه، 2) طرفداران تفوق انسان مترجم بر ماشين ترجمه، و 3) طرفداران تفوق ماشين ترجمه بر انسان مترجم.

برخي از صاحب‌نظران بر اين باورند كه در ترجمه، بين انسان و ماشين تفاوت چنداني وجود ندارد. آنان ضمن اقرار به مشكلات موجود در كار ماشين ترجمه و قبول عملكرد ضعيف آن نسبت به عملكرد مترجمان متخصص، اظهار مي‌دارند كه در آينده ماشين ترجمه از عملكردي بهتر برخوردار خواهد شد و در توجيه ادعاي خود مي‌گويند كه در شرايط فعلي، رايانه‌ها در انجام امور محاسباتي و رياضيات، نسبت به انسان از سرعت عمل بيشتري برخوردارند و به بيان ديگر انسان ابداً در اين زمينه‌‍‌ها قادر نيست با ماشين رقابت كند. مثلاً تصور كنيد كه بخواهيم دو عدد 12394765 و 8945630 را در هم ضرب، حاصل را از 443954 كسر و نتيجه را بر 12459 تقسيم كنيم. مسلماً حتي با استفاده از كاغذ، انجام چنين كاري براي انسان چندين دقيقه به‌طول خواهد انجاميد، درحالي كه تمام اين محاسبات را يك ماشين حساب ساده مي‌تواند با دقت لازم و تنها در چند ثانيه به انجام برساند. اين گروه از محققان، يادگيري رياضيات را دشوارتر از يادگيري زبان مي‌دانند و بر اين نكته تأكيد مي‌كنند كه در آينده‌اي نزديك، رايانة جديدي را خلق خواهند نمود كه در امر ترجمه، پردازش اطلاعات و زبان از سرعت عمل و دقتي چون انسان برخوردار باشد.

طرفداران تفوق انسان مترجم بر ماشين ترجمه بر اين باورند كه چون عملكرد ذهن انسان با ماشين متفاوت است و ماشين از قدرت تصميم‌گيري و انتخابي كه انسان دارد، برخوردار نيست، هيچ‌گاه نخواهد توانست بهتر از انسان يا حتي مانند انسان به ترجمه و امور مربوط به آن بپردازد.

طرفداران تفوق ماشين ترجمه بر انسان مترجم نيز بر اين باورند كه مشكلات ماشين ترجمه سال‌ها پيش مرتفع‌شده و هم‌اكنون اين‌گونه ماشين‌ها در ترجمة متون مختلف ـ يا دست‌كم انواعي از آن ـ با مشكلي مواجه نيستند و در آينده‌اي نزديك خواهند توانست بهتر از انسان به ترجمة متون مختلف بپردازند.

در اين مقاله و با ارائة مثال‌ها و بحث‌هاي مختلف نشان خواهيم داد كه با توجه به پيشرفت‌هاي به‌دست آمدة كنوني در علوم، ماشين قادر نيست مانند انسان به ترجمه بپردازد. توجه داشته باشيد كه اين گفته بدان معنان نيست كه ماشين قادر به ترجمه نيست، بلكه بر كيفيت پايين‌تر ترجمة ماشيني در مقايسه با ترجمة انساني تأكيد دارد.

....

نتيجه‌گيري
تعقل و تفكر اساس كار زبان انسان را تشكيل مي‌دهد و ماشين فاقد آن است.

ريشة مشكلات امروزي ماشين‌هاي ترجمه را بايد در سه چيز جستجو كرد:

1. برنامه‌هاي نادرست كه به ماشين داده مي‌شود و بيشتر آن‌ها ناشي از كم‌اطلاعي يا بي‌اطلاعي برنامه‌نويسان مي‌باشد. ضمناً ضروري است براي داشتن برنامه‌هاي مناسب، در گروه برنامه‌نويسان، زبانشناسي مجرب نيز گنجانده شود تا با تحليل ساختارهاي مختلف زبان، الگوهاي مناسب را براي تهية برنامه در اختيار برنامه‌نويسان قرار دهد.

2. با ضعف موجود در تئوري زباني، طبيعي است كه نمي‌توان زبان را جداي از معنا بررسي كرد. حتي وقتي دربارة آواهاي زباني صحبت مي‌كنيم، به معنا نيازمنديم (مثلاً جفت‌هاي كمينه را براي تعيين واج‌هاي زبان به‌كار مي‌بريم). بنابراين چنانچه تئوري زباني به گونه‌اي اصلاح گردد كه معنا را نيز لحاظ كند مي‌توان بخش ديگري از مشكلات ماشين‌هاي ترجمه را حل كرد. البته انجام چنين كاري بسيار دشوار، اما شدني است.

3. اگر بتوانيم به شكلي فقدان چنين قدرتي را ـ يعني همان نعمتي را كه خدا به ما عطا كرده ـ در اختيار ماشين قرار دهيم، (كه البته دستيابي به اين هدف بسيار بعيد به نظر مي‌رسد) مشكلات ماشين‌هاي ترجمه را مي‌توان رفع نمود. بنابراين بايد انتظار داشته باشيم كه با توجه به دانش كنوني بشر، حتي در صورتي كه مشكلات دستة اول و دوم رفع گردند، مشكلات دستة سوم به قوت خود باقي بمانند.

سؤالي كه در اينجا مي‌توان مطرح كرد آن است كه اگر به فرض بتوانيم چنين قدرتي را به ماشين بدهيم آيا خواهيم توانست هروقت كه بخواهيم آن را از ماشين بازپس بگيريم؟ يا از ماشين بخواهيم كه برخلاف ميل و ارادة خود (كه به خاطر داشتن قدرت تعقل، پيدا نموده) هر كاري را كه ما بخواهيم، به انجام برساند؟ چنين وضعيتي را «رابينسون» (Robinson, Douglas, 1992) به خوبي به تصوير كشيده است. او مي‌نويسد: اگر ماشين ترجمه بتواند مثل انسان ترجمه كند و از قدرت تعقل و تفكر برخوردار باشد، آيا ترجيح نخواهد داد صبح كه از خواب برمي‌خيزد، به جاي ترجمة متن تجاري يا ... پاي تلويزيون بنشيند و فيلم چارلي را تماشا كند؟!». 

برای دریافت کامل مقاله بر روی لینک زیر کلیک نمایید.

دریافت کامل مقاله

 

 

Comments (0) Posted to ترجمه ماشینی 07/09/2011 Edit

قابل توجه خوانندگان وبلاگ و علاقه مندان به همکاری

 

با توجه به نظرات فراوان شما خوانندگان وبلاگ مبنی بر کمک و کسب اطلاعات بیشتر در رابطه با موضوعات مطرح شده در وبلاگ و همچنین ابراز علاقه ی بعضی از دوستان جهت همکاری در روند انجام تحقیقات و پروژه های در حال انجام لازم می دانم که سایت آزمایشگاه فناوری وب را جهت کسب اطلاعات بیشتر شما عزیزان معرفی نمایم.

 

آزمایشگاه فناوری وب دانشگاه فردوسی مشهد

 

  دانشجویان زیادی در این آزمایشگاه زیر نظر جناب دکتر کاهانی مشغول پژوهش در رابطه با زمینه های وب معنایی، متن کاوی، خلاصه سازی متون فارسی و انگلیسی، داده های پیوندی، یادگیری الکترونیکی و ... هستند که در قسمت اعضا می توانید فیلد کاری هر کدام از اعضای آزمایشگاه رو هم مشاهده کنید.

 

Comments (1) Posted to کلی 07/07/2011 Edit

پروژه نهایی درس کامپایلر بهار 90


به اطلاع دانشجویان عزیز می رساند:

 نحوه تحویل پروژه:

سه شنبه 7 تیرماه - ساعت 11 الی 14 ظهر

سایت کامپیوتر دانشکده مهندسی

 

چند پروژه متفاوت در ذیل تعریف می گردد که دانشجویان می توانند با توجه به امتیاز هر پروژه ، هر کدام را که مایلند انجام دهند و به عنوان پروژه ی نهایی تحویل دهند.

پروژه اول:طراحی اسکنر و پارسر به کمک Lex و Yacc به طور کامل - (انفرادی - 50 درصد نمره)

  دانلود صورت پروژه

   پروژه دوم: طراحی اسکنر به طور کامل با توجه به گرامر فرضی موجود و موارد خواسته شده - تبدیل عبارات منظم به NFA  و سپس تبدیل آن به DFA  نیز برای انجام پروژه نیز مشکلی ندارد.(گروهی 2 نفره - 80 درصد نمره)

  دانلود صورت پروژه 

  پروژه سوم: طراحی Lexical Analyzer و Parser به همراه ویژگی Error Handling - (گروهی 3 نفره - 100 درصد نمره)

دانلود صورت پروژه

     پروژه چهارم: طراحی اسکنر و پارسر با توجه به صورت پروژه  و موارد خواسته شده از جمله طراحی یک زبان mini c و تشکیل پارسر گرامربه دو روش LALR1 و SLR1 و همچنین اسکنر   - (گروهی حداکثر 4 نفره  - 100 درصد نمره بعلاوه نمره ی اضافه)

دانلود صورت پروژه  

ضمیمه ی موجود: 

  دانلود گرامر فرضی ساده شده مورد نظر

چند نمونه کد ساده برای تست عملکرد اسکنر و پارسر

شدیدا و اکیدا توصیه می گردد که از کپی برداری و گرفتن پروژه ی سایر دوستانتان خودداری نمایید و در صورت عدم توانایی انجام پروژه های دشوارتر، پروژه ی راحت تری را انتخاب نمایید و صرفا اعضای گروه ، روند تکمیل پروژه را انجام دهند.

تمامی مستندات و توضیحات پروژه به طور کامل به همراه کد پروژه و نرم افزارهای به کار رفته می بایست در قالب یک سی دی تحویل داده شود. حضور تمامی اعضای گروه در روز تحویل پروژه الزامی است و تمامی اعضا بایستی روند تکمیل پروژه ، کدها و الگوریتم های به کار رفته در پروژه را تشریح نمایند.

چون زیاد از من درباره ی جزئیات انجام پروژه ها سوال میشه بد نیست به این نکته اشاره کنم که انتخاب پروژه و نحوه ی انجام اون کاملا اختیاریست و شما آزادی عمل زیادی در مورد جزئیات پروژه دارید. بدیهیه که هر چقدر پروژتون دشوارتر، بهینه تر و همچنین کامل تر باشه و در انجام اون ابتکار و نوآوری به خرج بدید، نمره ی بیشتری هم بهتون تعلق میگیره...

 

در صورت تغییر مکان تحویل پروژه ، متعاقبا در همین وبلاگ اعلام خواهد گردید.


در ضمن برای هماهنگی قبلی برای تحویل پروژه می توانید از طریق ایمیل یا تلفن با بنده در تماس باشید.

 

Ahmad_estiry@yahoo.com

 

پیروز و سربلند باشید

   

شرکت در نظرسنجی ارزیابی اساتید حل تمرین

 
 

Comments (1) Posted to حل تمرین درس کامپایلر 06/20/2011 Edit

چزئیات پروژه قرآنی آزمایشگاه فناوری وب دانشگاه فردوسی مشهد

 

 


مراحل انجام پروژه:
1. تهیه ی یک آنتولوژی مناسب با توجه با اهداف پروژه:

الف. پیدا کردن یک آنتولوژی مناسب قرآنی، پیدا کردن نواقص و کمبودهای آن و تکمیل آنتولوژی مورد نظر جهت بهبود و استخراج مناسب اطلاعات مورد نظر.

ب. ساخت آنتولوژی مورد نظر از ابتدا توسط خودمان. (توسط نرم افزار Protege)

2. تهیه ی یک متن تگ گذاری شده از قرآن کریم شامل سوره ها، مکی و مدنی بودن سوره، تعدا سوره ها، آیه ها، کلمات و ...

3. تهیه و گردآوری ترجمه های مختلف قرآن کریم به زبان فارسی.(یک XML قرآنی داریم که کامل نیست که بایستی در ابتدا آن را با توجه به نیاز خودمان تکمیل نموده و سپس آن را به RDF تبدیل نماییم.)
4. تهیه و گردآوری ترجمه های مختلف قرآن کریم به زبان های مختلف.

5. تهیه و گردآوری تفاسیر قرآن کریم مفسران مختلف به زبان های گوناگون برای برداشت و استنباط مفاهیم آیات و سوره ها و بیان ارتباط آن ها.

6. تعیین و تخصیص URL برای هر کدام از سوره ها و آیه ها و انتشار داده ها به صورت Link Data بر روی سایت WTLab .

7. ایجاد ارتباط بین سوره ها، آیه ها و ترجمه های مختلف آن ها.
8. تعیین مفاهیم برای هر سوره و هر آیه به صورت دستی و یا با Text Mining و به دنبال آن، تعیین ارتباط بین لغات، آیه ها، سوره ها، جزء ها و .... با اطلاعات موجود در وب.
به عنوان مثال:
لغات کلیدی ==>> دیکشنری های مختلف آنلاین بر روی وب به زبان های مختلف.
مفاهیم پایه  ==>> اطلاعات موجود و مرتبط در Wikipedia .
اسامی جغرافیایی  ==>> Wikipedia و  Geonames .
اسامی تاریخی  ==>> ....
اسامی خاص  ==>> ....

9. با بهره گیری از دانش هوشمند متن كاوي (Text mining)  بر روی پيكره هاي متني برچسب گذاري شده قرآن کریم، سعی در تبيين اعجاز زباني قرآن كريم با دستيابي به لايه هاي نامشهود زباني اين متن الهي خواهیم داشت.

جزئیات پیاده سازی:

 ما در این پروژه نیازمند تعریف و طراحی دو آنتولوژی هستیم:

1. یک آنتولوژی برای سوره
در این آنتولوژی، بیشتر متا داده ها و اطلاعات کلی را می آوریم:
 از جمله مکی و مدنی بودن سوره، تعداد آیات، تعداد آیات سجده، شروع و پایان صفحات برای هر سوره مطابق با قرآن عثمان طه، ...
2. یک آنتولوژی برای آیات
  در این آنتولوژی، متن آیه را به همراه ترجمه ی آن خواهیم داشت. به علاوه ی شمارنده برای هر کدام از آیات که مثلا تعداد تکرار کلمات، حروف، اعراب، نقاط و ... را در خود نگه دارد. (tf-idf)


کارهای فعلی:
یک XML قرآنی داریم که کامل نیست که بایستی در ابتدا آن را با توجه به نیاز خودمان تکمیل نماییم و متن موجود در آن را به صورت جزء به جزء، سوره به سوره و آیه به آیه تفکیک نماییم.

تبدیل XML قرآنی به قالب RDF (نوشتن برنامه توسط Jena ، پارس کردن سند XML و تبدیل آن به RDF)
- تخصیص URL برای هر سوره.
  http://wtlab.um.ac.ir/LinkData/Quran/1

- تخصیص URL برای هر آیه.
  http://wtlab.um.ac.ir/LinkData/Quran/1/1

- انتشار داده ها به صورت Link Data بر روی سایت WTLab.




در ادامه جزئیات پیاده سازی:

- مشخص کردن موضوعات مندرج در قرآن کریم
- دسته بندی موضوعات و مشخص کردن رابطه بین آنها
-  ساخت آنتولوژی موضوعات و مفاهیم قرآن
- منتسب کردن آیات به مفاهيم
- تعیین مفاهیم برای هر سوره و هر آیه به صورت دستی و یا با Text Mining و به دنبال آن، تعیین ارتباط بین لغات، آیه ها، سوره ها، جزء ها و .... با اطلاعات موجود در وب.
-  پرسش و استنتاج
 

Comments (5) Posted to پروژه قرآنی 06/14/2011 Edit

شرکت در نظرسنجی ارزیابی اساتید حل تمرین

 

به اطلاع کلیه ی دانشجویان عزیز می رساند برای شرکت در نظرسنجی ارزیابی اساتید حل تمرین دروس، می توانید با وارد شدن به سایت آموزش مجازی به آدرس  http://vu.um.ac.ir/login.php  و کلیک کردن بر روی گزینه ی نظرسنجی کلاس حل تمرین به ارزیابی اساتید حل تمرین خود بپردازید.

 

پیشاپیش از همکاری و توجه شما سپاسگزاریم ... 

 

Comments (0) Posted to حل تمرین درس کامپایلر 06/12/2011 Edit

پروژه قرآنی آزمایشگاه فناوری وب دانشگاه فردوسی مشهد

 

 
امام علی (ع) میفرماید: "قرآن را زمانه تفسیر می کند."
در برداشت از چنین روایاتی است که علامه طباطبایی هر دهه را نیازمند تفسیری جدید از قرآن دانسته­ اند و بدیهی است این مهم مستلزم بهره مندی از فناوری های معاصر است. با این نگرش و در پیروی از امر امام راحل (ره) به تلاش در تنقیب قرآن، "شبکه پژوهشی قرآن­ کاوی"
(Quran Mining Research Network) در دهه اخیر شکل یافته است تا با بهره گیری از فناوری های متن کاوی (Text Mining) ابزار پیشرفته هوش مصنوعی رایانه را در خدمت اکتشاف اطلاعات پنهان متن قرآن قرار ­دهد. محققین این شبکه تلاش دارند نه تنها بحث های حل نشده و شبهه های ایجاد شده برای قرآن را مرتفع سازند بلکه جنبه هایی ناشناخته از این اصلی ترین منبع هدایت به بشریت عرضه کنند.
در همین راستا طراحي و پياده‌سازي پيكره متني قرآن كريم در قالب RDF  و به شكل محتواي الكترونيكي، حاوي اطلاعات صرفي و نحوي، امكان استفاده و كاوش را براي هر گونه پژوهش و پردازش هوشمند ايجاد خواهد کرد.
تبيين اعجاز زباني قرآن كريم در دستيابي به لايه هاي نامشهود زباني اين متن الهي می باشد.
بدین ترتیب پس از فراهم شدن بستر مناسب جهت متن کاوی روی قرآن کریم می توان با طراحی و بهره گیری از ابزارهای متن کاوی به اکتشاف کلامی و معنایی متن قرآن کریم پرداخت.
دانش هوشمند متن كاوي (text mining) به عنوان جديد ترين وجه همكاري بين دانش هاي فناوري اطلاعات، زبان‌شناسي و ادبيات در كاوش رايانه اي متون بشري قصد حصول اين امر را دارد و چنين كاوشي مستلزم ايجاد پيكره هاي متني برچسب گذاري شده از آن متون است كه به شكل محتوايي الكترونيكي حاوي اطلاعات صرفي و نحوي متون مورد نظرند.

اهداف کلی پروژه:
1. ساخت و تهیه ی بستری مناسب در قالب RDF برای قرآن کریم جهت متن کاوی و اکتشاف اعجاز کلامی و نحوی قرآن کریم

2. Text Mining بر روی محتوای الکترونیکی قرآن کریم جهت تعیین ارتباط بین بخش های مختلف قرآن کریم و ارتباط پنهان سوره ها، آیه ها، کلمات، حروف، مفاهیم و ...
 

Comments (0) Posted to پروژه قرآنی 06/07/2011 Edit

Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار


 
 
ابزار ارزیابی ( Rouge( A Package for Automatic Evaluation of Summaries        

ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی   و بازیابی اطلاعات  هم استفاده شده است. Rouge مخفف جمله ی "Recall-Oriented Understudy for Gisting Evaluation" به معنای "ارزیابی مبتنی بر یادآوری برای خلاصه" می باشد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به ROUGE-N، ROUGE-L، ROUGE-W و ROUGE-S می توان اشاره کرد. در ادامه به این معیار ها اشاره می کنیم.

معیار ارزیابی ROUGE-N
معیار ارزیابی ROUGE-L: Longest Common Subsequence
معیار ارزیابی ROUGE-W: Weighted Longest Common Subsequence       
معیار ارزیابی ROUGE-S: Skip-Bigram Co-Occurrence Statistics
معیار ارزیابی ROUGE-SU: Extension of ROUGE-S     
 
 
البته ما در این نرم افزار علاوه بر این ها، معیارهای دیگری را نیز در نظر گرفته، الگوریتم آن را طراحی و پیاده سازی نموده ایم که به مرور آنها را توضیح خواهم داد.
 

Comments (1) Posted to ابزار ارزیابی خلاصه ها 06/01/2011 Edit

«قبلي   1 2 3 4 5 6 7 8 9 10  بعدي»

درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds