وبلاگ سید محمد اصغری

شناسایی کننده موجودیت های نام دار ( اسامی خاص) زبان فارسی - named persian entity recognizer

سیدمحمـد اصغری نکاح | 18 January, 2015 22:51

 پروژه پردازش زبان

شناسایی کننده موجودیت های نامدار در متن

پروژه وب معنایی

با سلام خدمت دوستان عزیز 

یک پیاده سازی دیگه داشتم از «شناساگر موجودیت های نامدار برای زبان فارسی» این پروژه علاوه بر اینکه اولین یا لااقل جزو اولین ها برای زبان فارسی است، یک قابلیت ویژه داره. مهمترین ویژگی این برنامه استفاده همزمان از چندین الگوریتم طبقه بندی مطرح هست.

ویژگی های برنامه:

  1. قابلیت انتخاب الگوریتم های دسته بندی باناظر و بدون ناظر (در حال حاضر NBA, SVM, Decision Tree, J48 اضافه شده که در حال تکمیل می باشد)
  2. قابلیت جدا سازی بخش آموزش و تست به صورت پویا و قابل تنظیم
  3. گزارشی از جزئیات برچسب زنی و خروجی نهایی به صورت کاملا دقیق
  4. استفاده از مجموعه داده دادگان زبان فارسی
  5. نوشته شده در محیط جاوا

در زیر تصویری از محیط اجرایی برنامه مشاهده میکنید 

  جهت دریافت فایل اجرایی برنامه درخواست خود را به ایمیل حاشیه وبلاگ ارسال نمایید

 

در ادامه توضیحاتی درمورد موجودیت ها داده می شود. این قسمت خلا صه ای از دستور العمل کنسرسیوم ACE برای نحوه برچسب زنی موجودیت ها می باشد.

موجودیت شخص:

هر کلمه ای که به یک فرد و یا گروهی از افراد اشاره کند به عنوان PER برچسب می خورد. تمام موارد ذکر شده در لیست زیر جزء این گروه خواهند بود.

 

  • نام افراد (مانند علی کاشانی)
  • شغل افراد (مانند قصاب)
  • نسبت خویشاوندی (مانند خواهر)
  • ضمایر (مانند او)
  • عناوین شغلی (مانند معاون)
  • عناوین مذهبی (مانند آیت الله)
  • اسامی شخصیت های کارتونی و تلوزیونی (مانند بتمن)
  • اعضای بدن در صورتی که به شخص اشاره داشته باشد.

 

دقت داشته باشید در تمام موارد فوق باید کلمه به یک شخص اشاره داشته باشد. در آن صورت کلمه به صورت PER برچسب خواهد خورد.

موجودیت سازمان:

هر سازمان و یا موموعه سازمان ذکر شده در متن به عنوان ORG برچسب می خورد. تمام موارد ذکر شده در لیست زیر جزء این گروه خواهند بود :

 

  • شرکت های تولیدی (مانند صنایع شیر ایران)
  • واحدهای دولتی (مانند هیئت دولت)
  • تیم های ورزشی
  • گروه های موسیقی
  • سازمان ها و ادارات
  • تشکل های نظامی
  • مدارس، دانشگاه ها، حوزه های علمیه
  • ضمایر وقتی به یک سازمان اشاره می کنند
  • تشکل های مردم نهاد و خیریه (مانند محک)
  • رسانه ها، خبرگزاری ها، روزنامه ها و مجلات
  • تشکل های مذهبی (مانند آستان قدس)

 

موجودیت مکان:

تمام کلماتی که به یک مکان جغرافیایی و یا فضایی اشاره دارند به عنوان موجودیت مکان برچسب می خورند. تمام موارد ذکر شده در لیست زیر جزء این گروه خواهند بود :

 

  • نام کشور،استان، ایالت، شهر، روستا
  • نام قاره، اقیانوس، دریا، رودخانه
  • نام کوهستان، جنگل، دشت، کویر، فلات
  • آدرس
  • مرز بین کشورها
  • نام سیارات
  • کلماتی که به نقطه ی خاصی از یک مکان اشاره می کنند هم جزیی از موجودیت هستند (مانند مرکز شهر)




پروژه تشخیص موجودیت‌های نامدار

 

نظرات

مجموعه آموزش

miSMZ | 08/11/2017, 18:25

با سلام متن مورد نیاز برای آموزش را چگونه تهیه کردید، چون من هم میخواهم همین کار را انجام دهم اما متاسفانه متن تگ گذاری شده برای زبان فارسی پیدا نکردم.

Re: شناسایی کننده موجودیت های نام دار ( اسامی خاص) زبان فارسی - named persian entity recognizer

batool | 13/12/2017, 23:10

مدل مخفی مارکوف و کاربرد ان در تشخیص موجودیت اسمی

تشکر از سایت خوبتون

فاطمه | 17/07/2018, 23:46

نیاز به فایل اجرایی برنامه دارم
ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage
 
Accessible and Valid XHTML 1.0 Strict and CSS
Converted to use with ITS. Powered by FUMblog