ایست واژه ها (Stop words) در زبان فارسی و انگلیسی

 
ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل “اگر”، “و”، “ولی”،”که” و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود می دهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالبا در فاز پیش پردازش، حذف می شوند .

نمونه‌ای از ایست واژه‌های زبان فارسی و انگلیسی

اکنون است زیرا برای اینک اگر
البته شد چون بالاخره اینطور بعدا
اما کرد باید اینقدر بدون حدودا
از باشد حالا بله با خصوصا
که هست حتی زود حتما انگار

 

- یک فایل فشرده حاوی دوعدد فایل متنی با پسوند txt

- لیست کامل کلمات عمومی ایست واژه ها یا Stop words برای زبان فارسی و انگلیسی

- FarsiStopWords.txt  &&  EnglishStopWords.txt

 دانلود فایل ها

 

Comments (32) Posted to پردازش متن 01/08/2015 Edit

ابزارهای MATLAB برای بازیابی اطلاعات

سیستم بازیابی اطلاعات[۱] در مجموعه سند[۲]هایی که به فرمتهای گوناگون در پایگاه داده وجود دارد (حال این پایگاه داده ممکن است پایگاه دادة رابطه ای مستقل[۳] یا پایگاه دادة شبکه‌ای ابر متن[۴] مثل اینترنت باشد)، به دنبال اطلاعات مطلوب کاربر می‌گردد. جستجوی اطلاعات به دو صورت امکان پذیر است:

نگاه کردن کلی[۵] : در مواردی است که خواستة کاربر دقیق نباشد یا اینکه علایق کاربر گسترده باشد.

جست و جو کردن[۶] : در مواردی است که خواستة کاربر دقیق باشد.

۱-۱- مراحل بازیابی اطلاعات

در بازیابی اطلاعات چندین مرحلة مهم وجود دارد :

۱-    ایندکس‌بندی[۱]

۲-    خطی سازی سند[۲]

  • حذف نشانه‌ها و فرمت[۳]
  • نشان گذاری[۴]

۳-    فیلتر کردن[۵]

۴-    ریشه‌یابی[۶]

۵-    وزن دادن[۷]

۶-     رتبه بندی[۸]

 

[1]- Indexing

 

[2]- Document Linearization

 

[3]- Markup and Format Removal

 

[4]- Tokenization

 

[5]- Filtration

 

[6]- Stemming

 

[7]- Weighting

 

[8]- Ranking

 

[1]-Information Retrieval(IR) System

 

[2]-Document

 

[3]-Relational Stand-Alone Database

 

[4]-Hypertext Networked Database

 

[5]- Browsing

 

[6]- Quering

 

 

فایل ورد

یک فایل فشرده حاوی یک فایل:
۱. ابزارهای MATLAB برای بازیابی اطلاعات – گزارش درسی
نوع فایل:  Microsft word Office
تعداد صفحات: ۸۵
حجم: ۳ MB
 
 
رمز فایل فشرده :
www.tnt3.ir

فهرست مطالب

فهرست مطالب
فصل ۱: بازیابی اطلاعات ۵
۱-۱- سیستم بازیابی اطلاعات ۶
۱-۲- مراحل بازیابی اطلاعات ۷
۱-۲-۱- شاخصگذاری (ایندکسبندی) ۷
۱-۲-۲- خطیسازی سندها ۸
۱-۲-۳- فیلتر کردن ۱۰
۱-۲-۴- ریشه‌یابی کلمات ۱۲
۱-۲-۵- وزن‌دهی ۱۴
۱-۳- معیارهای صحت و کیفیت در بازیابی ۱۶
۱-۴- الگوهای وزن‌دهی ۱۷
۱-۴-۱- وزن‌دهی با فرکانس کلمات ۱۷
۱-۴-۲- مدل فضای برداری سالتون ۲۲
۱-۴-۳- وزن‌های محلی ۲۳
۱-۴-۴- وزن‌های سراسری ۲۴
۱-۴-۵- چگالی کلمات کلیدی ۲۵
۱-۴-۶- نارساییهای چگالی کلمه ۲۶
۱-۵- سایر روش‌های پیش پردازش زبانی ۲۶
۱-۵-۱- تشخیص زنجیرههای مرجعیتی ۲۷
۱-۵-۲- برچسب زنی معنایی نقش کلمات ۲۸
۱-۵-۳- برچسب زنی نحوی لغات ۲۸
فصل ۲: معرفی ابزار بازیابی اطلاعات Matlab 30
2-1- مقدمه ۳۱
۲-۲- نحوه نصب ابزار TMG 33
2-3- ابزار شاخص‌گذاری (ایندکس‌گذاری) ۳۵
۲-۴- ابزار کاهش ابعاد ۳۹
۲-۵- ابزار فاکتورگیری نامنفی ماتریس ۴۲
۲-۶- ابزار بازیابی اطلاعات ۴۵
۲-۷- ابزار خوشه‌بندی ۴۸
۲-۸- ابزار دسته‌بندی ۵۰
فصل ۳: ضمائم ۵۳
۳-۱- تبدیل داده‌ای ۵۴
۳-۱-۱- تجزیه ویژه‌مقدار ۵۴
۳-۱-۲- شاخص‌گذاری معنایی پنهان (LSI) 55
3-1-3- فاکتورگیری نامنفی ماتریس (NMF) 61
3-1-4- مقایسه NMF با LSI 62
3-2- خوشه‌بندی ۷۰
۳-۲-۲- رویه خوشه‌بندی ۷۱
۳-۲-۳- اندازه‌گیری شباهت ۷۲
۳-۲-۴- ساختارهای داده ۷۳
۳-۲-۵- ارزیابی ۷۴
۳-۳- خوشه‌بندی متنی ۷۴
۳-۳-۲- الگوریتم خوشه‌بندی k-Means 75
3-3-3- الگوریتم خوشه‌بندی Bisecting Kmeans 77
3-3-4- معیارهای خارجی کیفیت خوشه‌بندی ۸۰
مراجع ۸۳

 

Comments (2) Posted to پردازش متن 11/17/2014 Edit

تاریخچه خلاصه سازی متن


آغاز فعالیت سیستم های خلاصه سازی خودکار متن به سال 1950 برمی گردد. در آن زمان به دلیل کمبود کامپیوترهای قدرتمند و مشکلات موجود برای پردازش زبان های طبیعی، کارهای اولیه بر روی مطالعه ی ظواهر متن مانند موقعیت جمله و عبارات اشاره متمرکز شده بود. سال 1970 تا1980 هوش مصنوعی بکار آمد[AZZ99][DEJ79][GRA81][MCK95] [SCH77][YOU85] . ایده ی AI، استخراج نمایش های دانش مانند فریم ها یا الگوها برای شناسایی موجودیت های مفهومی از متن و استخراج روابط بین موجودیت ها با مکانیزم های استنتاج بود. مشکل اصلی آن است که الگوهای تعریف شده، محدودیت هایی دارند و ممکن است به تحلیل کامل موجودیت های مفهومی منجر نشود. از اوایل1990 تا به حال هم روش های بازیابی اطلاعات بکار گرفته شده است[AON97] [GOL99] [GON01] [HOV97] [KUP95] [MAN99] 
[SAL97] [TEU97] [YEH02]. بیشتر این روش ها بر روی سطوح ظاهری متمرکز شده و وارد حوزه های معنایی نمی شوند.
Kupiec اولین الگوریتم را در این زمینه پیشنهاد داد .[KUP95] در این روش بر اساس مقادیر ویژگی های یک جمله، احتمال حضور آن در خلاصه، تخمین زده می شود. او عمل خلاصه سازی را به صورت یک مسئله ی دسته بندی، درنظرگرفت و دسته بندی کننده های بیزین را برای تعیین جملاتی که باید در خلاصه وارد شوند، بکار برد.
Chuang و Yang چندین الگوریتم مانند درخت تصمیم و دسته بندی کننده را برای استخراج قطعات جمله پیشنهاد دادند [CHU00]. این روش های خلاصه سازی در یک حوزه خاص عملکرد خوبی دارند. اما برای یادگیری صحیح، نیازمند مجموعه های آموزشی بسیار بزرگی هستند. در سال 1997، Barzilay روشی برای تولید خلاصه با پیدا کردن زنجیره های لغوی معرفی کرد که به توزیع کلمه و اتصالات لغوی بین آنها برای تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوی به هم پیوسته ی متن اتکا می کرد [BAR97]. 
از روش های آماری هم در خلاصه سازی متن زیاد استفاده شده است که از جمله آنها می توان به روش های مبتنی بر مدل موضوع [WAN09][HAR05] و روش های مبتنی بر گراف
 [MIH05][MIH04] اشاره نمود.
چنانکه شاهد هستیم علی رغم اینکه بحث خلاصه سازی از سال ها قبل مطرح شده است، اما همچنان ضعف های زیادی در این زمینه وجود دارد و کارهای بسیاری برای رسیدن به وضعیتی مطلوب در این زمینه بایستی انجام پذیرد.

Comments (0) Posted to پردازش متن 06/25/2013 Edit

خلاصه سازی خودکار متن



خلاصه‌سازی خودکار متن به عنوان هسته‌ی مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن مانند خلاصه‌سازهای ماشینی، سیستم‌های تصمیم‌یار، سیستم‌های پاسخ گو، موتورهای جستجو و ... از سال‌ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. بنابر تعریف ارائه شده در استاندارد ISO215، خلاصه، "یک بازگویی مختصر از سند" می باشد. خلاصه ی تولید شده از یک متن اولا باید از خوانایی  و پیوستگی  بالایی برخوردار بوده و ثانیا فاقد اطلاعات تکراری  باشد. در ادامه، نخست تاریخچه ی خلاصه سازی متن و اهمیت خلاصه سازی خودکار بیان گردیده و سپس برخی از دسته بندی های مختلفی که برای روش های خلاصه سازی خودکار متن وجود دارد، ذکرخواهد شد.

Comments (0) Posted to پردازش متن 06/20/2013 Edit

شبکه واژگان


زبان های طبیعی، همگی دارای ابهام هستند. کلمات هر زبان می توانند چندین معنی و مفهوم داشته باشند. به عنوان مثال، اگر شما لغت game را در یک فرهنگ لغت جستجو کنید، معانی مختلفی برای آن وجود دارد؛ از”بازی” گرفته تا “گوشت شکار” که اصلا هیچ شباهتی به یکدیگر ندارند. معانی این کلمات، بسته به کاربرد آن در جمله و یک متن، تا حدودی مشخص می شود. این ابهام، در کاربردهایی مانند بررسی میزان تشابه دو متن در سیستم های ارزیابی خلاصه سازهای ماشینی و همچنین سیستم های ترجمه ماشینی به عنوان یک مشکل، شناخته می شود. از اوایل دهه ی 90 میلادی، محققان عرصه ی کامپیوتر، بر آن شدند تا روشی را برای بیان صریح مفاهیم موجود در دنیای واقعی، پیدا کنند. هستان  شناسی ، چنین کاری برای ما انجام می-دهد. هستان  شناسی، گرافی است که گره های آن، مفاهیم موجود در دنیای واقعی و یال های آن، ارتباطات موجود بین این مفاهیم را مشخص می کنند [CAL06].
شبکه واژگان یا  WordNet فرهنگی از واژگان است که براساس تئوری‌های زبانی-روانی  بوده و مدل‌ها و معانی کلمات را تعریف می‌کند. شبکه ی واژگان یکی از مباحثی است که در سال های اخیر به شدت مورد توجه قرار گرفته و در کاربردهای بسیار متنوعی استفاده شده است. این شبكه ها عموما در نقش واژهستان شناسی و یا واژگان محاسباتی در خدمت سیستم های هوشمند دانش بنیان و معناگرا قرار دارند. WordNet، لغت‌نامه‌ای است که از یک آنتولوژی برای دسته‌بندی مفاهیم موجود در دنیای واقعی استفاده کرده است و کلمات انگلیسی اعم از اسم، فعل، صفت و قید را به این مفاهیم نسبت داده است [LIN08].
شبکه واژگان در واقع شبكه ای متشکل از هزاران مفهومی است كه بوسیله روابط معنایی به هم مرتبطند. هر مفهوم، نشان دهنده ی مجموعه ای انتزاعی از عناصری می باشد كه بر اساس مختصه های مشتركشان، یك گروه را تشكیل می دهند. در شبکه واژگان، ابتدا لغات در یکی از دسته های اسم، فعل، صفت، و قید قرار گرفته و سپس لغات هر یک از این دسته ها در گروه های هم خانواده ی خود قرار می گیرند. هر یک از این گروه های هم خانواده از یک یا چند لغت تشکیل می شود، که یک مفهوم مشخص را عنوان می کنند و لغات تشکیل دهنده این گروه می-توانند به جای یکدیگر در یک متن استفاده شوند و توسط یکسری روابط معنایی با سایر گروه ها مرتبط می-شوند. روابط معنایی بین گروه های هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قید) متفاوت است.
در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت  (Part of)، شمول (Has-A) را دربر می‌گیرند. روابط معنایی بین Synset‌ها با توجه به طبقه‌بندی‌های گرامری متفاوت است [LIN08]. شبکه واژگان هم‌چنین تعاریف متنی از مفاهیم را فراهم می‌سازد (Glossary) که شامل تعاریف و مثال‌ها می‌باشد. شبکه واژگان را می‌توان به عنوان یک مجموعه‌ی مرتب جزئی  از منابع عبارات مترادف، برشمرد.

Comments (2) Posted to پردازش متن 06/14/2013 Edit

برچسب‏زنی نقش معنایی کلمات (SRL)


برچسب زنی معنایی کلمات  مشابه برچسب گذاری اجزای واژگانی کلام بوده با این تفاوت که عمیق تر و پیچیده تر از آن می باشد. برچسب زنی معنایی، وظیفه ی استخراج نقش های معنایی جملات نظیر فاعل، مفعول مستقیم، مفعول غیرمستقیم، فعل و ... را بر عهده دارد. برچسب زنی معنایی کلمات هم عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و شباهت معنایی می باشد.

Comments (3) Posted to پردازش متن 06/10/2013 Edit

درخت تجزیه


اجزای هر جمله را می توان در قالب گروه های اسمی، فعلی، حرف اضافه ای و ... تقسیم بندی نمود. گاه هر کدام از این گروه ها خود شامل زیرگروه دیگری می باشند. علاوه بر این، هر کدام نیز دارای روابطی می باشند، مثلا یک گروه اسمی می تواند متعلق به یک گروه فعلی باشد. در نتیجه ی این تقسیم بندی های سلسله مراتبی، می-توان یک ساختار درخت گونه از جمله داشت که درخت تجزیه نام دارد. درخت تجزیه، درختی است که ساختار نحوی یک جمله را بر اساس برخی روابط گرامری موجود در آن به شکلی ساده و قابل فهم برای کسانی که دانش عمیق زبان شناسی ندارند، نمایان می سازد [MAR08]. ابزارهای مختلفی برای تجزیه جمله توسعه یافته-اند که خروجی اغلب آنها به صورت رشته ای شامل پرانتز های تو در تو به همراه برچسب ها و کلمات می باشند. این مدل نمایش برای ورودی سیستم ها مناسب است، اما برای انسان خوانایی چندانی ندارد. در ابزار lfgParser  شاهد نمایش گرافیکی و درخت گونه ی درخت تجزیه خواهیم بود. 

Comments (0) Posted to پردازش متن 06/05/2013 Edit

تجزیه گر یا پارسر


به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیله‌ی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح، تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام تجزیه گر  یا پارسر صورت می‌گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
تجزیه‎گرها با بهره گیری از دستورات گرامری زبان به تفکیک جملات متون به اجزای تشکیل دهنده ی آن، مشخص کردن نقش هر عبارت و لغت در متن و همچنین تشکیل درخت تجزیه برای جملات متن می پردازند.
تجزیه‎گر نقش پایه ای و مهمی را در بهبود ابزارهای پردازش متن ایفا می کند. به عنوان مثال جهت تقویت الگوریتم های وابسته به برچسب زن معنایی لغات (SRL) علاوه بر نقش های کلمات، وابستگی های کلمات به لحاظ نقشی در جمله نیز باید مشخص گردد.

Comments (2) Posted to پردازش متن 05/31/2013 Edit

برچسب زنی بخش های سخن (POS)


در دستور زبان، بخش های سخن، طبقه بندی هایی زبانی از کلمات هستند که رفتار نحوی یک قسمت از جمله را بیان می دارند. به طور عموم، تمامی زبان ها دو بخش سخن فعل و اسم را دارند. بقیه بخش های سخن در زبان-های مختلف، متفاوت می باشند. از جمله مهم ترین بخش های سخن در زبان فارسی اسم، ضمیر، صفت، قید و حرف اضافه را می توان نام برد.
در زبان شناسی پیکره ای ، برچسب زن اجزای کلام  (POS tagging یا POST)، که همچنین برچسب زن دستوری  یا ابهام زدایی لغت-دسته ، نامیده می شود، فرآیند نشانه گذاری لغت در یک متن است، که این نشانه، بیانگر وجه آن جزء از کلام می باشد. تشخیص این امر، مبتنی بر تعریف و نوع کاربرد در متن، انجام می شود. برای مثال رابطه ای که یک لغت با دیگر لغات در یک عبارت، جمله و یا پاراگراف دارد مشخص می شود. شکل ساده شده ی این موضوع، همان مشخص کردن نوع لغت از لحاظ اسم، فعل، صفت و قید می باشد که در مدارس به آن پرداخته می شود. در شکل 2-1 نمونه ای فرضی از یک مجموعه برچسب (Tagset) برای زبان انگلیسی [CCG1] و همچنین در شکل 2-2 نمونه ای از یک مجموعه برچسب (Tagset) برای زبان فارسی معرفی شده است.

Comments (2) Posted to پردازش متن 05/21/2013 Edit

ریشه‌یابی


در این مرحله به منظور یکسان سازی اشکال مختلف یک کلمه، یکپارچه سازی و همچنین اعمال پردازش های بعدی بایستی کلمات، ریشه یابی شوند. ریشه یابی به فرآیند تبدیل کلمات به فرم ریشه ای و پایه ای آنها اشاره می نماید. بنابراین "دانش آموز" و "دانشجو"و "دانشگاه" به"دان" كه ریشه‌ی اصلی است، كاهش می یابند. لازم به ذکر است که منظور از ریشه در این بخش، دقیقا ریشه ی کلمات که در زبان شناسی استفاده می شود، نیست. بلکه منظور از ریشه، یک نماینده برای کلماتی است که از لحاظ معنایی و نحوی در یک حوزه قرار می گیرند. این فرآیند در پردازش متن، اهمیت بسیاری دارد؛ چرا که باعث می شود ماشین با دو کلمه ی هم خانواده اما ظاهرا متفاوت، مانند دو کلمه ای که از لحاظ ریشه ای هیچ ارتباطی با هم ندارند، برخورد ننماید. الگوریتم های مختلفی برای ریشه یابی لغات پیشنهاد شده است و مورد استفاده قرار می گیرد. الگوریتم پیشنهاد شده در [POR80] رایج ترین الگوریتم در زبان انگلیسی می باشد. نمونه‌های دیگری از الگوریتم‌های ریشه یابی، الگوریتم كراوتز  در انگلیسی و الگوریتم کاظم تقوا در فارسی هستند [POR80][KRO93][TAG05]. اما از آنجا که خروجی ریشه یاب در فازهای بعد، مورد استفاده های گوناگون از جمله اندازه گیری شباهت معنایی بر مبنای شبکه واژگان قرار می گیرد، بایستی بررسی شود تا خروجی ریشه یاب، ورودی مناسبی برای آن فازها باشد.

Comments (3) Posted to پردازش متن 05/14/2013 Edit

ایست واژه ها (Stop words)


ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل "اگر"، "و"، "ولی"،"که" و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود می دهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالبا در فاز پیش پردازش، حذف می شوند. برای زبان فارسی چندین لیست از این کلمات منتشر شده است که بطور میانگین شامل 500 کلمه می باشند.

Comments (2) Posted to پردازش متن 05/07/2013 Edit

زبان فارسی


در تلاش برای ساخت یک سیستم پردازش و درک متون فارسی با مسائل و مشکلاتی مواجه می شویم که بعضی از آنها در بیشتر زبان ها بروز کرده و برخی خاص زبان فارسی می باشند.
همچنین برخی از این پیچیدگی ها به طبیعت زبان و نارسایی های دستورات زبان شناسی مربوط و برخی دیگر برخاسته از مشکلات ایجاد سیستم های هوش مصنوعی است ]داد 80[. در این بخش به برخی از این مسائل اشاره می شود.
زبان فارسی از نظر ساختاری دارای تفاوت‌های بسیاری با زبان انگلیسی است. برخی از تفاوت‌های مشهود بین زبان فارسی و انگلیسی عبارتند از:
- تفاوت در ترتیب قرارگیری ارکان جمله. در اصطلاح، زبان‌هایی مثل انگلیسی را SVO  و زبان‌هایی مثل فارسی را SOV  می‌نامند که در واقع نشان دهنده ی ترتیب ارکان در جملات می‌باشد.
- زبان فارسی یک زبان اصطلاحاً بازتابی  نامیده می‌شود. یعنی کلمات براساس زمان و شخص موجود در جمله، می‌توانند حالت‌های مختلفی به خود بگیرند.
- در فارسی برخی ضمیرها وجود دارند که به اسم‌ها و افعال متصل می‌شوند (ضمیرهای متصل) که باعث بروز شکل‌های مختلف برای کلمات می‌شوند که این حالت هم در زبان انگلیسی وجود ندارد و تمامی‌ضمیرها منفصل می‌باشند.
با توجه به موارد ذکر شده و از آنجایی که زبان فارسی نوعی از زبان های غیرساختیافته است با مشکلات بسیار بیشتری نسبت به زبان انگلیسی مواجه خواهیم شد. متون غیرساختیافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات و کلمات در نظر می‌گیریم.
به طور کلی مشکلات اصلی در پردازش متون فارسی را می توان در چند دسته زیر، خلاصه نمود ]داد 80[:
عدم وجود منابع زبانی مناسب و کافی برای زبان فارسی.
مشکل تشخیص مرز کلمات (مسأله شیوه های نگارش متفاوت)
مشکل تشخیص مرز گروه های اسمی (مسأله ی کسره ی اضافه نامرئی)
از دست دادن اطلاعات گویشی
مسأله ی ابهام
افعال مرکب و اصطلاحات
مسأله ی همنگاره ها و تحت آن مسأله ی حذف مصوت های کوتاه (اعراب) از نوشتار
معناشناسی و مشکلات تحلیل معنایی.

Comments (0) Posted to پردازش متن 05/02/2013 Edit

انتشار مقالات اولین کنفرانس پردازش خط و زبان فارسی


مقالات ارائه‌شده در نخستین کنفرانس پردازش خط و زبان فارسی در وب‌گاه همایش‌های علمی دانشگاه سمنان قرار گرفت.

نخستین کنفرانس پردازش خط و زبان فارسی در ۱۵ و ۱۶ شهریورماه ۱۳۹۱ در دانشگاه سمنان برگزار شد.

علاقه‌مندان می‌توانند مقالات این کنفرانس را از طریق پیوند زیر دریافت نمایند:
http://conf.semnan.ac.ir/index.aspx?siteid=49&pageid=3275
 
 مقالات مرتبط با کارهای من نیز از پیوندهای زیر قابل دانلود می باشد:
 
ارائه یک ابزار ارزیابی خودکار خلاصه‏سازهای چکیده‏ای فارسی با بهره‏گیری از شبکه واژگان  
 
طراحی ابزار پارسر زبان فارسی  
 
طراحی یک سیستم توصیه‏گر ترکیبی معنایی با استفاده از تکنیک‏های پردازش زبان طبیعی فارسی  
 
دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات فارسی با بهره گیری از شبکه واژگان
 

Comments (3) Posted to ابزار ارزیابی خلاصه ها , ارزیابی سیستم های توصه گر , پردازش متن 04/28/2013 Edit

تعاریف پایه زبان شناسی


 پردازش متن از جمله مسائل اساسی در حوزه هوش مصنوعی و شناخت رایانشی است که در چند دهه اخیر، توجهات گسترده ای را در قالب های عدیده به خود معطوف کرده است. در پردازش متون زبان طبیعی با زبان نوشتاری سر و کار داریم. این مسأله باعث می شود گرچه به جهت از دست دادن اطلاعات گویشی مانند لحن گوینده، آهنگ صدا، تاکید و مکث، با مشکلات و ابهاماتی مواجه شویم، ولی در مقابل با شکل محدودتر و با قالب دستوری مشخص تری از زبان کار می کنیم. پردازش متون زبان فارسی در سطوح چهارگانه ی آوایی، ساخت‌واژی، نحو و معنایی و همچنین در حوزه‌های کاربردی متعددی امکان پذیر می باشد. 
قبل از پرداختن به هر مطلبی در زمینه پردازش زبان طبیعی، برای آشنایی بهتر با مباحث مربوط به پردازش زبان طبیعی، خلاصه سازی و چگونگی ارزیابی آنها، بهتر است با مفاهیم پایه و تعاریف اولیه ی این حوزه که به منزله الفبای پردازش متن می باشند، آشنا شویم. اغلب اقدامات مربوط به این مفاهیم، در واقع نوعی پیش-پردازش متن می باشد؛ بدین معنی که انجام این پردازش ها بر روی متن، در واقع آماده سازی متن به منظور اعمال فرآیندها و فعالیت های بعدی می باشد. در ادامه ی این بخش، تعاریف پایه و ابتدایی مورد نیاز، توضیح داده شده است. در کاربردهای مختلف پردازش زبان طبیعی عموما از این تعاریف پایه استفاده می شود.

Comments (0) Posted to پردازش متن 04/25/2013 Edit

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به پايه بودن جمله در بسياري از پردازش هاي زباني، خروجي دقيق اين ابزار از درجه ي اهميت بالايي برخوردار است. از نمونه هاي انگليسي آن مي توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.
Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و  tab و ... . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.
Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و ... . براي تشخيص اينکه يک کلمه اسم است، راه هاي مختلفي وجود دارد که از جمله ي آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ريشه ي کلمه، استفاده از قواعد نحوي ساخت واژه و ... مي باشد. در اين ابزار پس از تشخيص اسم ها با استفاده يک لغتنامه از اسامي افراد، مکان ها، مقادير عددي و ... نوع اسم تشخيص داده مي شود. به نظر مي رسد که اين لغتنامه در فارسي موجود نمي باشد.
از جمله نمونه هاي انگليسي اين ابزار مي توان به Stanford NER و Illinois NER اشاره کرد.
Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي. ارتباطات معنايي در داخل اين مجموعه شامل 16  رابطه  مي باشد. اين مجموعه به عنوان يک مرجع در بسياري از پردازش هاي زباني مورد استفاده قرار مي گيرد. ار نمونه هاي انگليسي آن مي توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمايشگاه فناوري وب دانشگاه فردوسي مشهد نيز يک نمونه از اين مجموعه با نام فردوس نت را توليد کرده است.
Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و ...). معمولاً ريشه يابي لغات بر اساس قواعد ساخت واژه اي و سپس حذف پسوندها مي باشد. تاکنون روش مؤثري براي حذف پيشوندها ارائه نشده است. در تلاشي که در آزمايشگاه فناوري وب انجام شده است، سعي شده تا بر اساس آناليزهاي آماري و داده کاوي پسوندها حذف گردند، که اين روش هم مي تواند راهي براي تشخيص ريشه باشد.
معروفترين الگوريتم ريشه يابي در انگليسي porter مي باشد.
Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و... . در اين ابزار پس از تشخيص نوع کلمات به کار رفته در يک جمله و سپس بر اساس جايگاه آن کلمات در جمله، کلماتي که در جايگاه هاي يکسان قرار دارند، مورد مقايسه قرار مي گيرند. از نمونه هاي انگليسي آن مي توان به Illinois NESim و Illinois WNSim اشاره نمود.
Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و .... در يک جمله. جهت تقويت الگوريتم هاي وابسته به SRL لازم است نه تنها نقش هاي کلمات مشخص گردند، بلکه بايد وابستگي هاي کلمات به لحاظ نقشي در جمله مشخص گردند. از جمله نمونه هاي انگليسي آن مي توان به Illinois Chunker  اشاره کرد.
Semantic role labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله. اين ابزار يکي از مهمترين نقش ها را در پردازش هاي زباني بر عهده دارد. دقت در اين ابزار بسيار حائز اهميت است. اين ابزار بايد نقش هاي گرامري کلمات در جمله ها مانند فعل، فاعل، مفعول مستقيم، مفعول غير مستقيم و .... را تشخيص دهد. از جمله نمونه هاي انگليسي آن مي توان به OpenNlP، Illinois SRL،  Swirl و LTHSRL  اشاره کرد. اين ابزارها از الگوريتم پارسينگ charniak استفاده مي کنند.
Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده. از ابزارهاي موجود در انگليسي مي توان به Illinois Curator و Stanford Annotator اشاره کرد.
Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات. اين ابزار در زبان انگليسي معادل ابزاري است که مرجع ضمير را که به صورت اسم در جمله هاي قبلي آمده است، مشخص مي کند. استفاده از ضماير به جاي اسامي در زبان انگليسي بسير رايج مي باشد. اما در زبان فارسي اين امر چندان رايج نيست. اما در زبان فارسي عنوان يک مفهوم اسمي با اصطلاحات مختلف بسيار رايج مي باشد. عملاً ما به دنبال ابزاري هستيم که مرجع خاص يک سري از عنوان ها ي مختلف اسمي را مشخص کند. از نمونه هاي انگليسي اين ابزار مي توان به Illinois Coreference package  اشاره کرد.
Pos tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و ... . يکي از روش هاي کاري براي ايجاد اين ابزار، ايجاد يک rule base که معمولاً به صورت دستي تشکليل مي شود، براي تشخيص نوع کلمه است. از نونه هاي فارسي آن مي توان به ابزار آزمايشگاه آقاي دکتر بيجن خان، و ابزار آزمايشگاه فناوري وب دانشگاه فردوسي مشهد اشاره کرد. از نمونه هاي انگليسي آن مي توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

Comments (3) Posted to پردازش متن 03/15/2013 Edit


درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds