نقطه شروع:

ایجاد مدلی برای استخراج کلمات کلیدی:

برای استخراج کلمات کلیدی متن جدید ، باید ابتدا یک مدل استخراج کلمات کلیدی برای مجموعه ای از متون ارائه داد(ترجیجا از همان دامنه) که برای آنها کلمات کلیدی توسط نویسنده مشخص شده باشند. تا اینجا مراحل زیر انجام شده است

 

1)      ایجاد یک شاخه با عنوان مثلا : training_docs که شامل متونی است که می خواهید جهت تعلیم استخراج کلمات کلیدی استفاده کنید.

 

2)      پسوند تمامی فایلها باید .txt باشد

 

3)      کلمات کلیدی مشخص شده توسط نویسنده را از آن متنها حذف کنیدو آنها را در فایلهای جداگانه ای با پسوند .key قرار دهید. به عنوان مثال اگر فایلی با نام doc1.txt دارید کلمات کلیدی آن را به فایلی با نام doc1.key منتقل کنید. نکته قابل توجه در اینجا این است که باید هر کلمه کلیدی را در خطی جداگانه از این فایل قرار داد.

 

4)      حال نیاز به یک مجموعه لغات کنترل شده می باشد. لیستی از کلمات کلیدی کنترل شده در آدرس http://www.nzdl.org/Kea/download.html  موجود می باشد. هر نمونه دیگری را می توانید استفاده کنید به شرط اینکه در فرمت SKOS(Simple Knowledge Organization System) باشد.لیستی از لغات SKOS را می توانید در http://esw.w3.org/topic/SkosDev/DataZone بیابید که این مجموعه لغات کنترل شده ، شامل بخشهایی از زمینه های کشاورزی ، پزشکی ، فیزیک و دارو می باشند.

 

5)      مدل استخراج کلمات کلیدی را  با اجرای KEAModelBuilder به صورت زیر ایجاد کنید:

java kea.main.KEAModelBuilder -l <name_of_directory> -m <name_of_model> -v <vocabulary_name> -f <skos|text>

 

به عنوان مثال :

///

java kea.main.KEAModelBuilder -l testdocs/en/train/ -m model -v agrovoc -f skos

///

اگر از "-v agrovoc -f "استفاده می کنید ، Kea برای یافتن agrovoc.rdf در شاخه VOCABULARIES  جستجو می کند.

KEAModelBuilder انتخابهای دیگری نیز دارد که می توانید انها را در مستندات Kea بیابید.

 

استخراج کلمات کلیدی

برای استخراج کلمات کلیدی از متن ها ، آنها را در یک شاخه خالی قرار دهید. سپس آنها را به گونه ای تغییر نام دهید که با .txt خاتمه یابند.

اگر قبلا یک مدل استخراج کلمات کلیدی تهیه کرده اید ، اکنون می توانید با استفاده از دستور زیر کلمات کلیدی را به این متن ها اعمال کنید:

java KEAKeyphraseExtractor -l <name_of_directory> -m <name_of_model>  -v <vocabulary_name> -f <skos|text>

این دستور فایلی با پسوند .key به ازای هر متن در همان شاخه می سازد. هر فایل شامل 5 کلمه کلیدی استخراج شده از آن متن خواهد بود.

اگر فایل .key از قبل موجود باشد ، دوبار نویسی نمی شود بلکه از کلمات کلیدی موجود در آن فایل جهت ارزیابی مدل استخراج استفاده می شود.

KEAKeyphraseExtractor نیز یکسری انتخاب ها دارد که برای یافتن اطلاعات بیشتر می توانید به مستندات آن مراجعه نمایید.

 

نکته مهم

برای به دست آوردن نتایج خوب ، مهم است که متن ورودی به kea به خوبی و تا حد امکان پاکسازی شده باشد به عبارت دیگر باید مثلا تگهای html را از متون ورودی قبل از ایجاد مدل و استخراج کلمات کلیدی از متن های جدید پاک کرد.

همچنین مطمئن شوید که به متون به تعداد کافی جهت تعلیم و استخراج موجود داشته باشید. به عنوان مثال برای تعلیم ، حداقل به 20 تا 30 متن نیاز دارید.

نکته دیگری که باید توجه داشت این است که کلمات کلیدی ای که دستی در فایلهای .key وارد شده است باید به درایه های لغات کنترل شده ای که استفاده می کنید شبیه باشد.