ثبت پیکره قرآنی فرقان در مرجع دادگان زبان فارسی

forghan

پیکره متنی و زیرساختی که تحت عنوان «پیکره فرقان» برای قرآن کریم تولید گردیده است، حاصل بهره‌گیری از سامانه‌ای هوشمند است که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، طراحی و پیاده‌سازی شده است. این پیکره با بیش از 587 مگابایت داده، حاوی کلیه اطلاعات قرآنی، آماری، متن و ترجمه فارسی و انگلیسی آیات و برچسب‌گذاری صرفی و نحوی متن عربی، فارسی و انگلیسی آیات، ریشه‌یابی کلمات آنها و بسیاری موارد دیگر در قالب RDF است و امکان استفاده و کاوش را برای هرگونه پژوهش و پردازش هوشمند ایجاد کرده است. 

مالکیت معنوی: 
 آزمایشگاه فناوری وب دانشگاه فردوسی مشهد
شرایط استفاده: 

-

اطلاعات ارجاع: 

- احمد استیری، محسن کاهانی، و هادی قائمی. (۱۳۹۲). اﯾﺠﺎد و اﻧﺘﺸﺎر زﯾﺮﺳﺎﺧﺖ وب ﻣﻌﻨﺎﯾﯽ ﺑﺮای ﻗﺮآن ﮐﺮﯾﻢ. ارائه شده در پنجمین کنفرانس فناوری اطلاعات و دانش، دانشگاه شیراز.

کاربردها: 
 متن‌کاوی قرآن، پردازش زبان طبیعی، زبان‌شناسی رایانشی
اطلاعات تکمیلی: 

- دسترسی برخط به داده‌ها: http://wtlab.um.ac.ir/linkdata/quran.html 

- لینک ثبت پیکره در مرجع دادگان زبان فارسی: http://dadegan.ir/catalog/forghan  

Comments (3) Posted to پروژه قرآنی 08/02/2013 Edit

تاریخچه خلاصه سازی متن


آغاز فعالیت سیستم های خلاصه سازی خودکار متن به سال 1950 برمی گردد. در آن زمان به دلیل کمبود کامپیوترهای قدرتمند و مشکلات موجود برای پردازش زبان های طبیعی، کارهای اولیه بر روی مطالعه ی ظواهر متن مانند موقعیت جمله و عبارات اشاره متمرکز شده بود. سال 1970 تا1980 هوش مصنوعی بکار آمد[AZZ99][DEJ79][GRA81][MCK95] [SCH77][YOU85] . ایده ی AI، استخراج نمایش های دانش مانند فریم ها یا الگوها برای شناسایی موجودیت های مفهومی از متن و استخراج روابط بین موجودیت ها با مکانیزم های استنتاج بود. مشکل اصلی آن است که الگوهای تعریف شده، محدودیت هایی دارند و ممکن است به تحلیل کامل موجودیت های مفهومی منجر نشود. از اوایل1990 تا به حال هم روش های بازیابی اطلاعات بکار گرفته شده است[AON97] [GOL99] [GON01] [HOV97] [KUP95] [MAN99] 
[SAL97] [TEU97] [YEH02]. بیشتر این روش ها بر روی سطوح ظاهری متمرکز شده و وارد حوزه های معنایی نمی شوند.
Kupiec اولین الگوریتم را در این زمینه پیشنهاد داد .[KUP95] در این روش بر اساس مقادیر ویژگی های یک جمله، احتمال حضور آن در خلاصه، تخمین زده می شود. او عمل خلاصه سازی را به صورت یک مسئله ی دسته بندی، درنظرگرفت و دسته بندی کننده های بیزین را برای تعیین جملاتی که باید در خلاصه وارد شوند، بکار برد.
Chuang و Yang چندین الگوریتم مانند درخت تصمیم و دسته بندی کننده را برای استخراج قطعات جمله پیشنهاد دادند [CHU00]. این روش های خلاصه سازی در یک حوزه خاص عملکرد خوبی دارند. اما برای یادگیری صحیح، نیازمند مجموعه های آموزشی بسیار بزرگی هستند. در سال 1997، Barzilay روشی برای تولید خلاصه با پیدا کردن زنجیره های لغوی معرفی کرد که به توزیع کلمه و اتصالات لغوی بین آنها برای تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوی به هم پیوسته ی متن اتکا می کرد [BAR97]. 
از روش های آماری هم در خلاصه سازی متن زیاد استفاده شده است که از جمله آنها می توان به روش های مبتنی بر مدل موضوع [WAN09][HAR05] و روش های مبتنی بر گراف
 [MIH05][MIH04] اشاره نمود.
چنانکه شاهد هستیم علی رغم اینکه بحث خلاصه سازی از سال ها قبل مطرح شده است، اما همچنان ضعف های زیادی در این زمینه وجود دارد و کارهای بسیاری برای رسیدن به وضعیتی مطلوب در این زمینه بایستی انجام پذیرد.

Comments (0) Posted to پردازش متن 06/25/2013 Edit

خلاصه سازی خودکار متن



خلاصه‌سازی خودکار متن به عنوان هسته‌ی مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن مانند خلاصه‌سازهای ماشینی، سیستم‌های تصمیم‌یار، سیستم‌های پاسخ گو، موتورهای جستجو و ... از سال‌ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. بنابر تعریف ارائه شده در استاندارد ISO215، خلاصه، "یک بازگویی مختصر از سند" می باشد. خلاصه ی تولید شده از یک متن اولا باید از خوانایی  و پیوستگی  بالایی برخوردار بوده و ثانیا فاقد اطلاعات تکراری  باشد. در ادامه، نخست تاریخچه ی خلاصه سازی متن و اهمیت خلاصه سازی خودکار بیان گردیده و سپس برخی از دسته بندی های مختلفی که برای روش های خلاصه سازی خودکار متن وجود دارد، ذکرخواهد شد.

Comments (0) Posted to پردازش متن 06/20/2013 Edit

شبکه واژگان


زبان های طبیعی، همگی دارای ابهام هستند. کلمات هر زبان می توانند چندین معنی و مفهوم داشته باشند. به عنوان مثال، اگر شما لغت game را در یک فرهنگ لغت جستجو کنید، معانی مختلفی برای آن وجود دارد؛ از”بازی” گرفته تا “گوشت شکار” که اصلا هیچ شباهتی به یکدیگر ندارند. معانی این کلمات، بسته به کاربرد آن در جمله و یک متن، تا حدودی مشخص می شود. این ابهام، در کاربردهایی مانند بررسی میزان تشابه دو متن در سیستم های ارزیابی خلاصه سازهای ماشینی و همچنین سیستم های ترجمه ماشینی به عنوان یک مشکل، شناخته می شود. از اوایل دهه ی 90 میلادی، محققان عرصه ی کامپیوتر، بر آن شدند تا روشی را برای بیان صریح مفاهیم موجود در دنیای واقعی، پیدا کنند. هستان  شناسی ، چنین کاری برای ما انجام می-دهد. هستان  شناسی، گرافی است که گره های آن، مفاهیم موجود در دنیای واقعی و یال های آن، ارتباطات موجود بین این مفاهیم را مشخص می کنند [CAL06].
شبکه واژگان یا  WordNet فرهنگی از واژگان است که براساس تئوری‌های زبانی-روانی  بوده و مدل‌ها و معانی کلمات را تعریف می‌کند. شبکه ی واژگان یکی از مباحثی است که در سال های اخیر به شدت مورد توجه قرار گرفته و در کاربردهای بسیار متنوعی استفاده شده است. این شبكه ها عموما در نقش واژهستان شناسی و یا واژگان محاسباتی در خدمت سیستم های هوشمند دانش بنیان و معناگرا قرار دارند. WordNet، لغت‌نامه‌ای است که از یک آنتولوژی برای دسته‌بندی مفاهیم موجود در دنیای واقعی استفاده کرده است و کلمات انگلیسی اعم از اسم، فعل، صفت و قید را به این مفاهیم نسبت داده است [LIN08].
شبکه واژگان در واقع شبكه ای متشکل از هزاران مفهومی است كه بوسیله روابط معنایی به هم مرتبطند. هر مفهوم، نشان دهنده ی مجموعه ای انتزاعی از عناصری می باشد كه بر اساس مختصه های مشتركشان، یك گروه را تشكیل می دهند. در شبکه واژگان، ابتدا لغات در یکی از دسته های اسم، فعل، صفت، و قید قرار گرفته و سپس لغات هر یک از این دسته ها در گروه های هم خانواده ی خود قرار می گیرند. هر یک از این گروه های هم خانواده از یک یا چند لغت تشکیل می شود، که یک مفهوم مشخص را عنوان می کنند و لغات تشکیل دهنده این گروه می-توانند به جای یکدیگر در یک متن استفاده شوند و توسط یکسری روابط معنایی با سایر گروه ها مرتبط می-شوند. روابط معنایی بین گروه های هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قید) متفاوت است.
در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت  (Part of)، شمول (Has-A) را دربر می‌گیرند. روابط معنایی بین Synset‌ها با توجه به طبقه‌بندی‌های گرامری متفاوت است [LIN08]. شبکه واژگان هم‌چنین تعاریف متنی از مفاهیم را فراهم می‌سازد (Glossary) که شامل تعاریف و مثال‌ها می‌باشد. شبکه واژگان را می‌توان به عنوان یک مجموعه‌ی مرتب جزئی  از منابع عبارات مترادف، برشمرد.

Comments (2) Posted to پردازش متن 06/14/2013 Edit

برچسب‏زنی نقش معنایی کلمات (SRL)


برچسب زنی معنایی کلمات  مشابه برچسب گذاری اجزای واژگانی کلام بوده با این تفاوت که عمیق تر و پیچیده تر از آن می باشد. برچسب زنی معنایی، وظیفه ی استخراج نقش های معنایی جملات نظیر فاعل، مفعول مستقیم، مفعول غیرمستقیم، فعل و ... را بر عهده دارد. برچسب زنی معنایی کلمات هم عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و شباهت معنایی می باشد.

Comments (3) Posted to پردازش متن 06/10/2013 Edit

درخت تجزیه


اجزای هر جمله را می توان در قالب گروه های اسمی، فعلی، حرف اضافه ای و ... تقسیم بندی نمود. گاه هر کدام از این گروه ها خود شامل زیرگروه دیگری می باشند. علاوه بر این، هر کدام نیز دارای روابطی می باشند، مثلا یک گروه اسمی می تواند متعلق به یک گروه فعلی باشد. در نتیجه ی این تقسیم بندی های سلسله مراتبی، می-توان یک ساختار درخت گونه از جمله داشت که درخت تجزیه نام دارد. درخت تجزیه، درختی است که ساختار نحوی یک جمله را بر اساس برخی روابط گرامری موجود در آن به شکلی ساده و قابل فهم برای کسانی که دانش عمیق زبان شناسی ندارند، نمایان می سازد [MAR08]. ابزارهای مختلفی برای تجزیه جمله توسعه یافته-اند که خروجی اغلب آنها به صورت رشته ای شامل پرانتز های تو در تو به همراه برچسب ها و کلمات می باشند. این مدل نمایش برای ورودی سیستم ها مناسب است، اما برای انسان خوانایی چندانی ندارد. در ابزار lfgParser  شاهد نمایش گرافیکی و درخت گونه ی درخت تجزیه خواهیم بود. 

Comments (0) Posted to پردازش متن 06/05/2013 Edit

تجزیه گر یا پارسر


به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیله‌ی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح، تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام تجزیه گر  یا پارسر صورت می‌گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
تجزیه‎گرها با بهره گیری از دستورات گرامری زبان به تفکیک جملات متون به اجزای تشکیل دهنده ی آن، مشخص کردن نقش هر عبارت و لغت در متن و همچنین تشکیل درخت تجزیه برای جملات متن می پردازند.
تجزیه‎گر نقش پایه ای و مهمی را در بهبود ابزارهای پردازش متن ایفا می کند. به عنوان مثال جهت تقویت الگوریتم های وابسته به برچسب زن معنایی لغات (SRL) علاوه بر نقش های کلمات، وابستگی های کلمات به لحاظ نقشی در جمله نیز باید مشخص گردد.

Comments (2) Posted to پردازش متن 05/31/2013 Edit

برچسب زنی بخش های سخن (POS)


در دستور زبان، بخش های سخن، طبقه بندی هایی زبانی از کلمات هستند که رفتار نحوی یک قسمت از جمله را بیان می دارند. به طور عموم، تمامی زبان ها دو بخش سخن فعل و اسم را دارند. بقیه بخش های سخن در زبان-های مختلف، متفاوت می باشند. از جمله مهم ترین بخش های سخن در زبان فارسی اسم، ضمیر، صفت، قید و حرف اضافه را می توان نام برد.
در زبان شناسی پیکره ای ، برچسب زن اجزای کلام  (POS tagging یا POST)، که همچنین برچسب زن دستوری  یا ابهام زدایی لغت-دسته ، نامیده می شود، فرآیند نشانه گذاری لغت در یک متن است، که این نشانه، بیانگر وجه آن جزء از کلام می باشد. تشخیص این امر، مبتنی بر تعریف و نوع کاربرد در متن، انجام می شود. برای مثال رابطه ای که یک لغت با دیگر لغات در یک عبارت، جمله و یا پاراگراف دارد مشخص می شود. شکل ساده شده ی این موضوع، همان مشخص کردن نوع لغت از لحاظ اسم، فعل، صفت و قید می باشد که در مدارس به آن پرداخته می شود. در شکل 2-1 نمونه ای فرضی از یک مجموعه برچسب (Tagset) برای زبان انگلیسی [CCG1] و همچنین در شکل 2-2 نمونه ای از یک مجموعه برچسب (Tagset) برای زبان فارسی معرفی شده است.

Comments (2) Posted to پردازش متن 05/21/2013 Edit

ریشه‌یابی


در این مرحله به منظور یکسان سازی اشکال مختلف یک کلمه، یکپارچه سازی و همچنین اعمال پردازش های بعدی بایستی کلمات، ریشه یابی شوند. ریشه یابی به فرآیند تبدیل کلمات به فرم ریشه ای و پایه ای آنها اشاره می نماید. بنابراین "دانش آموز" و "دانشجو"و "دانشگاه" به"دان" كه ریشه‌ی اصلی است، كاهش می یابند. لازم به ذکر است که منظور از ریشه در این بخش، دقیقا ریشه ی کلمات که در زبان شناسی استفاده می شود، نیست. بلکه منظور از ریشه، یک نماینده برای کلماتی است که از لحاظ معنایی و نحوی در یک حوزه قرار می گیرند. این فرآیند در پردازش متن، اهمیت بسیاری دارد؛ چرا که باعث می شود ماشین با دو کلمه ی هم خانواده اما ظاهرا متفاوت، مانند دو کلمه ای که از لحاظ ریشه ای هیچ ارتباطی با هم ندارند، برخورد ننماید. الگوریتم های مختلفی برای ریشه یابی لغات پیشنهاد شده است و مورد استفاده قرار می گیرد. الگوریتم پیشنهاد شده در [POR80] رایج ترین الگوریتم در زبان انگلیسی می باشد. نمونه‌های دیگری از الگوریتم‌های ریشه یابی، الگوریتم كراوتز  در انگلیسی و الگوریتم کاظم تقوا در فارسی هستند [POR80][KRO93][TAG05]. اما از آنجا که خروجی ریشه یاب در فازهای بعد، مورد استفاده های گوناگون از جمله اندازه گیری شباهت معنایی بر مبنای شبکه واژگان قرار می گیرد، بایستی بررسی شود تا خروجی ریشه یاب، ورودی مناسبی برای آن فازها باشد.

Comments (3) Posted to پردازش متن 05/14/2013 Edit

ایست واژه ها (Stop words)


ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل "اگر"، "و"، "ولی"،"که" و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود می دهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالبا در فاز پیش پردازش، حذف می شوند. برای زبان فارسی چندین لیست از این کلمات منتشر شده است که بطور میانگین شامل 500 کلمه می باشند.

Comments (2) Posted to پردازش متن 05/07/2013 Edit

زبان فارسی


در تلاش برای ساخت یک سیستم پردازش و درک متون فارسی با مسائل و مشکلاتی مواجه می شویم که بعضی از آنها در بیشتر زبان ها بروز کرده و برخی خاص زبان فارسی می باشند.
همچنین برخی از این پیچیدگی ها به طبیعت زبان و نارسایی های دستورات زبان شناسی مربوط و برخی دیگر برخاسته از مشکلات ایجاد سیستم های هوش مصنوعی است ]داد 80[. در این بخش به برخی از این مسائل اشاره می شود.
زبان فارسی از نظر ساختاری دارای تفاوت‌های بسیاری با زبان انگلیسی است. برخی از تفاوت‌های مشهود بین زبان فارسی و انگلیسی عبارتند از:
- تفاوت در ترتیب قرارگیری ارکان جمله. در اصطلاح، زبان‌هایی مثل انگلیسی را SVO  و زبان‌هایی مثل فارسی را SOV  می‌نامند که در واقع نشان دهنده ی ترتیب ارکان در جملات می‌باشد.
- زبان فارسی یک زبان اصطلاحاً بازتابی  نامیده می‌شود. یعنی کلمات براساس زمان و شخص موجود در جمله، می‌توانند حالت‌های مختلفی به خود بگیرند.
- در فارسی برخی ضمیرها وجود دارند که به اسم‌ها و افعال متصل می‌شوند (ضمیرهای متصل) که باعث بروز شکل‌های مختلف برای کلمات می‌شوند که این حالت هم در زبان انگلیسی وجود ندارد و تمامی‌ضمیرها منفصل می‌باشند.
با توجه به موارد ذکر شده و از آنجایی که زبان فارسی نوعی از زبان های غیرساختیافته است با مشکلات بسیار بیشتری نسبت به زبان انگلیسی مواجه خواهیم شد. متون غیرساختیافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات و کلمات در نظر می‌گیریم.
به طور کلی مشکلات اصلی در پردازش متون فارسی را می توان در چند دسته زیر، خلاصه نمود ]داد 80[:
عدم وجود منابع زبانی مناسب و کافی برای زبان فارسی.
مشکل تشخیص مرز کلمات (مسأله شیوه های نگارش متفاوت)
مشکل تشخیص مرز گروه های اسمی (مسأله ی کسره ی اضافه نامرئی)
از دست دادن اطلاعات گویشی
مسأله ی ابهام
افعال مرکب و اصطلاحات
مسأله ی همنگاره ها و تحت آن مسأله ی حذف مصوت های کوتاه (اعراب) از نوشتار
معناشناسی و مشکلات تحلیل معنایی.

Comments (0) Posted to پردازش متن 05/02/2013 Edit

انتشار مقالات اولین کنفرانس پردازش خط و زبان فارسی


مقالات ارائه‌شده در نخستین کنفرانس پردازش خط و زبان فارسی در وب‌گاه همایش‌های علمی دانشگاه سمنان قرار گرفت.

نخستین کنفرانس پردازش خط و زبان فارسی در ۱۵ و ۱۶ شهریورماه ۱۳۹۱ در دانشگاه سمنان برگزار شد.

علاقه‌مندان می‌توانند مقالات این کنفرانس را از طریق پیوند زیر دریافت نمایند:
http://conf.semnan.ac.ir/index.aspx?siteid=49&pageid=3275
 
 مقالات مرتبط با کارهای من نیز از پیوندهای زیر قابل دانلود می باشد:
 
ارائه یک ابزار ارزیابی خودکار خلاصه‏سازهای چکیده‏ای فارسی با بهره‏گیری از شبکه واژگان  
 
طراحی ابزار پارسر زبان فارسی  
 
طراحی یک سیستم توصیه‏گر ترکیبی معنایی با استفاده از تکنیک‏های پردازش زبان طبیعی فارسی  
 
دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات فارسی با بهره گیری از شبکه واژگان
 

Comments (3) Posted to ابزار ارزیابی خلاصه ها , ارزیابی سیستم های توصه گر , پردازش متن 04/28/2013 Edit

تعاریف پایه زبان شناسی


 پردازش متن از جمله مسائل اساسی در حوزه هوش مصنوعی و شناخت رایانشی است که در چند دهه اخیر، توجهات گسترده ای را در قالب های عدیده به خود معطوف کرده است. در پردازش متون زبان طبیعی با زبان نوشتاری سر و کار داریم. این مسأله باعث می شود گرچه به جهت از دست دادن اطلاعات گویشی مانند لحن گوینده، آهنگ صدا، تاکید و مکث، با مشکلات و ابهاماتی مواجه شویم، ولی در مقابل با شکل محدودتر و با قالب دستوری مشخص تری از زبان کار می کنیم. پردازش متون زبان فارسی در سطوح چهارگانه ی آوایی، ساخت‌واژی، نحو و معنایی و همچنین در حوزه‌های کاربردی متعددی امکان پذیر می باشد. 
قبل از پرداختن به هر مطلبی در زمینه پردازش زبان طبیعی، برای آشنایی بهتر با مباحث مربوط به پردازش زبان طبیعی، خلاصه سازی و چگونگی ارزیابی آنها، بهتر است با مفاهیم پایه و تعاریف اولیه ی این حوزه که به منزله الفبای پردازش متن می باشند، آشنا شویم. اغلب اقدامات مربوط به این مفاهیم، در واقع نوعی پیش-پردازش متن می باشد؛ بدین معنی که انجام این پردازش ها بر روی متن، در واقع آماده سازی متن به منظور اعمال فرآیندها و فعالیت های بعدی می باشد. در ادامه ی این بخش، تعاریف پایه و ابتدایی مورد نیاز، توضیح داده شده است. در کاربردهای مختلف پردازش زبان طبیعی عموما از این تعاریف پایه استفاده می شود.

Comments (0) Posted to پردازش متن 04/25/2013 Edit

آنتولوژی ها


تکنیک‌های معنایی یکی از مهم‌ترین مسائل در دنیای اینترنت می‌باشند. مسائلی از قبیل قابلیت استفاده مجدد، مجتمع‌سازی منابع، توصیف معنایی داده‌ها یا سرویس‌ها، مستلزم به کار بردن آنتولوژی[1] در قراردادهای دو جانبه می‌باشند. همترازسازی آنتولوژی ها [2]به کشف تشابه بین مولفه‌ها و روابط بین آنتولوژی‌های گوناگون می پردازد. همترازسازی، عناصر کلیدی را با تعمیم معنایی ایجاد می کند. در OA باید توجه ویژه‌ای به رابط کاربرها [3]و تکنیک‌های تجسم‌سازی و همچنین دخالت های انسانی در این فرآیند، داشته باشیم. از طرفی وب معنایی[4] برای توصیف محیط های مختلف با دامنه معنایی مختلف طراحی شده است برای مثال دامنه اطلاعات حوزه اطلاعاتی یک دانشگاه با یک کارخانه ماشین متفاوت است بنابراین با توجه به اینکه این اطلاعات به طور مجتمع در وب معنایی قرار نگرفته اند، برای توصیف این اطلاعات، آنتولوژی ها نقش اساسی را ایفا می کنند و همچنین با توجه به اینکه آنتولوژی ها خود در دامنه های مختلف و دور از هم (از نظر شباهت) تعریف می شوند، از همترازسازی آنتولوژی ها استفاده می گردد.

در این گزارش همترازسازی آنتولوژی ها بررسی می شود.

روش چندزبانه، روشی است که برای همترازسازی بین دو یا چند آنتولوژی به زبانهای مختلف مورد استفاده قرار می گیرد. این روش بسیار پرکاربرد در زمینه های تجاری و خرید های الکترونیکی می باشد. برای مثال در خریدهای الکترونیک که از چند آنتولوژی به چند زبان استفاده می شود می توان از این روش در تطبیق بین عبارات این آنتولوژی ها استفاده کرد. روش دومی که بررسی می شود، روش الگوریتم ژنتیک می باشد که شامل پنج مرحله است. الگوریتم ژنتیک، گونه ای الگوریتم تکاملی است که به مرور با بهبود جواب به جواب بهینه نزدیک می شود. هر مساله ای که با الگوریتم ژنتیک حل می شود باید در ابتدا به وسیله کدگذاری مشخص برای آن به تولید عناصر پایه ای(کروموزوم) بپردازد.

یک روش ساده همترازسازی بین دو آنتولوژی مستلزم زمان محاسبات O(n2) است که این زمان مقایسه ترکیبی از جفت گره ها از دو آنتولوژی می باشد. در این بخش الگوریتمی معرفی می شود که کارایی و مقیاس پذیری همترازسازی بین دو آنتولوژی را افزایش داده و زمان محاسبه را به O(n) کاهش می دهد.



[1] واژه «هستی شناسی »به عنوان معادل فارسی کلمه «ontology» پیشنهاد شده است اما برای جلوگیری از ابهام در این مستند از        واژه آنتولوژی استفاده گردیده است.

[2] Ontology Alignment (OA)

[3] User interface

[4] Semantic web

 

با تشکر از خانم میرزایی 

Comments (0) Posted to ارزیابی آنتولوژی ها 04/23/2013 Edit

فناوري‌هاي وب معنايي


سناريوهاي ذكر شده در بخش 1.2 علمي تخيلي نيستند. براي دستيابي به آنها نيازي به پيشرفت علمي انقلابي نيست. مي‌توان به صورت منطقي ادعا نمود كه چالش در پذيرش فناوري و مهندسي است و نه از لحاظ علمي: راه‌حل‌هاي جزئي براي همه بخش‌هاي مهم مساله وجود دارد. در حال حاضر بيشترين احتياجات در زمينه‌هاي مجتمع‌سازي، استاندارد كردن، توسعه ابزار و تطبيق كاربران است. اما البته پيشرفت بيشتر فناوري، به وب معنايي پيشرفته‌تري به نسبت آنچه امروزه قابل دستيابي است، منجر مي‌شود.
در بخش‌هاي آتي به چند فناوري ضروري براي دستيابي به عملكردهاي ذكر شده اشاره مي‌نماييم.
1.3.1 ابر داده صريح  
در حال حاضر محتواي وب براي خوانندگان انسان شكل گرفته است تا براي برنامه ها. HTML زبان غالبي است كه صفحات وب با آن (به طور مستقيم يا با استفاده از ابزار) نوشته مي‌شوند. بخشي از يك صفحه وب معمول متعلق به يك درمانگر ممكن است به صورت زير باشد:
<h1>Agilitas Physiotherapy Centre</h1>
Welcome to the Agilitas Physiotherapy Centre home page.
Do you feel pain? Have you had an injury? Let our staff
Lisa Davenport, Kelly Townsend (our lovely secretary)
and Steve Matthews take care of your body and soul.
<h2>Consultation hours</h2>
Mon 11am - 7pm<br>
Tue 11am - 7pm<br>
Wed 3pm - 7pm<br>
Thu 11am - 7pm<br>
Fri 11am - 3pm<p>
But note that we do not offer consultation
during the weeks of the
<a href=". . .">State Of Origin</a> games.
براي انسان‌ها اطلاعات به صورت رضايت‌بخشي ارائه شده است، اما ماشين‌ها مشكلات خود را خواهند داشت. جستجوهاي مبتني بر كلمه كليدي، كلمات physiotherapy و consultation hours را تشخيص مي‌دهند. و حتي يك عامل هوشمند ممكن است قادر به تشخيص پرسنل مركز باشد. اما در تشخيص درمانگرها از منشي دچار مشكل خواهد شد و حتي در يافتن ساعات واقعي مشاوره مشكلش حادتر مي‌گردد. (براي اين كار نياز است تا پيوند State Of Origin games را دنبال كند تا زمان برگزاري آنها را بيابد.)
رويكرد وب معنايي براي حل اينگونه مسائل توسعه عامل‌هاي ابرهوشمند نيست. در عوض پيشنهاد مي‌كند از سمت صفحه وب به مشكل حمله شود. اگر HTML با زبان مناسب‌تري جايگزين گردد، صفحات وب مي‌توانند محتواي خود را با خود حمل كنند. آنها علاوه بر شمول اطلاعات فرمت كه به ايجاد يك سند براي مخاطبان انسان كمك مي‌كند، داراي اطلاعاتي در مورد محتوايشان نيز مي‌باشند. در مثال ما ممكن است اطلاعاتي همانند آنچه در ادامه آمده وجود داشته باشد: 
<company>
<treatmentOffered>Physiotherapy</treatmentOffered>
<companyName>Agilitas Physiotherapy Centre</companyName>
<staff>
<therapist>Lisa Davenport</therapist>
<therapist>Steve Matthews</therapist>
<secretary>Kelly Townsend</secretary>
</staff>
</company>
اين ارائه به مراتب آسانتر توسط ماشين‌ها قابل پردازش است. لغت ابرداده به چنين اطلاعاتي ارجاع داده مي‌شود: داده‌هايي درباره داده‌ها. ابرداده بخش معناي داده‌ها را در خود دارد، كلمه معنا در وب معنايي از اينجا ناشي شده است.
در سناريوهاي نمونه ما در بخش 1.2 به نظر مي‌رسيد موانعي در برابر دسترسي به اطلاعات صفحات وب از قبيل جزئيات درمان، برنامه‌هاي زماني و قرار ملاقات‌ها، قيمت‌ها و توصيف محصولات، وجود ندارد. به نظر مي‌رسد تمام اطلاعات مي‌توانند بطور مستقيم از محتواي وب موجود بازيابي شود. اما همانطور كه شرح داده مي‌شود، اين اتفاق با استفاده از دستكاري داده مبتني بر متن رخ نمي‌دهد بلكه با سودبري از ابرداده قابل پردازش براي ماشين صورت مي‌گيرد.
با توجه به توسعه كنوني در صفحات وب، كاربران نيازي به مهارت در زمينه علوم كامپيوتر براي ايجاد صفحات وب ندارند و مي‌تواننداز طريق ابزاري بدين هدف نايل آيند. هنوز اين سوال مطرح است كه چرا كاربران بايد به اينگونه مسائل اهميت دهند و چرا بايد به خاطر زبان‌هاي وب معنايي HTML را رها كنند. شايد اگر موقعيت امروزي را با دوران آغازي وب مقايسه كنيم، بتوانيم پاسخي خوشبينانه به اين سوال دهيم. كاربران ابتدايي HTML را برگزيدند زيرا به صورت يك استاندارد درآمده بود و فوايدي از آن انتظار مي‌رفت كه متناسب با پذيرندگان ابتدايي بود. ديگران با توجه به ظهور ابزارهاي بهتر و بيشتر به سمت آن رفتند و به زودي HTML تبديل به استاندارد پذيرفته شده جهاني شد.
به طور مشابه، در حال حاضر پذيرش سريع XML را مشاهده مي‌كنيم. XML اولين قدم مهم است، هرچند براي درك ديد وب معنايي كافي نيست. كاربران ابتدايي، احتمالا برخي سازمان‌هاي بزرگي كه به مديريت دانش و تجارت الكترونيك B2B  علاقمندند، XML و RDF را به عنوان استانداردهاي W3C مرتبط با وب معنايي كنوني مي‌پذيرند. و اين شتاب به فروشندگان ابزار و كاربران برگزيننده فناوري بيشتر و بيشتر منجر مي‌گردد. 
اين يك گام قطعي در سرگذشت وب معنايي خواهد بود، اما همچنان يك چالش است. همانطور كه اشاره شد بزرگترين چالش كنوني يك چالش علمي نيست بلكه پذيرش فناوري است.
1.3.2 هستان شناسی
واژه هستان شناسی از فلسفه سرچشمه گرفته است. در این زمینه، از آن به عنوان نام یک زیر رشته استفاده می‌گردد، به عبارت دیگر، مطالعه ماهیت وجود (ترجمه تحت اللفظی از Oντoλoγiα کلمه یونانی) ، شاخه ای از متافیزیک است که در رابطه با شناسایی انواع چیزهایی که در واقع وجود داشته  و چگونگی توضیح آنها ، می باشد. به عنوان مثال مشاهده آنکه جهان از اشیاء خاصی ساخته شده است که می تواند به کلاس های انتزاعی، بر اساس خواص مشترک تعهد هستی‌شناسی معمولی، دسته بندی شود.
با این حال ، در سال های اخیر ، هستی‌شناسی یکی از کلماتی است که بوسیله علوم کامپیوتر ربوده شده است و یک معنای ویژه فنی پیدا کرده است که بسیار متفاوت با معنای اصلی آن است. در حال حاضر ما برای اهداف خود از واژه "يك هستی‌شناسی " بجای هستی‌شناسی صحبت می‌کنیم، ما از تعریف T. R. Gruber’s  که بعدها توسط R. Studer  دوباره تعریف شده است استفاده می‌کنیم:هستی‌شناسی بیانی صریح و رسمی از ویژگی های مفاهیم است.
به طور کلی، هستی‌شناسی یک حوزه از سخن را بطور رسمی توصیف می‌کند. . به طور معمول ، هستی شناسی شامل یک لیست محدود از اصطلاحات و روابط بین آنهاست. این اصطلاحات، مفاهیم مهم(کلاس‌هایی از اشیا)را  در یک دامنه، مشخص می‌کند. به عنوان مثال ، در محیط دانشگاه ، کارکنان ، دانش آموزان ، دوره ها ، سالن سخنرانی ، و رشته های برخی از مفاهیم مهم است.
روابط به طور معمول شامل سلسله مراتب کلاس ها است. یک سلسله مراتب مشخص می‌کند کلاسc زیر کلاسی از کلاس *c است  اگر هر جسم در c در *c نیز گنجانده شده باشد. به عنوان مثال ، تمام اعضای هیات علمی عضو كاركنان هستند. شکل 1.1 سلسسله مراتب حوزه دانشگاه را نشان می‌دهد.
به غیر از روابط زیر کلاسی، هستی‌شناسی ممکن است شامل اطلاعات زیر باشد:
خصوصیات(x می‌آموزد به y )،
محدودیت های مقدار( تنها اعضای هیات علمی می‌توانند تدریس کنند)،
عدم ارتباط وضعيت‌ها (هيات علمي و كاركنان عمومي غير مرتبط هستند)
خصوصيات روابط منطقي بین اشيا(هر دانشكده حداقل بايد ده عضو هيات علمي داشته باشد)
هستي شناسي در زمينه وب، فهم مشتركي از يك زمينه ارائه مي‌دهد. چنین درک مشترکي برای غلبه بر تفاوت در اصطلاحات لازم است. كاربرد كد زيپ ممكن است مشابه ديگر كاربرد كد در ناحيه باشد. مشكل ديگر اين است كه دو كاربرد ممكن است از يك اصطلاح مشترك با معاني متفاوت استفاده كنند. در دانشگاه الف ممكن است درس به يك رتبه(مانند علوم كامپيوتر) اشاره كند در حالي كه در دانشگاه ب به يك شئ واحد(cs 101) اشاره مي‌كند. چنين مشكلاتي مي‌تواند با نگاشت اصطلاحات خاص به يك هستي‌شناسي مشترك و يا تعريف يك نگاشت مشترك بين هستي‌شناسي‌ها مرتفع گردد. در هر حال مي‌توان به راحتي مشاهده نمود كه هستي‌شناسي از معاني به صورت قابل تفسيري حمايت مي‌كند.
هستي‌شناسي براي سازمان‌دهي و مسيريابي وب سايت‌ها مفيد است. امروزه بسياري از وب سايت‌ها در سمت چپ صفحات خود سلسله مراتب مفاهيم سطح بالاي اصطلاحات خود را به نمايش مي‌گذارند. كاربر ممكن است يكي از آنها را كليك كند تا بتواند زير دسته‌هاي آن را گسترش دهد.
همچنین ، هستی شناسی برای بهبود دقت جستجوهای وب مفيد است. موتورهای جستجو می توانند به دنبال صفحه‌اي بگردند كه در هستي‌شناسي خود به طور دقيق به مفاهيم اشاره مي‌كنند يه جاي اينكه در تمام صفحات، كه لغات به صورت كلي مبهم اتفاق مي افتند،  بگردند. بدين ترتيب مي‌توان بر تفاوت  اصطلاحات بين وب سايت‌ها و جستجوها غلبه كرد.
علاوه بر اين، جستجوهاي وب مي‌توانند از قابلیت تعميم دادن/خصوصي ساختن اطلاعات استفاده كنند. اگر يك جستجو در يافتن هر گونه صفحات مرتبط شكست بخورد، موتور جستجو ممكن است يك جستجوي عمومي‌تر را به كاربر پيشنهاد دهد. حتي ممكن است موتورهاي جستجو، چنين جستجوهايي را به طور پيش گستر، به منظور كاهش زمان واكنش در مورد قبول پيشنهاد، توسط كاربر اجرا كند. يا اگر پاسخ‌هاي زيادي يافت شد، موتور جستجو ممكن است موارد خاصي را به كاربر پيشنهاد دهد.
در هوش مصنوعي سابقه طولاني از گسترش و استفاده از زبان هستي‌شناسي وجود دارد.  اين اساس پژوهش‌هاي وب معنايي است. در حال حاضر مهمترين زبان‌هاي هستي‌شناسي در وب به شرح زير مي‌باشند:
RDF يك مدل داد‌ه‌اي  براي اشيا (منابع) و روابط بين آنهاست؛ كه مفاهيم ساده‌اي براي اين مدل داده‌اي فراهم مي‌كند؛ اين مدل داده‌اي مي‌تواند به وسيله XML syntax نمايش داده شود.
RDF Shema يك زبان توصيف لغوي براي تشريح ويژگي‌ها و كلاس‌هاي منابع RDF، همراه با مفاهيمي براي عمومي‌سازي سلسله مراتب آن ويژگي‌ها و كلاس‌ها است.
Owl يك  زبان توصيف لغوي قويتر براي تشريح ويژگي‌ها و كلاس‌ها است، از قبيل روابط بين كلاس‌ها (مانند" "disjointnes )، cardinality (مثلا "دقيقا يك";)، برابري، انواع غني‌تري از ويژگي‌ها، خصوصيات ويژگي‌ها(به عنوان مثال "تقارن";) و كلاس‌هاي شمارش شده.

Comments (1) Posted to وب معناگرا چیست؟ 04/05/2013 Edit

«قبلي   1 2 3 4 5 6 7 8 9 10  بعدي»

درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds