ریشه یابی در پردازش زبان طبیعی

| | ارسال نظر | بازتاب (0)

 اسلایدی که لینک دانلود آن در پایین آمده است موضوع ریشه یابی و الگوریتم های آن را به صورت مختصر و مفید معرفی کرده است

و میتوان یک دید کلی از این مقوله بدست آورد

 A Comparative Study of stemmer

 

پردازش زبان طبیعی(بر پایه کاربرد شناسی) (3)

| | ارسال نظر | بازتاب (0)

مقصود آن درک هدف متن

معنا رو فهمیده و ارتباطش با حال را میخواهد درک کند

 

در حالیکه الگوی منحنی لغوی مجموعه کلمات است و منحنی معنا مجموعه مفاهیم است، الگوی کاربردشناسی در واقع مجموعه شرح ها است، که هر بخش از متن به وسیله داستان کوتاه یا قسمت های به هم پیوسته  بازنمایی می‌شود، که به سمت سطحی با جزئیات بیشتر از درک متن و پردازش حسی می رود.

 

 

پردازش زبان طبیعی(بر پایه معناشناسی) (2)

| | ارسال نظر | بازتاب (0)

بررسی معانی کلمات و تاثیر کلمه بر معنای جمله

پردازش زبان طبیعی درون زا

با استفاده از تکنیک های ماشین لرنینگ برای آنالیز معنایی عمل میکند و از مفاهیم تقریبی از یک مجموعه بزرگ از اسناد یک ساختار می سازد.  از اسناد دانش قبلی ندارد  بلکه بر روی دانش درون زای آن تکیه دارد ( به جای دانش خارجی)

فواید آن: اثربخشی استفاده موثر از نیروی متخصصان ،قابلیت استفاده در دامنه های مختلف

 پردازش زبان طبیعی درون زا شامل روشهای برپایه یا معناشناسی لغوی بر روی معنای هر کلمه تمرکز دارد یا معنای ترکیبی که بر روی معنای کلی جمله میپردازند. بیشتر پردازش زبان طبیعی های درون زا بر اساس معناشناسی لغوی کار می کند و شامل تکنیک های شناخته شده ماشین لرنینگ هستند

پردازش زبان طبیعی طبقه بندی شده

با هدف  به وجود آوردن طبقه بندی های جهانی و آنتولوژی ها طبقه بندی معانی  با استفاده از مفهوم آنها در زبان طبیعی استفاده میشود. این طبقه بندی ها شامل مفاهیم،( مثل نقاش)  نمونه ها، مثل( لئوناردو داوینچی)، ویژگی ها و مقادیر مثل لئوناردو داوینچی در تاریخ فلان متولد شد. به طور کلی تلاش‌ها برای ساخت منابع طبقه‌بندی بیشمار است یا توسط متخصصان انسانی و تلاشهای اجتماعی ساخته شدند مثل وردنت و فریبیس

پردازش زبان طبیعی ادراکی

این روش از همه راهبردهای پردازش زبان طبیعی الهام گرفته از ذهن برای جبران بخش دریافت ویژگی های معنایی ضمنی استقبال می کند. این مدل با مدل طبقه بندی تفاوت دارد و بر روی انکود کردن دانش استنتاج تمرکز ندارد بلکه تلاش دارد برای جمع آوری دانش منحصر به فرد  در مورد اشیا کارها اتفاقات و  انسانها

  برگرفته از Jumping NLP Curves: A Review of Natural Language Processing Research 

پردازش زبان طبیعی(بر پایه تحلیل نحوی) (1)

| | ارسال نظر | بازتاب (0)
تحلیل نحوی به دانش مطالعه ی قواعد مربوط به نحوه ی ترکیب و در کنار هم آمدن واژه‌ها به منظور ایجاد و درک جملات در یک زبان اطلاق می‌شود.
امروزه پردازش زبان طبیعی بر پایه نحو هنوز یکی از محبوب ترین روشها برای کارهایی مثل بازیابی
اطلاعات ، مدل سازی موضوعی، طبقه بندی خودکار … است
شامل 3 دسته اصلی است: 
تشخیص کلید واژه

 به خاطر دسترس پذیری و اقتصادی بودند  ساده‌ترین و همینطور محبوب ترین راهبرد است. در آن کلمات بر اساس دسته بندی هایی به  کلمات بدون ابهام تقسیم می شود. نقطه ضعف روش کلید واژه در احتیاج به وجود کلمات آشکار است، مثلاً  در مطلبی که در مورد سگ است هیچ اسمی از سگ برده نشود به این دلیل که سگ ها با نژاد شان مشخص می شود .این مقاله ممکن است هیچ وقت به وسیله موتور جستجو های بر پایه کلمه کلیدی بازیابی نشود.

میل واژگانی

این مدل از مدل کلید واژه کمی بهتر است به این دلیل که به جای اینکه به صورت ساده آنها را تشخیص دهند به کلمات دلخواه و دسته بندی های آن ها مقدار احتمال میل را  اضافه می‌کند. مثلاً کلمه تصادف در ۷۵ درصد موارد در اتفاقات منفی اتفاق می‌افتد. نقطه ضعف آن هم میتواند به وسیله بعضی جملات به راحتی اشتباه کنند   به طور مثال من از تصادف دوری می کنم یا من دوستم را تصادفا دیدم

پردازش زبان طبیعی آماری

جریان اصلی تحقیقات از اواخر سال ۱۹۹۰ بوده است.  بر روی مدل های زبانی تکیه دارد و  بر پایه الگوریتم های محبوب یادگیری ماشین مثل حداکثر احتمال، حداکثر انتظار،  فیلدهای تصادفی شرطی و ماشین پشتیبانی از بردارSVM.

با آموزش بسیار زیاد میتوند ارزش کلید واژه هارا یاد بگیرد  (as in the keyword spotting approach)

همچنین ظرفیت سایر کلمات کلیدی دلخواه  را هم به حساب بیاورند(like lexical affinity)

این مدل هم از نظر معنایی ضعیف است 

 

در نتیجه طبقه بندی آماری کلمات زمانی با یک دقت قابل قبول کار می کند که یک متن بزرگ را  به عنوان ورودی به آن بدهیم و روی واحدهای کوچک مثل جمله خوب  عمل نمی کند

  Jumping NLP Curves: A Review of Natural Language Processing Research منبع : برگرفته از مقاله  

 

خلاصه مرتبط با پردازش زبان طبیعی

| | ارسال نظر | بازتاب (0)
سلام از ارائه ای که توسط مهندس اسدی فر در اختیار من گذاشته شد 2 فصل آن را برای استفاده در ارائه ی خودم خلاصه کرده بودم که در اختیار شما میگذارم
 
خلاصه ی 2 بخش اول اراِئه ی کنفرانسی From linguistic predicate-arguments to Linked Data and ontologies
 
 که در پایین لینک دانلود آن گذاشته شده است
 
 
 کارهای معمول استخراج دانش

1تشخیص موجودیت نامدار :

2 متصل کردن موجودیت ها:  مثلاً اتصال به پایگاه های دانش مثل وردنت

3 استخراج رابطه دودویی : تبدیل به مدل سه تایی فاعل مستند مفعول

4 استخراج رابطه n تایی : رابطه های پیچیده مثل وضعیت ها و  اتفاقات، شامل موجودیت های متعدد

 

کارهای پردازش زبان طبیعی مربوط به استخراج دانش

Coreference resolution 1.

     تشخیص قطعاتی از متن که به یک موجودیت اشاره می کند

2  ابهام زدایی حس کلمات

      نسبت دادن یک حس  به کلمات

3 تجزیه نحوی

4 قوانین  معنای لیبل گذاری

      تخصیص دادن انواع معنایی به ساختارهای مسند و استدلال

5  تجزیه معنایی

        تولید ساختارهای معنایی از کل متن

 

استخراج رابطه های n تایی

از یک جمله میتوان جملات زیادی با یک معنی استخراج کرد

مراحل  انجام کار

ساختار نحوی :  یک ساختار زبانی ساختار متن و کلماتش نزدیک باشد  ( دقیقا همان کلمات )

ساختار معنایی :  یک ساختار زبانی  مفهوم جمله نزدیک باشد

 

Predicate-argument

ساختاری که پایه بیشتر ساختارهای معنایی است

مسند : یک عنصر معنایی که بدون استدلال کامل نیست

ساختار مسند استدلال می‌تواند خروجی تجزیه کننده نحوی باشد اما تجزیه کننده نحوی  انواع معنای را نخصیص نمی دهد

Other tools are needed to produce semantic structures:
–SRL, semantic parsers, NER, EL, WSD, etc.

 

آنالیز معنایی

لیبل گزاری قوانین معنایی(SRL) روابط مسند استدلال را طبقه بندی می کنند

 

Semantic role resources: NomBank, PropBank, VerbNet, FrameNet, etc.

–E.g. Semafor, Mate Tools SRL, Illinois SRL, etc.

 

تجزیه کننده معنایی :تولید ساختارهای معنایی برای جمله یا کل متن


 

 

تجزیه نحوی :  ساختار جمله را می گیرد و  چگونگی ارتباط کلمات با یکدیگر. 2  نوع اصلی دارد:

Constituency parsing  تجزیه حوزه : بر پایه ی ترتیب کلمات. جمله را به عناصر تشکیل دهنده تجزیه میکند مثل عبارت اسمی و عبارت فعلی و غیره

با زبان هایی که ترتیب خاصی ندارند مشکل دارد

 رابطه مستند استدلال می‌تواند به صورت غیرمستقیم نگاشت شود

درست بودن جمله از نظر گرامر را تشخیص میدهد

Dependency parsing  تجزیه وابستگی :  ارتباط نحوی بین کلمات را توصیف می کند.  به ترتیب کلمات وابستگی ندارد

رابطه مسند استدلال را به طور مستقیم نگاشت می کند

درست بودن جمله از نظر گرامر را تشخیص نمیدهد

روش های حاشیه نویسی  متفاوتی دارد

 

ابزارهای تجزیه

1_  تجزیه کننده های بر پایه قانون  

-همیشه قابل اطمینان نیستند(مسئله پوشش دادن دارند)

-خروجی متکی به قوانین است

2_  تجزیه کننده های آماری

- تجزیه کننده +  مدل یاد گرفته شده از اطلاعات

- خروجی متکی به داده‌های یاد گرفته شده است

- همیشه یک ساختار کامل را برمیگرداند

 

 

SRL…..

ابزار Mate برپایه probBank  است. حس ها مخصوص و ویژه برای هر گزاره زبانی هستند(هیچ نوع مشترک معنایی وجود ندارد برای احساسات مترادف یک فعل)

ابزار semafor :  یک ابزار برای SRL  است .برپایه frameNet  ساخته شده است . انواع حالت ها اتفاقات و اشیاء را توصیف می کند (مثل حمام کردن.  غذا) و همچنین با واحدهای زبانی نیز همراه است مثلاً کلماتی که به آن مربوط است( حمام کردن:  حمام دوش صابون اصلاح کردن)

 

تجزیه معنایی

DRS  ساختارهای بازنمایی گفتار

بر پایه تئوری بازنمایی گفتار; منطق مرتبه اول

پدیده های تحت پوشش:  روابط بین  گزاره و استدلال. هم ارزی، قید ، سورها….

بلوک‌های سازنده:  ارجاعات گفتمان مثل متغیرهای مربوط به موجودیت های گفتمان ( اتفاقات و اشیا و غیره)،  شروط مثل محدویت ها موجودیت های گفتگو به طور مثال  chase(x, y), dog(x), mouse(y)

ابزار Boxer

 

 

کدام نوع بازنمایی معنای بهترین است؟

-  به کاربرد بستگی دارد:1- برای استخراج دانش،بازنمایی قطع شده  ممکن است مناسب باشد مثلاً ساختارهای گزاره- استدلال که توسط ابزارهای SRL  شناخته شده اند

2- برای خلاصه سازی ساختارهای جامع که کل جمله را پوشش دهند نیاز است

-به طور کلی انتزاع دقیق‌تر و پر معنی تر نقطه شروع بهتری است

 

 

دانلود  From linguistic predicate-arguments to Linked Data and ontologies


فایل ارائه من در مورد ابزار های پردازش زبان طبیعی

| | ارسال نظر | بازتاب (0)

  فایل ارائه ی اینجانب درمورد معرفی ابزار های استفاده شده برای پردازش زبان طبیعی ار جمله:

 Normalizer
 Sentence splitter
 Tokenizer
 POS-tagger
 Lemmatization or Stemming
 Parser
 Co-reference resolution 

میباشد 

دانلود فایل پاورپوینت 

مقدمه ای بر جایگاه پردازش زبان طبیعی

| | ارسال نظر | بازتاب (0)

پردازش زبان طبیعی از زمان کارت های پانچ و پردازش پشته ای به اکنون که محدوده ی گوگل و مثل آن که سرعت بسیار بالایی دارد رسیده است. از زمان پیدایش اینترنت تا زمان تولد شبکه های اجتماعی مقدار کمی اطلاعات تولید می شد اما امروزه بسیار زیادی اطلاعات در روز تولید می شود، و این حجم عظیم از اطلاعات بدون ساختار ( به این دلیل که برای مصرف انسان تولید شدند) به صورت مستقیم قابل پردازش توسط ماشین نیستند

سابق بر این بازیابی اطلاعات آنلاین و پردازش آنها بر پایه  متن هایی  بود که در صفحه وب نشان داده می شوند (retrieving texts, splitting them into parts, checking the spelling and counting the number of words). اما اکنون به این سمت آمدند که جملات را تفسیر کند و مفاهیم معنی دار را از آنها استخراج کنند. با این حال بسیاری از روش ها هنوز هم بر پایه نمایش نحوی کلمات کار میکنند یعنی چیزی که می توانیم ببینیم، درحالیکه روش درک انسان اینگونه نیست، ما مفهوم، اپیزودهای  مربوط و تجربیات حسی خود کلمات را پردازش می کنیم. و اینها کار پیچیده پردازش زبان طبیعی را ممکن می‌سازند مثل ابهام زدایی کلمات، استعلام متنی ولیبل گذاری قوانین مفهومی را ممکن می‌سازند

هدف مدل های پردازشی این است پردازش زبان طبیعی را مانند مغز انسان انجام دهند مثلاً دریافت مفاهیمی که  به صورت صریح در متن بیان نشدند. مدل های زبانی همچنین برای هدف های علمی و مناسب هستند مثل تحقیق در مورد ارتباطات زبانی و همچنین برای اهداف عملی مثل ارتباط بین ماشین و انسان.