وبلاگ آکادمیک آیدین نوری

تخصیص پنهان دیریکله یا LDA

ارسال شده توسط آیدین اعظم نوری | 31 January, 2018 | بازدید‌ها (77)
    تخصیص پنهان دیریکله یا Latent Dirichlet Allocation یک مدل تولیدی در آمار است. این مدل برای مدل‌سازی تعدادی متغیرهای پنهان (عناوین) در مجموعه‌ای از متن‌ها که شامل کلمات هستند به وجود آمده‌ است. در حقیقت در یک متن شامل تعدادی کلمه می‌توان به هر کلمه تعدادی عنوان با احتمال مشخص نسبت داد که در نهایت با ترکیب با هم یک متن و عنوان آن را تشکیل می‌دهند.

    بهتر است قبل از بررسی مثال‌هایی از این موضوع، با برخی مفاهیم آشنا شویم:
    - مدل عناوین یا Topic Model: مدل عناوین مدل توسعه یافته‌ی آنالیز پنهان مفهومی احتمالی است که دارای ساختاری بیزوی با توزیع پیشین دیریکله روی کلمات است.
    در یادگیری ماشین و پردازش زبان طبیعی، یک مدل عنوان، یک نوع از مدل آماری برای کشف "عنوان‌های" چکیده که در یک مجموعه از اسناد رخ می‌دهند، است. مستقیما، با توجه به این‌که یک سند در مورد یک عنوان خاص است، کسی انتظار لغت‌های خاص برای ظاهر شدن غالبا بیش‌تر یا کم‌تر را در سند خواهد داشت: "آزمون تصادفی" و "آزمایه" در اسناد در مورد آزمون نرم‌افزار غالبا ظاهر می‌شوند، "بستر به عنوان سرویس" و "زیرساخت به عنوان سرویس" در اسناد در مورد رایانش ابری ظاهر خواهند شد، "the" و "is" به طور مساوی در هر دو ظاهر خواهند شد. یک سند به طور معمول به چندین عنوان در نسبت‌های مختلف مربوط می‌شود؛ بنابراین، در یک سند که 10% در مورد رایانش ابری و 90% در مورد آزمایه است، احتمالا حدود 9 مرتبه بیش‌تر لغات آزمایه از لغات رایانش ابری را شاهد خواهیم بود. یک مدل عنوان، این بصیرت را در یک چهارچوب ریاضی تسخیر می‌کند، که آزمایش یک مجموعه از اسناد و کشف را بر اساس آمار لغات در هر کدام، که عنوان‌ها ممکن است چه باشند و هر موازنه‌ی سند عنوان چه چیزی هستند، اجازه می‌دهد.
     
    - توزیع دیریکله یا Dirichlet distribution: توزیع دیریکله در نظریه احتمال و آمار یک توزیع پیوسته است. این توزیع به‌طور کلی حالت گسترش یافته‌ی توزیع بتا (توزیع احتمالی پیوسته‌ای است که بر بازه ۰ تا ۱ تعربف می‌شود و دارای دو پارامتر شکل* است. این توزیع حالت خاصی از توزیع دیریکله است.) برای توابع چند متغیره است. معمولا از توزیع دیریکله به عنوان توزیع پیشین در مدل‌سازی بیزی استفاده می‌شود؛ چرا که توزیع دیریکله مزدوج پیشین برای توزیع چند جمله‌ای و توزیع دسته‌ای است. تعمیم این توزیع فرایند دیریکله است.
    * پارامتر شکل: در علم آمار و احتمالات پارامتر شکل به پارامتری گفته می‌شود که با تغییر آن، شکل تابع توزیع احتمالی تغییر می‌نماید.
    - آنالیز مفاهیم نهفته یا Latent semantic analysis یا LSA یک روش در پردازش زبان طبیعی است که در مدل سازی ارتباط مفهومی بین تعدادی متن بر اساس مجموعه ی کلماتی که در بر دارند کاربرد دارد. 
    - تفاوت بین Probabilistic latent semantic analysis با آنالیز پنهان مفهومی در آن است که این مدل نسخه‌ی احتمالی آن است. در نسخه‌های بعدی مانند مدل عناوین این مدل احتمالی عملکرد بهتر و پیچیده‌تری پیدا کرده است.

    در واقع می‌توان هر متن را به عنوان یک توزیع مخلوط از عناوین دید. این مشابه آنالیز پنهان مفهومی احتمالی است با این تفاوت که در LDA یک توزیع احتمال پیشین از نوع توزیع دیریکله در نظر گرفته می‌شود. اگرچه LDA با توزیع دیریکله یکنواخت معادل با آنالیز پنهان مفهومی احتمالی است. هر عنوان مجموعه‌ای از کلمات را با احتمال مشخصی ایجاد می‌کند. کلماتی که تعلق خاصی به برخی از عناوین ندارند (مانند the در انگلیسی) می‌توان آن‌ها را با احتمال یکنواختی در هرکدام از عناوین قرار داد؛ یا این‌که آن‌ها را در دسته‌ی خاصی قرار داد. باید توجه کرد که تعریف صریحی برای عنوان از دیدگاه‌های معناشناسی یا معرفت‌شناسی مشخص نمی‌شود. بلکه اختصاص عناوین با یادگیری با نظارت برخی از کلمات و اختصاص آن‌ها به عناوین و میزان رخدادهای آن‌ها انجام می‌شود.
     
    مثال:
    فرض کنید چنین مجموعه‌ای از جملاتی دارید:
    - I like to eat broccoli and bananas.
    - I ate a banana and spinach smoothie for breakfast.
    - Chinchillas and kittens are cute. 
    - My sister adopted a kitten yesterday. 
    - Look at this cute hamster munching on a piece of broccoli.
     LDA احتمالا چیزی شبیه به این برای شما تولید می‌کند:
    Topic A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching, …
    حالا شما می‌توانید این‌طور تفسیر کنید که عنوان A مربوط به غذا است.
    تخصیص پنهان دیریکله LDA 
    و
    Topic B: 20% chinchillas, 20% kittens, 20% cute, 15% hamster, …
    حالا شما می‌توانید این‌طور تفسیر کنید که عنوان B مربوط به حیوانات جذاب است.
    تخصیص پنهان دیریکله LDA 
    بنابراین می‌توان گفت دو جمله‌ی اول مربوط به عنوان A، دو جمله‌ی دوم مربوط به عنوان B و جمله‌ی آخر 60% مربوط به عنوان A و 40% مربوط به عنوان B است. 

ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage

موضوعات

پيوندها