وبلاگ آکادمیک آیدین نوری
ارسال شده توسط آیدین اعظم نوری | 31 01, 2018 | بازدید‌ها (138)

پرس‌وجو‌های کلیدی برای خوشه‌بندی و برچسب‌گذاری

تیم گالوب، ماتیاس باس، بنو استاین و ماتیاس هیگن

Tim Gollub, Matthias Busse, Benno Stein, and Matthias Hagen 

چکیده

در این مقاله به بازبینی مسئله‌ی خوشه‌بندی از چشم‌اندازی مبتنی بر بازیابی اطلاعات پرداخته خواهد شد. ایده‌ی مورد نظر، استفاده از پرس‌وجوها به عنوان ویژگی‌هایی در فرایند خوشه‌بندی است که در انتها نقش برچسب‌های خوشه توصیفی را نیز "به‌طور آزاد" ایفا کنند. این چشم‌انداز جدید ما از محدودیت‌های پرس‌وجو برای خوشه‌بندی و برچسب‌گذاری یا علامت‌گذاری خوشه، برخوردار است که موجب حصول اطمینان از وجود ثبات با یک موتور جست‌وجوی مرجع بر پایه‌ی کلید واژه‌ها خواهد گردید.

 ادامه مطلب

ارسال شده توسط آیدین اعظم نوری | 31 01, 2018 | بازدید‌ها (60)
Jsoup یک کتابخانه متن باز جاوا است که خصوصیات WHATWG HTML5 را پیاده‌سازی کرده و برای استخراج و دستکاری اطلاعات ذخیره شده در اسناد HTML به‌کار می‌رود.
ارسال شده توسط آیدین اعظم نوری | 31 01, 2018 | بازدید‌ها (35)
تخصیص پنهان دیریکله یا Latent Dirichlet Allocation یک مدل تولیدی در آمار است. این مدل برای مدل‌سازی تعدادی متغیرهای پنهان (عناوین) در مجموعه‌ای از متن‌ها که شامل کلمات هستند به وجود آمده‌ است. در حقیقت در یک متن شامل تعدادی کلمه می‌توان به هر کلمه تعدادی عنوان با احتمال مشخص نسبت داد که در نهایت با ترکیب با هم یک متن و عنوان آن را تشکیل می‌دهند.

موضوعات

پيوندها