انتخاب در پایگاه مبتنی بر دانش برای جستجوی بهداشتی مصرف کننده

Published on 10/23,2018

خلاصه:

 این مقاله به بررسی نحوه‌ی بازیابی اطلاعات بر مبنای پایگاه دانش و تأثیر آن در جستجوی بهداشتی مصرف کننده (CHS) می‌پردازد. اعتقاد برا این است که استفاده از پایگاه‌های اطلاعاتی برای اصلاح پرس‌و‌جو ممکن است برای غلبه بر برخی از چالش‌های موجود در CHS کمک کند. با این حال، ترجمه و اجرای چنین رویکرد‌هایی در CHS غیرمعقول است، زیرا که شامل بسیاری از گزینه‌های طراحی است. از لحاظ تجربی، تأثیر این گزینه‌های مختلف بر اثربخشی بازیابی ارزیابی شده است. مدل بازیابی مبتنی بر دانش state of the art و مدل توسعه‌ی ویژگی پرس‌و‌جوی موجودیت برای ارزیابی انتخاب‌های طراحی استفاده می‌شوند: کدام پایگاه دانش به طور خصوصی یا عمومی به کار می‌رود؟, پایگاه دانش چگونه ساخته شده و به چه طریق موجودیت‌ها از پرس‌و‌جوها استخراج شده و به پایگاه دانش نگاشت می‌شوند؟, کدام بخش پایگاه دانش برای توسعه‌ی پرس‌و‌جو به کار رفته و فرآیند جستجوی KB با بازخورد مرتبط افزایش داده می‌شود. اگرچه بازیابی پایگاه دانش برای حل مسائل CHS به کار می‌رود ولی این مقاله به بررسی مؤثر آن در جزئیات دقیق‌تر و توجه به مشکلات می‌پردازد و درس و تجربه‌ای برای توسعه‌ی مدل state of the art  محسوب می‌شود.

 1.مقدمه و کارهای گذشته:

یک چالش عمده برای کاربران در جستجوی سلامت مصرف کننده (CHS) این است که چگونه به طور مؤثر نیازهای اطلاعات پیچیده و مبهم را در قالب یک پرس‌و‌جو را دهند. مطالعات در مورد فرمول پرس‌و‌جو در CHS نشان داده است که مصرف‌کنندگان برای پیدا کردن شرایط پرس‌و‌جو موثر  تلاش می‌کنند, زیرا اغلب توصیفات متفاوت و غیرحرفه‌ای به جای اطلاعات دقیق پزشکی برای توصیف علائم به کار می‌روند. به عنوان مثال، مردم عبارت جستجوی "بی نظمی‌های پوست" را به جای "ضایعات پوست" (توصیف صحیح پزشکی) به کار برده که باعث کارایی ضعیف بازیابی اطلاعات و کم رضایتی کاربر می‌شود. روش‌های مختلفی برای بهبود CHS مانند پیشنهادات پرس‌و‌‌جو, به کارگیری توانایی نحوی برای آموزش رتبه‌بندی, ویژگی‌های خوانایی یا معنایی و بسط پرس‌و‌جو برای فرموله‌بندی تازه ارائه می‌شود. در این مقاله هدف بهینه‌سازی CHSبا استفاده از روش اصلاح فرموله‌بندی و بسط پرس‌و‌جوهای سلامت بر مبنای عبارات و واحد‌های مؤثر( ابهام کمتر و مترادف‌ها) می‌باشد. جایگزین کردن شرایط پرس‌و‌جو به صورت دستی با اصطلاحات پزشکی(UMLS) تأثیر به‌سزایی دارد. دغدغه‌ی مهم این است که با وجود مؤثر بودن فرموله‌بندی تازه آیا این کار به صورت خودکار انجام می‌شود؟

در دامنه‌ی جستجوی عمومی تعدادی رویکرد فرموله‌بندی خودکار پرس‌و‌جو وجود دارد که پرس‌و‌جوها را به موجودیت‌های داخل پایگاه دانش(مانند ویکی‌پدیا و Freebase) متصل می‌کند, سپس این موجودیت‌های مرتبط را برای گسترش پرس‌و‌جو به کار می‌برند. رویکردها شامل اتصال پرس‌و‌جو به مفاهیم ویکی‌پدیا می‌باشند. مفهوم داخل هر سند از پایگاه دانش را با KD و مفهوم داخل پرس‌و‌جو را KQ, امتیازرا به صورت sc(Q,D)  نشان داده و سپس وابستگی بین KQ و KD محاسبه می‌گردد. مدل بسط ویژگی پرس‌و‌جوی موجودیت گسترش پرس‌و‌جو را با اتصال به ویکی‌پدیا به طور خودکار انجام داده و به جای استفاده از موجودیت‌های ویکی‌پدیا, مدل گسترش ویژگی پرس‌و‌جوی موجودیت, کلمات موجود در هر سند و پرس‌و‌جوی کاربر را با موجودیتی به نام‌های MQ و Md برچسب‌گذاری می‌کند. هر موجودیت به یکی از موجودیت‌های پایگاه دانش با انواع مختلف رابطه‌ها اشاره دارد. پرس‌و‌جوها با افزودن نام‌های حروف, انواع, کلمات و مجلات از مقالات ویکی‌پدیا گسترش یافته و پرس‌و‌جو‌ها از طریق مدل likelihood و با استفاده از روش  Dirichlet smoothing با اسناد مورد نظر تطبیق داده می‌شوند.

ما معتقدیم که این مدل Feature expansion مناسب و شایسته است زیرا به‌خوبی می‌تواند موجودیت‌های سلامت پرس‌و‌جو را به موجودیت‌های سلامت داخل پایگاه دانش عمومی (ویکی‌پدیا) یا زیرمجموعه‌ای از آن و یا پایگاه دانش خاص ( UMLS) نگاشت کند.سپس پرس‌و‌جوی اولیه بر اساس یک سری موجودیت‌های مرتبط می تواند گسترش یابد.  در این مقاله سعی شده است هم از پایگاه دانش عمومی(ویکی‌پدیا) و هم از پایگاه دانش اختصاصی(MeSH و یا UMLS) استفاده می‌شود, منطق استفاده از واژه‌های عمومی بهداشتی در پرس‌و‌جو موجودیت‌های پزشکی موجود در پایگاه دانش‌های پزشکی خاص توسط ویکی‌پدیا پوشش داده می‌شوند. به طور خاص‌تر, ارتباطی بین موجودیت‌های عمومی و اختصاصی ویکی‌پدیا وجود دارد بنابراین مدل گسترش ویژگی پرس‌و‌جوی موجودیت برای ارزیابی‌های تجربی و تشخیص میزان مؤثر بودن رویکرد بازیابی پایگاه دانش برای مسائل CHS به کار برده می‌شوند.

در تحقیق میزان مؤثر بودن رویکرد بازیابی برای CHS تعدادی تصمیم مهم طراحی مطرح می‌گردد. تأثیر تصمیمات مختلف در هنگام توصیف رویکرد پیشنهادی به طور کامل مورد توجه قرار نگرفته است.


 

بنابراین، در این مقاله ما نیز به دنبال ارزیابی تجربی تاثیر چندین انتخاب در بازیابی پایگاه دانش برای CHS می‌باشیم که شامل مراحل زیر می‌باشد:

·       ساخت پایگاه دانش

·       استخراج موجودیت‌ها

·       نگاشت موجودیت‌ها

·       منبع گسترش

·       کاربرد بازخورد مرتبط

همچنین مزایای استفاده از پایگاه دانش اختصاصی نسبت به عمومی و برعکس آن نیز بررسی و تعیین می‌گردد.

1.      مدل توسعه

ما مدل پرس‌و‌جوی موجودیت ویژگی توسعه را برای دریافت روی ویکی‌پدیا و UMLS به عنوان پایگاه دانش پیاده کردیم. در پایگاه دانش ویکی‌پدیا یک موجودیت با یک صفحه‌ی ویکی‌پدیا نمایش داده می‌شود(عنوان صفحه موجودیت را مشخص می‌کند). فراتر از عناوین، ویکی‌پدیا ویژگی‌های بسیاری را در بر می‌گیرد که در سناریوی دریافت قابل استفاده هستند: عنوان، بخش‌ها، لینک‌ها، نمایه‌ها و بدنه. در پایگاه دانش UMLS، یک موجودیت با نمایه‌ای که بیشترین استفاده را در شناسه‌ی منحصر به فرد مفهوم، داشته است مشخص می‌شود. ویژگی‌های یک موجودیت پایگاه دانش UMLS، نمایه، بدنه، مفهوم والد و مفاهیم مربوطه هستند. شکل 1 ویژگی‌هایی که برای نگاشت پرس و جوها به موجودیت‌ها در پایگاه دانش استفاده کرده‌ایم را به عنوان منبع ترم‌های توسعه نشان می‌دهد. ما مدل توسعه‌ی پرس و جوی را رسماً به صورت زیر تعریف می‌کنیم:

M موجودیت که اشاره کننده و در برگیرنده‌ی تک، دو و سه گرام تولید شده از پرس و جو است؛ f تابعی است که برای استخراج ترم‌های توسعه استفاده می‌شود. λf _(0, 1)  یک فاکتور وزن دار است. ϑf(EM,SE)   تابعی برای نگاشت اشاره موجودیت m از پایگاه دانش به ویژگی ها  مانند عنوان, لینک, بدنه است.

شکل1: خلاصه‌ای از منابع گسترش

3 انتخاب‌ها در دریافت پایگاه دانش

3.1 ایجاد پایگاه دانش

بررسی کردیم که کدام یک از موجودیت‌ها باید در پایه‌ی پایگاه دانش ما باشند. تمرکز CHS بر نیاز به وجود موجودیت‌های مربوط به سلامت بود. برای پایگاه دانش ویکی‌پدیا، سه انتخاب برای جمع‌آوری صفحات مربوط به سلامت را در نظر گرفتیم: نوع WC، صفحات محتوای جعبه‌های اطلاعات دارو(روش‌های سقط، داروهای جاگزین و پادمی)؛ نوع لینک WC صفحات با جعبه اطلاعات و لینک به واژه شناسی دارویی مانند Mesh, UMLS, SNOMED CT, ICD؛ (WC-UMLS)  صفحات با عناوینی که با موجودیتی از UMLS برابر باشند. روش آخری که استفاده شد، QuickUMLS که برای نگاشت صفحات ویکی‌پدیا به UMLS بود: اگر نگاشت موفق بود، ما صفحه‌ی ویکی‌پدیا را به پایگاه دانش اضافه می‌کردیم.

برای پایگاه دانش UMLS دو انتخاب در نظر گرفتیم: (UC-All) همه‌ی موجودیت‌ها و موجودیت‌های (UCMed) که به چهار جنبه‌ی تصمیمات درمانی مرتبط بودند(اختلالات، تست‌های نشخیصی، تشخیص و درمان) که در منبع 6،10 استفاده شده است. تمام ترم‌های انگلیسی و غیر انسانی را برای این انتخاب‌ها مشمول کردیم.

3.2 توسعه‌ی موجودیت‌های اشاره

توسعه‌ی موجودیت اشاره، فرآیند شناسایی دهانه‌های متن از پرس‌و‌جویی که امکان نگاشت به موجودیتی را دارند. دقیقاً تلقی نخواهد شد که کدام موجودیت است.(در بخش بعد توضیح داده خواهد شد). سه انتخاب ممکن را برای استخراج اشارات موجودیت در نظر گرفتیم: (ME-All) شامل همه‌ی موارد تک، دو و سه گرام پرس‌و‌جو می‌شود(انتخاب پیش فرض)؛ (ME-CHV) شامل همه‌ی تک، دو، سه گرام از پرس‌و‌جویی می‌شود که با موجودیت‌های فرهنگ سلامت مصرف‌کننده، برابر شود و (MEUMLS) فقط شامل تک، دو و سه گرام‌هایی از پرس و جو می‌شود که به موجودیت‌های  UMLS برابر بودند. این سه انتخاب را برای پایگاه دانش‌های ویکی‌پدیا و UMLS استفاده کردیم.

3.3 نگاشت موجودیت

ما بررسی کردیم که اشارات موجودیت‌ها از بخش قبل چگونه به موجودیت‌ها در پایگاه دانش نگاشت می‌شود. اشاره موجودیت به یک موجودیت نگاشت می‌شود اگر یک برابری دقیق بین اشاره موجودیت و موجدیت پیدا شود. همانطور که در تصویر یک دیده می‌شود، موجودیت ویکی‌پدیا می‌تواند بر اساس شش منبع متفاوت نمایش داده شود؛ انتخاب‌های ممکن عبارت اند از: (WEM-Title) عناوین، (WEM-Aliases) نام‌های مستعار، (WEMLinks) لینک ها، (WEM-Body) تمام بدنه‌ی صفحه‌ی ویکی‌پدیا ، (WEM-Cat) بخش‌ها، (WEM-All) تمام منابع مذکور(انتخاب پیش فرض). برای پایگاه دانش UMLS انتخاب‌های ممکن عبارت اند از: (UEM-Title) عناوین، (UEM-Aliases) نام‌های مستعار، (UEMBody) همه‌ی توضیح مفاهیم UMLS، (UEM-Parent) والدها، (UEMRelated) موجودیت‌های مرتبط، (UEM-All) تمام منابع مذکور(انتخاب پیش فرض). (UEM-QuickUmls) استفاده از QuickUMLS برای به دست آوردن نگاشت موجودیت‌ها.

3.4 منابع توسعه

ما بررسی کردیم که کدام منبع در پایگاه دانش برای رسم ترم‌های منتخب برای توسعه‌ی پرس و جو استفاده شده است. ما سه انتخاب را یافتیم: (SE-Title) عناوین همراه با موجودیت‌ها، (SE-Aliases) نام‌های مستعار با موجودیت‌ها، (SE-All)عناوین و نام‌های مستعار(انتخاب پیش فرض). تا زمانی که منابع اطلاعاتی دیگر قابل استفاده باشد(برای مثال آن‌هایی که برای نگاشت موجودیت استفاده شده اند)، آزمایش‌های مقدماتی نشان داده است که فقط این سه انتخاب نتایج با معنی ایجاد کرده اند. این منابع برای پایگاه‌های دانش ویکی‌پدیا و UMLS استفاده شده است.

3.5 بازخورد مرتبط

ما استفاده از بازخورد مرتبط را بررسی کردیم(هر دو بازخورد مرتبط صریح و شبه بازخورد مرتبط). ما بازخورد مرتبط را با استخراج ده کلمه‌ی مهمتر مرتبط با سلامت را انجام دادیم(بر اساس امتیاز tfidf) از هر سه سند مهم مرتبط(برچسب ارتباط بزرگتر از صفر باشد) بنابراین نتیجه، در سی ترم بیشتر بود. شبه بازخورد نیز با استخراج ده کلمه‌ی مهم مرتبط با سلامت از اسناد سه درجه‌ی برتر انجام شد(بر اساس برچسب صحیح ارتباطشان). یک کلمه به عنوان مرتبط با سلامت در نظر گرفته می‌شد اگر دقیقاً با یک عنوان یا نام مستعار یک موجودیت در پایگاه دانش هدف برابر بود(چه در ویکی‌پدیا چه در UMLS).

4 ارزیابی تجربی

برای بررسی تاثیر انتخاب‌ها در پایگاه دانش دریافتی بر توسعه‌ی پرس و جو برای عمل CHS، ما به صورت تجربی با استفاده از CLEF 2016 متدها را ارزیابی کردیم. این مجموعه شامل 300 عنوان پرس و جو که از مصرف کننده‌های سلامت که آنلاین توصیه‌های پزشکی را جستجو می‌کردند، گرفته شده است، می‌باشد. اسناد از Clueweb12b13 گرفته شده است. مجموعه با استفاده از ElasticSearch 5.1.1 ردیف گذاری شده است همراه با واژه‌های ایست و تکواژ ها. یک خط پایه‌ی ساده با استفاده از BM25F با b = 0.75 و k1 = 1.2 پیاده سازی شد. BM25F باعث شناسایی فاکتورهای شتاب دهنده‌ی برابر شده‌ی رخ داده در فیلدهای مختلف صفحات وب ردیف گذاری شده، می‌شود. ما فقط فیلدهای عنوان و بدنه، همراه با فاکتورهای شتاب دهنده‌ی 1و 3 به ترتیب، در نظر گرفتیم. این‌ها را بهترین وزن‌ برای BM25F  برای این مجموعه‌ی آزمایشی در کار قبلی، یافتیم. این یک خط پایه‌ی قوی است که در اجراهای CLEF 2016 بهتر عمل می‌کند.

ما صفحات منتخب از زیرمجموعه‌ی انگلیسی ویکی‌پدیا (2016/12/1)، محدود به همین بازنگری‌ها و بدون صحبت‌ها و صفحات کاربران در نظر گرفتیم. ما از 17 میلیون ورودی، صفحاتی که بازارسال بودند را فیلتر کردیم؛ این یک مجموعه از ویکی‌پدیا با 9195439 صفحه را نتیجه داد. سپس این صفحات منتخب بنابر انتخاب‌های ممکن برای ایجاد پایگاه دانش پردازش شد. صفحات انتخاب شده برای شمول در پایگاه دانش نیز با استفاده از Elasticsearch 5.1.1 با ردیف گذاری مبتنی بر فیلد، (فیلدها: عناوین، لینک، دسته بندی‌ها، انواع، نام‌های مستعار و بدنه)، برای پشتیبانی استفاده از فیلدهای مختلف به عنوان منبع ترم‌های توسعه‌ی پرس و جو ردیف گذاری شدند.

ما برای ساخت پایگاه دانش UMLS 3057234 ترم نیمه انگلیسی را با این فیلدها ردیف گذاری کردیم: عنوان(ترمی که بیشتری استفاده را برای CUI داشت)، نام‌های مستعار( برای بقیه‌ی ترم‌های استفاده شده برای CUI)، بدنه(توضیح CUI)، والد(عناوین موجودیت‌های UMLS با رابطه‌ی نوع PAR)، مرتبط(عناوین موجودیت‌های UMLSبا رابطه‌ی نوع RQو  RL).

جدول1: تأثیر انتخاب در ساخت KB؛ تمام پرس‌وجو (بالا) و پرس‌و‌جوها با پوشش بالا(پایین)

شکل2: اسناد غیرقانونی از 10 سند بازیابی شده در جدول 1

نتایج با استفاده از nDCG@10, RBP@10 ارزیابی شدند(مقاومت 0.5، عمق 10، گزارش‌ها هم باقی‌مانده(Res))، در خط با مجموعه‌ی CLEF 2016، به دلیل این که کاربر اولاً در عمل CHS تمایل به آزمایش نمودن چند نتیجه‌ی اولیه‌ی جست و جوی دارد. همچنین bpref به عنوان اولین تلاش برای کاهش تاثیر اسناد قضاوت نشده بر ارزیابی استفاده شد(پرس و جوهای توسعه یافته تعداد بسیار بیشتری سند از اسناد پایه دریافنت کرد). در تمام جداول نتایج، بالانویس‌ها به اهمیت آماری (t-test دو بعدی با بونفرونی با تنظیم a < 0.05) بین نتایج و نتایج از انتخاب‌های وابسته به بالانویس ارجاع دارد. علاوه بر این میانگین تعداد ترم‌های اضافه شده به پرس و جوی توسعه یافته، (|exp|) و تعداد پرس و جوهای توسعه یافته، پرس و جو با مقدار RBP@10 و یک ریزش با RBP@10 با یک سه تایی ضبط شد< e, g, l > .

به دلیل محدودیت‌های فضا، ما تاثیر انتخاب بر تاثیر دریافتی را با آزمایش هر انتخاب به صورت متوالی، آزمودیم. ما این کار را بر هر دو پایگاه دانش ویکی‌پدیا و UMLS انجام دادیم و نتیجه گرفتیم که کدام پایگاه دانش بهترین پیشتیبانی را در پایان از CHS انجام می‌دهد. برای هر انتخاب، ما بهترین تنظیمات را ثابت کرده و این تنظیمات را برای انتخاب بعدی استفاده کردیم. ما دریافتیم که بهترین تنظیمات در همه‌ی مجموعه‌های پرس و جو اولاً مبتنی بر نتایج بود. اگر هیچ متدی به وضوح بهترین برای این مجموعه نبود، ما نتایج از موجموعه پرس و جوی پوشش بالا را بررسی می کردیم. این مجموعه‌ی نتایج کاملاً در یک ضمیمه‌ی آنلاین ارائه شده است. https://github.com/ielab/ECIR2018 KnowledgeBase CHS

4.1 ایجاد پایگاه دانش

تاثیر دریافت انتخاب‌ها در ایجاد پایگاه دانش در جدول 1 گزارش داده شده است(بالا)؛ نتایج روی همه‌ی 300 پرس و جو در موجموعه‌ی CLEF 2016 میانگین شده اند.

جدول2: تأثیر انتخاب در استخراج موجودیت؛ تمام پرس‌وجو (بالا) و پرس‌و‌جوها با پوشش بالا(پایین)

نتایج پایگاه دانش ویکی‌پدیا نشان داد که انتخاب نوع‌لینک-WC(نوع جعبه‌ی اطلاعات و لینک‌ها به واژه شناسی درمانی) به سمت بیشترین تاثیرگذاری روی اکثر معیارها هدایت می‌کند. با این حال، UC-ALL از پایگاه دانش UMLS بیشترین تاثیرگذاری بر همه‌ی معیارها را گرفت. با این اوصاف، خط پایه، به صورت قابل توجهی بهتر از روش‌های دریافت پایگاه دانش عمل کرد.

در بررسی‌های بیشتر نتایج، ما متوجه شدیم، برای تعداد بسیار زیادی پرس و جو، روش‌های دریافت پایگاه دانش بسیاری از اسناد قضاوت نشده را در بین ده‌تای برتر رتبه بندی کرد؛ درحالی که خط پایه نرخ بسیار کمتری از اسناد قضاوت نشده در بین ده‌تای برتر داشت. تصویر 2 توزیع اسناد قضاوت نشده برای هر تنظیم در نظر گرفته شده را نشان می‌دهد. همانطور که با مقادیر زیاد باقی‌مانده‌ی RBP مرتبط با روش‌های دریافت پایگاه دانش در جدول 1 نشان داده شد(مقایسه شده با باقی مانده‌ی خط پایه)، این به وضوح نتایج را تحت تاثیر قرار می‌دهد. اگر معلوم شود تمام اسناد قضاوت نشده مربوط بودند، RBP@10 از روش‌های دریافت پایگاه دانش، ثابت می‌کند که تا حد زیادی بالاتر از آن‌چه در خط پایه است، می‌باشد(باقی‌مانده مقایسه شود).

سپس، ما یک زیر مجموعه از پرس و جوها که در میانگین در همه‌ی اجراها برای یک انتخاب خاص در نظر گرفته شد، در نظر گرفتیم، در آن حالت حداکثر دو سند بررسی نشده از ده‌تای اول وجود داشت. این حد آستانه با تحلیل تعداد اسناد بررسی نشده در خط پایه(صرف نظر از انتخاب‌ها، خط پایه تغییر نکرد) به دست آمد، پس این آستانه با 1.5 برابر محده‌ی میان چارکی بالای چارک سوم بود(حد بالا در نمودار جعبه‌ای). توجه شود که این یک زیرمجموعه‌ی متفاوت از پرس و جوها برای هر انتخاب در نظر گرفته شده را تولید کرد؛ با این حال، زیر مجموعه‌ها میانگین "پوشش" کمتری با توجه به ارزیابی‌های مربوط داشتند. ما این زیر مجموعه‌ها را به عنوان پرس و جوهای با پوشش بالا خواندیم.

جدول3: تأثیر انتخاب در نگاشت موجودیت‌ها؛ تمام پرس‌وجو (بالا) و پرس‌و‌جوها با پوشش بالا(پایین)

 این زیر مجموعه‌ها شامل 13 پرس و جو برای انتخاب 1(جدول1، پایین) بودند. نتایج کاهش باقی مانده و کاهش فاصله بین روش‌های دریافت پایگاه دانش و خط پایه را نشان داد؛ با این حال برخلاف اثرگذاری مربوط در روش پایگاه دانش UMLS، رشد در اثرگذاری بر انتخاب‌های در نظر گرفته شده برای پایگاه دانش ویکی‌پدیا تغییر نکرد.

نتایج نشان داد بهترین تنظیمات برای پایگاه دانش ویکی‌پدیا ، WC-نوع‌لینک بود. به این ترتیب، ما WC-نوع‌لینک را برای باقی تحلیل را برای پایگاه دانش ویکی‌پدیا انتخاب کردیم؛ درحالی که UC-ALL را برای پایگاه دانش UMLS انتخاب کردیم.

4.2 استخراج اشارات موجودیت

جدول 2(بالا: 300 پرس و جو و پایین: 22 پرس و جو با پوشش بالا) نتایج به دست آمده در زمان مقایسه‌ی انتخاب‌ها برای استخراج اشاره‌ی موجودیت را گزارش می‌دهد.

جدول4: تأثیر انتخاب در منبع گسترش؛ تمام پرس‌وجو (بالا) و پرس‌و‌جوها با پوشش بالا(پایین)

برای ویکی‌پدیا ، نتایج نشان داد که انتخاب ایجاد اشارات موجودیت با تک، دو و سه-گرام، از پرس و جوهایی که با CHV (WME-CHV)برابر بودند به طور کلی همانی بود که بیشتری تاثیرگذاری دریافت را ارائه داد. در حالی که این در مجموعه‌ با پوشش بالا واضح بود، تفاوت بین این استراتژی و استفاده از همه‌ی گرام‌ها (WME-ALL) برای همه‌ی مجموعه‌های پرس و جوها کمتر واضح بود، این ممکن است به دلیل گسترش تعداد زیاد اسناد بررسی نشده باشد که بعضی از اجراها را تحت تاثیر قرار دادند. ما نتیجه گرفتیم که WME-CHV پر اثرترین انتخاب بود و WME-CHV را برای تحلیل‌های باقی مانده انتخاب کردیم.

برای پایگاه دانش UMLS نتایج شان دادند که ایجاد اشارات موجودیت با استفاده از همه‌ی تک، دو و سه-گرام از ترم‌های پرس و جوها (UME-ALL)، بیشترین اثر دریافت را ارائه دادند. بنابراین ما UME-ALL را برای تحلیل‌های باقی‌مانده انتخاب کردیم.

4.3 نگاشت موجودیت

جدول 3(بالا: 300 پرس و جو و پایین: 22 پرس و جو با پوشش بالا) نتایج به دست آمده در زمان مقایسه‌ی انتخاب‌ها برای نگاشت موجودیت را گزارش می‌دهد. برای هر دو پایگاه دانش، نگاشت موجودیت‌ها به نام‌های مستعار(WEM-Aliases و  UEM-Aliases) به وضوح بهتر از دیگر روش‌ها انجام شد(همه‌ی پرس و جوها). نتایج پرس و جوها با پوشش بالا نتایج مختلط را نشان داد. به همین دلیل ما WEM-Aliases  و  UEM-Aliasesرا برای تحلیل‌های متعاقب انتخاب کردیم.

4.4 منبع توسعه

جدول 4 (بالا: 300 پرس و جو و پایین:119 پرس و جو) نتایج به دست آمده در مقایسه‌ی منابع توسعه‌ی پرس و جو را گزارش می‌دهد. نتایج به وضوح نشان داد که انتخاب عناوین به عنوان منبع توسعه (WSE-Title و USE-Title) تاثیرگذارترین انتخاب در مقایسه با بقیه‌ی انتخاب‌ها برای پایگاه دانش ویکی‌پدیا و UMLS بود. به همین دلیل ما WSE-Title  وUSE-Title برای باقی تحلیل‌ها انتخاب کردیم.

جدول5: تأثیر انتخاب در بازخوردهای مرتبط؛ تمام پرس‌وجو (بالا) و پرس‌و‌جوها با پوشش بالا(پایین)

4.5  بازرخورد ارتباط

جدول 5 نتایج بدست آمده با باز خورد و بدون باز خورد را گزارش کی دهد.برای ویکی‌پدیا نشان داد که علاوه بر بازخورد نتایج متفاوتی تولید می شود.RF بهتریت جستجو را در تمام 10 RBP ایجاد کرد.از نظر  DCG وbpref انتخاب wsetitle ویکی‌پدیا بدون افزودن بازخورد بهتر انجام شده است.برای UMLS نتایج نشان داد که  RFبهترین عملکرد را برای تمام پرس وجو های تعیین شده بر روی تمامی اقدامات ارائه می دهد.برای پرس و جو ها با پوشش بالا Use_Title به راحتی بدون افزودن بازخورد ارتباطی بدست می آید.استفاده از بازخورد مربوط به مبانی فقط RBP را هنگام استفاده از اطلاعات مربوط به واقعی بهبود می بخشد با این وجود بدتر از روش های پایگاه داده انجام شد.

5 تجزیه و تحلیل و بحث بیشتر

خلاصه ما یافتیم که : PRF نتایج را بطور مستقا از پایگاه دانش بهتر نمی کند.2)RF بجای ارائه بهتر تاثیرات با پایه  UMLS تنظیمات کلی بهتر از پایه ویکی‌پدیا برای همه درخواست ها و پوشش بالا مجموعه درخواست ها است.3)برای پوشش بالا مجموعه درخواست ها 4) برای نمایش داده ها پوشش بالا (جدول 5)، مستقل از اینکه آیا مربوط بودن بازخورد اعمال شد، بهترین تنظیمات مبتنی بر UMLS بر اساس تنظیمات KB مبتنی بر ویکی‌پدیا است؛ برای تمام تنظیمات پرس و جو، تنظیمات KB مبتنی بر UMLS با RF انجام شده بهتر از تنظیمات KB مبتنی بر ویکی‌پدیا است.

(4) پایگاه دانش UMLS پرس و جوهای بیشتری را نسبت به پایگاه دانش ویکی‌پدیا گسترش داد. این آخرین یافته به احتمال زیاد به این دلیل است که پایگاه دانش  ویکی‌پدیا ناقص است زیرا تنها صفحات با اطلاعات سلامت و پیوندهایی به شرایط پزشکی در نظر گرفته شده است. اگر چه این بهترین تنظیمات بود، بسیاری از صفحات مربوط به سلامت مانند "سردرد" را حذف کرد.علاوه براین دریافتیم که این دو روش توسعه  درخواست ارائه شده بطور متوسط 8.9%از شرایط گسترش رایج است.در بالا دریافتیم که آن ها مجموعه ها یمختلفی از اسناد را بازیابی کرده اند(متوسط همپوشانی برای تنظیمات بهتر بدون باز خورد ارتباطی 61% از 1000مدرک برتر است)

 با توجه به این تفاوت هاما پیشنهاد می کنیم که کار آینده ما به منظور اثر بخشی ترکیب توسعه از دو پایگاه  دانش بکار می رود.نتایج محتوا مشاهده شده بوسیله  روش های پایگاه دانش بازیابی شده  در جدول5 ما همچنین گزارش نتایج پیاده سازی شده بوسیله GUIR-3 تسلیم CLEF 2016  دچار چالش شده است.این بهترین اجرا قابل مقایسه با4 روش گسترش پرس و جو در CLEF 2016 بود. این روش از طریق نمایش نگرشهای پرس و جو به UMLS و جستجوی درخت UMLS برای جمع آوری بیش از نیمی از نهادهای نقشه برداری به عنوان منبع توسعه گسترش یافته است.

پس از پردازش به کاندیدها اعمال می شود تا انبساط بیشتری داشته باشد که احتمال بیشتری برای بازیابی آن داشته باشد.برای هر درخواست چندین تغییرات گسترش یافته جمع آوری شده و نتایج آن ها بوسیله الگوریتم Borda جمع شده است. بر خلاف روش اصلی، پیاده سازی ما بر اساس BM25F به جای DFR به عنوان روش ارزیابی و QuickUMLS به جای Metamap متکی بود، تا بتوان به طور مستقیم با روش های بازیابی اولیه و KB ما مقایسه کرد. در جدول 5 گزارش | exp | برای GUIR-3 به عنوان روش جایگزین برخی از اصطلاحات اصلی با آن گسترش، در نتیجه مقایسه نمی کند بی اهمیت است. با مشاهده تعدادی از اصطلاحات گسترش اضافه شده در روشهای KB، ما اشاره کردیم که انتخاب های موثر برای گسترش پرس و جو در KB باعث کمترین تعداد اصطلاحات گسترش (و همچنین گسترش کوچکترین تعداد پرس و جو) می شوند.در حای که بازخورد ارتباط تعداد قابل توجهی از عبارات انبساط (همچنین گستش تعداد درخواست ها) را اضافه کرد PRF این کار را تاحدی انجام داده که ممکن است توضیح دهد چرا RF که  هم در درخواست محتاطتر است و گستردگی عملکرد بهنری دارد.درنهایت نتایج را با در نظر گرفتن تاثیرات گسترش موج برای هر درخواست را تحلیل کردیم.

شکل3:تغییرات در RBP@10 بین مدل گسترش ویژگی پرس و جوی موجودیت بر اساس بهترین تنظیمات در مقابل خط پایه, فقط گزارشهایی با پوشش بالا گزارش می‌شود.

6نتیجه گیری

در این مقاله، ما تاثیر انتخاب‌های مختلف در پایگاه دانشKB ;) را برای بازیابی جستجوی سلامت مصرف‌کنندهCHS ;)  مورد بررسی قرار دادیم.انتخاب ها شامل ساختار پایگاه دانش موجودیت های استخراج موجودیت نقشه ها گسترش منابع وبازخورد ارتباطات می شود.

ما اثربخشی یک   KB عمومی  ویکی‌پدیا  و KB متخصص پزشکی UMLS ;) را به عنوان اساس توسعهپرس‌وجو مقایسه کردیم.

ارزیابی تجربی ما نشان داد که بهترین تنظیمات برای پایگاه دانش ویکی‌پدیا:

1)تنها صفحات ویکی‌پدیا که دارای انواع و یا لینک‌های مربوط به سلامت هستند به اصطلاحات پزشکی مرتبطهستند.

2)از دو، و سه  gram  نامه‌های پرس و جوی اصلی که با عبارات CHV به عنوان یک نهاد تطبیق داده می‌شود استفاده می کنیم .

موجودیت نقشه به موجودیت‌های ویکی‌پدیا براساس ویژگی Aliases اشاره می‌کند .4)منابع توسعه یافته از نگاشت عنوان ویکی‌پدیا

5)عبارت فید بک مورد نظر را اضافه کنید.

همانطور که برای پایگاه دانش UML وجود دارد بهترین تنظیمات عبارت است از :1)شاخص تمام مفاهیم 2)استفاده از تمام گرام های از صف های اصلی موجودیت اشاره گر ها3)موجودیت براساس ویژگی UML اشاره می کند 4) Alias از ویژگی های UML می شود 5)عبارات فید بک.

نتایج پس از تنظیم 5 انتخاب نشان داد که UML براساس پایگاه دانش بیشتر از ویکی‌پدیا موثر بود.برای مجموعه همه درخواست ها تنظیمات پایگاه دانش UMLکارایی بهتری از خط پایه ....برای درخواست با پوشش بالا اسناد قضاوت شده استفاده از عنوان RF موثر تر از اجتماعی از درخواست هاوکارایی خط پایه از همه اندازه گیری های ... بود. این نتایج تایید می کند که یک روش بازخورد پایگاه دانش به خوبی در این دامنه CHS که اغلب چالش برانگیز است، ترجمه می کند.

محدودیت اصلی آزمایش های ما تعداد اسناد قضاوت نشده بازیابی شده با استفاده از جستجوهای گسترش یافته در مجموعه clef2016 بود.

ما این ها را بادر نظر گرفتن RBP,BPREF کاهش دادیم با این حال ما چالش های ارزیابی نسبتا خوب این روش ها را پیدا کردیم.با این وجود این کار اولین بررسی از انتخاب های پایگاه دانش بازیابی برای CHS را ارائه می دهد و مزایا و معایب آن را برجسته می کند.


http://fumblog.um.ac.ir/trackback.php?id=12711

انتخاب در پایگاه مبتنی بر دانش برای جستجوی بهداشتی مصرف کننده

 

ارسال نظر
Info

توجه: از ارسال پيام هاي خصوصي در حالت لاگين براي نويسنده وبلاگ اجتناب نماييد.
در صورتی که در فرم ارسال نظر، نام شما توسط سیستم شناسایی شده باشد(در حالت لاگین) نظر شما بلافاصله منتشر خواهد شد.


در غیر اینصورت نظر شما پس از تایید توسط مالک وبلاگ منتشر خواهد شد.

 authimage