فناوري‌هاي وب معنايي


سناريوهاي ذكر شده در بخش 1.2 علمي تخيلي نيستند. براي دستيابي به آنها نيازي به پيشرفت علمي انقلابي نيست. مي‌توان به صورت منطقي ادعا نمود كه چالش در پذيرش فناوري و مهندسي است و نه از لحاظ علمي: راه‌حل‌هاي جزئي براي همه بخش‌هاي مهم مساله وجود دارد. در حال حاضر بيشترين احتياجات در زمينه‌هاي مجتمع‌سازي، استاندارد كردن، توسعه ابزار و تطبيق كاربران است. اما البته پيشرفت بيشتر فناوري، به وب معنايي پيشرفته‌تري به نسبت آنچه امروزه قابل دستيابي است، منجر مي‌شود.
در بخش‌هاي آتي به چند فناوري ضروري براي دستيابي به عملكردهاي ذكر شده اشاره مي‌نماييم.
1.3.1 ابر داده صريح  
در حال حاضر محتواي وب براي خوانندگان انسان شكل گرفته است تا براي برنامه ها. HTML زبان غالبي است كه صفحات وب با آن (به طور مستقيم يا با استفاده از ابزار) نوشته مي‌شوند. بخشي از يك صفحه وب معمول متعلق به يك درمانگر ممكن است به صورت زير باشد:
<h1>Agilitas Physiotherapy Centre</h1>
Welcome to the Agilitas Physiotherapy Centre home page.
Do you feel pain? Have you had an injury? Let our staff
Lisa Davenport, Kelly Townsend (our lovely secretary)
and Steve Matthews take care of your body and soul.
<h2>Consultation hours</h2>
Mon 11am - 7pm<br>
Tue 11am - 7pm<br>
Wed 3pm - 7pm<br>
Thu 11am - 7pm<br>
Fri 11am - 3pm<p>
But note that we do not offer consultation
during the weeks of the
<a href=". . .">State Of Origin</a> games.
براي انسان‌ها اطلاعات به صورت رضايت‌بخشي ارائه شده است، اما ماشين‌ها مشكلات خود را خواهند داشت. جستجوهاي مبتني بر كلمه كليدي، كلمات physiotherapy و consultation hours را تشخيص مي‌دهند. و حتي يك عامل هوشمند ممكن است قادر به تشخيص پرسنل مركز باشد. اما در تشخيص درمانگرها از منشي دچار مشكل خواهد شد و حتي در يافتن ساعات واقعي مشاوره مشكلش حادتر مي‌گردد. (براي اين كار نياز است تا پيوند State Of Origin games را دنبال كند تا زمان برگزاري آنها را بيابد.)
رويكرد وب معنايي براي حل اينگونه مسائل توسعه عامل‌هاي ابرهوشمند نيست. در عوض پيشنهاد مي‌كند از سمت صفحه وب به مشكل حمله شود. اگر HTML با زبان مناسب‌تري جايگزين گردد، صفحات وب مي‌توانند محتواي خود را با خود حمل كنند. آنها علاوه بر شمول اطلاعات فرمت كه به ايجاد يك سند براي مخاطبان انسان كمك مي‌كند، داراي اطلاعاتي در مورد محتوايشان نيز مي‌باشند. در مثال ما ممكن است اطلاعاتي همانند آنچه در ادامه آمده وجود داشته باشد: 
<company>
<treatmentOffered>Physiotherapy</treatmentOffered>
<companyName>Agilitas Physiotherapy Centre</companyName>
<staff>
<therapist>Lisa Davenport</therapist>
<therapist>Steve Matthews</therapist>
<secretary>Kelly Townsend</secretary>
</staff>
</company>
اين ارائه به مراتب آسانتر توسط ماشين‌ها قابل پردازش است. لغت ابرداده به چنين اطلاعاتي ارجاع داده مي‌شود: داده‌هايي درباره داده‌ها. ابرداده بخش معناي داده‌ها را در خود دارد، كلمه معنا در وب معنايي از اينجا ناشي شده است.
در سناريوهاي نمونه ما در بخش 1.2 به نظر مي‌رسيد موانعي در برابر دسترسي به اطلاعات صفحات وب از قبيل جزئيات درمان، برنامه‌هاي زماني و قرار ملاقات‌ها، قيمت‌ها و توصيف محصولات، وجود ندارد. به نظر مي‌رسد تمام اطلاعات مي‌توانند بطور مستقيم از محتواي وب موجود بازيابي شود. اما همانطور كه شرح داده مي‌شود، اين اتفاق با استفاده از دستكاري داده مبتني بر متن رخ نمي‌دهد بلكه با سودبري از ابرداده قابل پردازش براي ماشين صورت مي‌گيرد.
با توجه به توسعه كنوني در صفحات وب، كاربران نيازي به مهارت در زمينه علوم كامپيوتر براي ايجاد صفحات وب ندارند و مي‌تواننداز طريق ابزاري بدين هدف نايل آيند. هنوز اين سوال مطرح است كه چرا كاربران بايد به اينگونه مسائل اهميت دهند و چرا بايد به خاطر زبان‌هاي وب معنايي HTML را رها كنند. شايد اگر موقعيت امروزي را با دوران آغازي وب مقايسه كنيم، بتوانيم پاسخي خوشبينانه به اين سوال دهيم. كاربران ابتدايي HTML را برگزيدند زيرا به صورت يك استاندارد درآمده بود و فوايدي از آن انتظار مي‌رفت كه متناسب با پذيرندگان ابتدايي بود. ديگران با توجه به ظهور ابزارهاي بهتر و بيشتر به سمت آن رفتند و به زودي HTML تبديل به استاندارد پذيرفته شده جهاني شد.
به طور مشابه، در حال حاضر پذيرش سريع XML را مشاهده مي‌كنيم. XML اولين قدم مهم است، هرچند براي درك ديد وب معنايي كافي نيست. كاربران ابتدايي، احتمالا برخي سازمان‌هاي بزرگي كه به مديريت دانش و تجارت الكترونيك B2B  علاقمندند، XML و RDF را به عنوان استانداردهاي W3C مرتبط با وب معنايي كنوني مي‌پذيرند. و اين شتاب به فروشندگان ابزار و كاربران برگزيننده فناوري بيشتر و بيشتر منجر مي‌گردد. 
اين يك گام قطعي در سرگذشت وب معنايي خواهد بود، اما همچنان يك چالش است. همانطور كه اشاره شد بزرگترين چالش كنوني يك چالش علمي نيست بلكه پذيرش فناوري است.
1.3.2 هستان شناسی
واژه هستان شناسی از فلسفه سرچشمه گرفته است. در این زمینه، از آن به عنوان نام یک زیر رشته استفاده می‌گردد، به عبارت دیگر، مطالعه ماهیت وجود (ترجمه تحت اللفظی از Oντoλoγiα کلمه یونانی) ، شاخه ای از متافیزیک است که در رابطه با شناسایی انواع چیزهایی که در واقع وجود داشته  و چگونگی توضیح آنها ، می باشد. به عنوان مثال مشاهده آنکه جهان از اشیاء خاصی ساخته شده است که می تواند به کلاس های انتزاعی، بر اساس خواص مشترک تعهد هستی‌شناسی معمولی، دسته بندی شود.
با این حال ، در سال های اخیر ، هستی‌شناسی یکی از کلماتی است که بوسیله علوم کامپیوتر ربوده شده است و یک معنای ویژه فنی پیدا کرده است که بسیار متفاوت با معنای اصلی آن است. در حال حاضر ما برای اهداف خود از واژه "يك هستی‌شناسی " بجای هستی‌شناسی صحبت می‌کنیم، ما از تعریف T. R. Gruber’s  که بعدها توسط R. Studer  دوباره تعریف شده است استفاده می‌کنیم:هستی‌شناسی بیانی صریح و رسمی از ویژگی های مفاهیم است.
به طور کلی، هستی‌شناسی یک حوزه از سخن را بطور رسمی توصیف می‌کند. . به طور معمول ، هستی شناسی شامل یک لیست محدود از اصطلاحات و روابط بین آنهاست. این اصطلاحات، مفاهیم مهم(کلاس‌هایی از اشیا)را  در یک دامنه، مشخص می‌کند. به عنوان مثال ، در محیط دانشگاه ، کارکنان ، دانش آموزان ، دوره ها ، سالن سخنرانی ، و رشته های برخی از مفاهیم مهم است.
روابط به طور معمول شامل سلسله مراتب کلاس ها است. یک سلسله مراتب مشخص می‌کند کلاسc زیر کلاسی از کلاس *c است  اگر هر جسم در c در *c نیز گنجانده شده باشد. به عنوان مثال ، تمام اعضای هیات علمی عضو كاركنان هستند. شکل 1.1 سلسسله مراتب حوزه دانشگاه را نشان می‌دهد.
به غیر از روابط زیر کلاسی، هستی‌شناسی ممکن است شامل اطلاعات زیر باشد:
خصوصیات(x می‌آموزد به y )،
محدودیت های مقدار( تنها اعضای هیات علمی می‌توانند تدریس کنند)،
عدم ارتباط وضعيت‌ها (هيات علمي و كاركنان عمومي غير مرتبط هستند)
خصوصيات روابط منطقي بین اشيا(هر دانشكده حداقل بايد ده عضو هيات علمي داشته باشد)
هستي شناسي در زمينه وب، فهم مشتركي از يك زمينه ارائه مي‌دهد. چنین درک مشترکي برای غلبه بر تفاوت در اصطلاحات لازم است. كاربرد كد زيپ ممكن است مشابه ديگر كاربرد كد در ناحيه باشد. مشكل ديگر اين است كه دو كاربرد ممكن است از يك اصطلاح مشترك با معاني متفاوت استفاده كنند. در دانشگاه الف ممكن است درس به يك رتبه(مانند علوم كامپيوتر) اشاره كند در حالي كه در دانشگاه ب به يك شئ واحد(cs 101) اشاره مي‌كند. چنين مشكلاتي مي‌تواند با نگاشت اصطلاحات خاص به يك هستي‌شناسي مشترك و يا تعريف يك نگاشت مشترك بين هستي‌شناسي‌ها مرتفع گردد. در هر حال مي‌توان به راحتي مشاهده نمود كه هستي‌شناسي از معاني به صورت قابل تفسيري حمايت مي‌كند.
هستي‌شناسي براي سازمان‌دهي و مسيريابي وب سايت‌ها مفيد است. امروزه بسياري از وب سايت‌ها در سمت چپ صفحات خود سلسله مراتب مفاهيم سطح بالاي اصطلاحات خود را به نمايش مي‌گذارند. كاربر ممكن است يكي از آنها را كليك كند تا بتواند زير دسته‌هاي آن را گسترش دهد.
همچنین ، هستی شناسی برای بهبود دقت جستجوهای وب مفيد است. موتورهای جستجو می توانند به دنبال صفحه‌اي بگردند كه در هستي‌شناسي خود به طور دقيق به مفاهيم اشاره مي‌كنند يه جاي اينكه در تمام صفحات، كه لغات به صورت كلي مبهم اتفاق مي افتند،  بگردند. بدين ترتيب مي‌توان بر تفاوت  اصطلاحات بين وب سايت‌ها و جستجوها غلبه كرد.
علاوه بر اين، جستجوهاي وب مي‌توانند از قابلیت تعميم دادن/خصوصي ساختن اطلاعات استفاده كنند. اگر يك جستجو در يافتن هر گونه صفحات مرتبط شكست بخورد، موتور جستجو ممكن است يك جستجوي عمومي‌تر را به كاربر پيشنهاد دهد. حتي ممكن است موتورهاي جستجو، چنين جستجوهايي را به طور پيش گستر، به منظور كاهش زمان واكنش در مورد قبول پيشنهاد، توسط كاربر اجرا كند. يا اگر پاسخ‌هاي زيادي يافت شد، موتور جستجو ممكن است موارد خاصي را به كاربر پيشنهاد دهد.
در هوش مصنوعي سابقه طولاني از گسترش و استفاده از زبان هستي‌شناسي وجود دارد.  اين اساس پژوهش‌هاي وب معنايي است. در حال حاضر مهمترين زبان‌هاي هستي‌شناسي در وب به شرح زير مي‌باشند:
RDF يك مدل داد‌ه‌اي  براي اشيا (منابع) و روابط بين آنهاست؛ كه مفاهيم ساده‌اي براي اين مدل داده‌اي فراهم مي‌كند؛ اين مدل داده‌اي مي‌تواند به وسيله XML syntax نمايش داده شود.
RDF Shema يك زبان توصيف لغوي براي تشريح ويژگي‌ها و كلاس‌هاي منابع RDF، همراه با مفاهيمي براي عمومي‌سازي سلسله مراتب آن ويژگي‌ها و كلاس‌ها است.
Owl يك  زبان توصيف لغوي قويتر براي تشريح ويژگي‌ها و كلاس‌ها است، از قبيل روابط بين كلاس‌ها (مانند" "disjointnes )، cardinality (مثلا "دقيقا يك";)، برابري، انواع غني‌تري از ويژگي‌ها، خصوصيات ويژگي‌ها(به عنوان مثال "تقارن";) و كلاس‌هاي شمارش شده.

Comments (1) Posted to وب معناگرا چیست؟ 04/05/2013 Edit

مدیریت دانش


موارد مورد بحث در زمینه مدیریت دانش، کسب، دسترسی و نگهداری از دانش در یک سازمان است. مدیریت دانش به عنوان یک فعالیت کلیدی در تجارت‌های بزرگ مطرح می‌شود زیرا به دانش درونی به عنوان سرمایه عقلانی می‌نگرند که به وسیله آن می‌توان به بهره‌وری بیشتر دست یافت، ارزش جدید ایجاد نمود و رقابت‌ها را افزایش داد. مدیریت دانش برای سازمان‌های بین‌المللی با بخش‌های پراکنده از لحاظ جغرافیایی دارای اهمیت خاصی است.
اکثر اطلاعات در حال حاضر با ساختار ضعیفی موجود است مانند متن، صدا و ویدئو. از دید مدیریت دانش، فناوری امروز از محدودیت‌هایی در زمینه‌های زیر رنج می‌برد:
جستجوی اطلاعات. شرکت‌ها معمولا وابسته به موتورهای جستجوی مبتنی بر کلمه کلیدی هستند که محدودیت‌های آنها به طور خلاصه ذکر شد.
استخراج اطلاعات. وقت و تلاش انسانی برای مرور سندهای بازیابی شده برای استخراج اطلاعات مرتبط مورد نیاز است. عامل‌های هوشمند کنونی قادر به انجام چنین کاری در حد رضایت‌بخش نمی‌باشند.
نگهداری اطلاعات. در حال حاضر مشکلاتی از قبیل ناسازگاری در واژگان و خطا در حذف اطلاعات منسوخ وجود دارند.
کشف اطلاعات. دانش جدیدی که به طور ضمنی در پایگاه داده شرکت‌ها وجود دارد با استفاده از داده کاوی استخراج می‌شود. هرچند این کار هنوز برای مجموعه سندهای توزیع شده و دارای ساختار ضعیف مشکل است. 
دسترسي به اطلاعات. اغلب دلخواه است كه دسترسي به اطلاعات مشخصي براي گروه‌هاي مشخصي از كارمندان محدود گردد. "ديد‌ها" كه اطلاعات مشخصي را پنهان مي‌كنند، از ديد پايگاه‌داده‌ها شناخته مي‌شوند ولي از طريق اينترنت (يا از طريق وب) به سختي قابل شناسايي هستند.
هدف وب معنايي اجازه به سيستم‌هاي مديريت دانش پيشرفته‌تري است:
دانش در فضاهاي مفهومي مطابق با معنايش سازمان‌دهي خواهد شد.
ابزارهاي اتوماتيك نگهداري را از طريق بررسي ناسازگاري‌ها و استخراج دانش جديد پشتيباني مي‌نمايند.
جستجوي مبتني بر كلمه كليدي با پاسخ به پرس‌و‌جو جايگزين مي‌شود: دانش درخواست شده بازيابي، استخراج و به طرز كاربر‌پسندانه‌اي ارائه مي‌شود.
پاسخ به پرس‌و‌جو بر روي چندين سند پشتيباني خواهد شد.
تعيين افرادي كه قابليت دسترسي به بخش‌هاي مشخصي از اطلاعات (حتي بخش‌هايي از سندها) را دارند، امكان‌پذير خواهد بود.
1.2.2 تجارت الكترونيك تجارت به مصرف‌كننده
تجارت الكترونيك تجارت-به-مصرف‌كننده (B2C) تجربه تجاري غالب كاربران وب است. يك سناريوي معمول شامل بازديد كاربر از يك يا چند فروشگاه آنلاين، مرور پيشنهادات آنها، انتخاب و سفارش محصولات مي‌باشد.
به طور ايده‌آل، يك كاربر اطلاعاتي درباره قيمت‌ها، شرايط (همچون طريقه دسترسي) همه فروشگاه‌هاي آنلاين يا حداقل همه فروشگاه‌هاي اصلي جمع‌آوري كرده و سپس بهترين پيشنهاد را انتخاب مي‌كند. اما مرور دستي براي عمل در اين مقياس بسيار زمانبر است. به طور معمول كاربر تنها از يك يا چند فروشگاه قبل از تصميم‌گيري بازديد مي‌نمايد.
براي بهبود اين وضعيت، ابزارهايي براي خريد در وب به شكل ربات‌هاي خريد وجود دارند. عامل‌هايي نرم‌افزاري كه از چندين فروشگاه بازديد مي‌كنند، اطلاعات قيمت و محصول را استخراج مي‌نمايند و يك خلاصه فروش گرد‌آوري مي‌كنند. عملكرد آنها توسط لفافه‌ها فراهم مي‌گردد. برنامه‌هايي كه اطلاعات را از يك فروشگاه آنلاين استخراج مي‌نمايند. يك لفافه براي هر فروشگاه ايجاد مي‌شود. اين رويكرد از چندين مانع رنج مي‌برد.
اطلاعات از سايت فروشگاه آنلاين از طريق جستجو كلمه كليدي و ديگر معاني از تحليل لغوي، استخراج مي‌گردد. اين فرآيند از فرضياتي درباره تقريب قسمت‌هاي مشخصي از اطلاعات استفاده مي‌برد. (به عنوان مثال  قيمت با كلمه قيمت و علامت $ كه قبل و بعد از يك عدد مثبت مي‌آيد مشخص مي‌گردد.) اين رويكرد تخميني مستعد اشتباه مي‌باشد و ضمانتي وجود ندارد كه كار كند. به دليل اين مشكلات تنها اطلاعات محدود شده اي استخراج مي‌گردد.  به عنوان مثال مخارج حمل و نقل، زمان‌هاي تحويل، محدوديت در كشور مقصد، سطح امنيت و سياست‌هاي خصوصي‌سازي معمولا استخراج نمي‌شوند.اما تمام اين فاكتورها ممكن است براي تصميم‌گيري كاربر ضروري باشد. به علاوه برنامه‌نويسي لفافه‌ها زمانبر است و تغييرات در تجهيزات فروشگاه آنلاين نيازمند دوباره برنامه‌نويسي هزينه‌بري است. 
وب معنايي به توسعه عامل‌هاي نرم‌افزاري اجازه مي‌دهدكه بتواند اطلاعات محصول وشرايط سرويس را تفسير كند:
قيمت گذاري و اطلاعات محصول به صورت صحيح استخراج شده وسياست‌هاي خصوصي‌سازي و تحويل تفسير شده و با نيازمندي‌هاي كاربر مقايسه مي‌شود.
اطلاعات اضافي در رابطه با اعتبار فروشگاه‌هاي آنلاين از ساير منابع مانند سازمان‌هاي رتبه‌بندي مستقل يا شركت‌هاي مصرف كننده، بازيابي مي‌گردد. 
برنامه‌نويسي سطح پايين لفافه‌ها كامل خواهد شد.
عامل‌هاي خريد خبره‌تر قادر خواهند بود مذاكرات اتوماتيكي را از طرف خريدار با عامل‌هاي فروشگاه هدايت كنند.
1.2.3 تجارت الكترونيك تجارت-به-تجارت
اكثر كاربران با تجارت الكترونيك B2C با بخش تجاري وب در ارتباطند اما بزرگترين وعده اقتصادي تمام فناوري‌هاي آنلاين بر اساس تجارت الكترونيك تجارت-به-تجارت (B2B) استوار است.
تجارت‌هاي سنتي با استفاده از رويكرد تبادل داده الكترونيكي (EDI) داده‌هاي خود را مبادله مي‌كردند. هرچند اين فناوري پيچيده است و تنها افراد خبره آن را درك مي‌كنند. برنامه‌نويسي و نگهداري آن مشكل بوده و مستعد خطا مي‌باشد. هر ارتباط B2B نيازمند برنامه‌نويسي جداگانه است بنابراين چنين ارتباطاتي هزينه‌برند. EDI يك فناوري ايزوله بوده و داده‌هاي مبادله شده نمي‌توانند به آساني با ديگر برنامه‌هاي تجاري مجتمع گردند.
اينترنت يك زيرساخت ايده‌آل براي ارتباط تجارت-به-تجارت به نظر مي‌رسد. شركت‌ها به طور رو به افزايشي به دنبال راه‌حل‌هاي مبتني بر اينترنت بوده و مدل‌هاي تجاري جديدي چون پرتال‌هاي B2B پديد آمده‌اند. هنوز تجارت الكترونيك B2B با كمبود استانداردها مواجه است. HTML (زبان نشانه‌گذاري ابرمتن) براي پشتيباني فعاليت‌هاي ذكر شده بطور موثر، بسيار ضعيف است: هيچ گونه ساختار يا معنايي از اطلاعات فراهم نمي‌آورد. استاندارد جديد XML يك پيشرفت بزرگ است اما هنوز تنها در مواردي كه يك توافق اولويت بر روي واژگاني كه مورد استفاده قرار مي‌گيرند و معاني آنها وجود دارد، ارتباطات را پشتيباني مي‌كند.
درك وب معنايي به شركت‌ها اجازه خواهد داد كه مشاركتشان را بدون سربار زياد آغاز نمايند. تفاوت‌ها در واژگان با استفاده از استاندارد مدل‌هاي دامنه مجرد حل خواهد شد و داده‌ها با استفاده از سرويس‌هاي انتقال مبادله مي‌شود. مزايده، مذاكرات و پيش‌نويس قراردادها به صورت اتوماتيك (يا نيمه اتوماتيك) توسط عامل‌هاي نرم افزاري صورت مي‌گيرد.
1.2.4 ويكي‌ها
در حال حاضر استفاده از WWW توسط ابزار‌هايي كه مشاركت فعال كاربران وب را فعال مي‌كند، گسترش يافته است. برخي اين توسعه را انقلابي معرفي كرده و آن را وب 2 نام داده اند.
بخشي از اين مسير شامل ويكي‌ها مي‌شود. ويكي‌ها مجموعه‌هايي از صفحات وب هستند كه به كاربران اجازه مي‌دهند از طريق يك واسط  مرورگر محتوايي را (معمولا متن ساختار يافته و پيوندهاي ابر متن) بيافزايند. سيستم‌هاي ويكي به ايجاد دانش مشاركتي كمك مي‌كند زيرا آنها آزادي تقريبا كاملي براي افزودن و تغيير اطلاعات بدون مالكيت محتوا، محدوديت‌هاي دسترسي يا گردش كار‌هاي قطعي، به كاربران مي‌دهند. سيستم‌هاي ويكي براي اهداف مختلفي بكار مي‌روند. از جمله:
توسعه بدنه‌هاي دانش در يك كوشش جمعي با همكاري رده وسيعي از كاربران. شناخته‌شده‌ترين نتيجه ويكي‌پدياي همه منظوره مي‌باشد.
مديريت دانش يك فعاليت يا يك پروژه. مانند طوفان فكري، تبادل ايده‌ها، فعاليت‌هاي همكارانه و تبادل ركوردهاي جلسات.
درحالي كه هنوز زود است كه درباره ضعف‌ها و محدوديت‌هاي اين فناوري صحبت كنيم،  سيستم‌هاي ويكي به طور قطعي مي‌توانند از استفاده از فناوري‌هاي معنايي فايده برند.  ايده اصلي اين است كه ساختاري ذاتي از يك ويكي  به وسيله پيوند بين صفحات ايجاد شود كه براي ماشين‌هايي كه در پشت هدايت محض قرار دارند، در دسترس باشد. اين كار مي‌تواند با غني‌سازي متن ساختاريافته و ابرپيوندهاي طبقه‌بندي نشده با حاشيه نويسي معنايي ارجاع كننده به مدل دانش زيرين گرفته شده از ويكي، انجام شود. براي مثال ابرپيوند از Knossos به Heraklion مي‌تواند با اطلاعاتي كه در آن قرار دارد مشروح شود. اين اطلاعات مي‌تواند براي ارائه مختص به محتوا از صفحات، پرس‌و‌جوهاي پيشرفته و تصديق سازگاري بكار رود.
1.2.5 عامل‌هاي شخصي: يك سناريوي آينده
سناريويي كه در ادامه مي‌آيد عملكردهايي را كه قابليت‌ پياده‌سازي بر پايه فناوري‌هاي وب معنايي دارند، نشان مي‌دهد.
مايكل به تازگي تصادف رانندگي كوچكي داشته است و دردي در گردن خود احساس مي‌كند. اولين پزشك معالج او يك سري جلسات فيزيودرماني پيشنهاد نمود. مايكل از عامل وب معنايي خود خواست تا برخي امكان‌ها را بررسي كند.
عامل جزئيات فيزيودرماني پيشنهادشده را از عامل دكتر بازيابي كرده و ليستي از درمانگرهاي موجود در شركت بيمه درماني مايكل را بدست آورد. عامل مراكزي را كه در شعاع ده كيلومتري از دفتر كار يا خانه مايكل قرار دارند، بررسي نموده و اعتبار آنها را بر اساس سرويس‌هاي رتبه بندي مورد اطمينان بدست آورد. سپس تلاش كرد ساعات ملاقات موجود را با تقويم مايكل تطبيق دهد. در عرض چند دقيقه عامل دو پيشنهاد ارائه داد. متاسفانه مايكل هيچكدام را نپسنديد. يكي از درمانگرها ساعات ملاقاتي در دو هفته آينده پيشنهاد كرده بود و براي ديگري مايكل مجبور مي‌شد در ساعت شلوغي رانندگي كند. بنابراين مايكل زمان‌هاي خاص‌تري تنظيم نموده و از عامل خواست تا كارش را دوباره انجام دهد.
چند دقيقه بعد عامل با يك جايگزين بازگشت: درمانگري با اعتبار بالا كه ساعات ملاقات موجود او در طي دو روز آينده بود. اگرچه تعدادي مشكل كوچك وجود داشت. برخي قرارهاي كاري كم اهميت مايكل بايد دوباره برنامه‌ريزي مي‌شد. عامل پيشنهاد داد كه در صورت تصويب راه حل مقدمات را آماده كند. همچنين درمانگر در ليست سايت بيمه نبود زيرا بيش از پوشش بيمه دستمزد دريافت مي‌كرد. عامل نام او را از يك ليست مستقل از درمانگرها يافته بود و چك كرده بود كه مايكل بر اساس سياست بيمه مي‌تواند از حداكثر پوشش بيمه استفاده كند. او همچنين با عامل درمانگر در رابطه با تخفيفي ويژه مذاكره كرده بود. درمانگر به تازگي تصميم گرفته بود كه بيش از ميانگين دستمزد دريافت نمايد و مشتاق به يافتن مريض‌هاي جديد بود.
مايكل پيشنهاد را پذيرفت چون تنها نياز بود چند دلار بيشتر بپردازد. اگرچه از آنجايي كه عامل وب معنايي را چند روز پيش نصب كرده بود، توضيحاتي در رابطه با برخي از اظهارات او خواست. از قبيل: چگونگي بدست آمدن اعتبار درمانگر، دليل ضرورت تغيير ساعت برخي قرارهاي كاري مايكل و چگونگي صورت گرفتن مذاكره در رابطه با قيمت. عامل اطلاعات متناسب را ارائه نمود.
مايكل رضايتمند بود. قرار بود عامل وب معنايي جديد او، زندگي پرمشغله اش را آسان‌تر كند. از عامل خواست تا تمام مراحل ضروري جهت اتمام كار را انجام دهد. 

Comments (0) Posted to وب معناگرا چیست؟ 03/30/2013 Edit

ماموريت وب معنايي


وب جهان گستر طريقه ارتباطات مردم با يكديگر و همچنين مسير تجارت را دچار تغيير و تحول كرده است. و در مركز انقلابي قرار گرفته است كه اكنون در حال تبديل جهان توسعه يافته به يك اقتصاد دانشي، يا به صورت كلي تر، به يك جامعه دانشي مي‌باشد.
اين توسعه نحوه انديشيدن در مورد كامپيوتر را نيز تغيير داده است. در ابتدا كامپيوترها براي محاسبات عددي به كار مي‌رفتند. در حال حاضر استفاده عمده از آنها جهت پردازش اطلاعات، برنامه‌هاي كاربردي معمول شامل سيستم‌هاي پايگاه‌داده‌اي، پردازش متن و بازي‌ها مي‌باشد. امروزه تمركز ديد نسبت به كامپيوتر‌ها به عنوان نقاط ورودي در حال تحول به سمت بزرگراه‌هاي اطلاعاتي است. 
اكثريت محتواي وب امروزي براي مصرف انسان مناسب است. حتي محتوايي كه به صورت اتوماتيك از پايگاه‌داده‌ها توليد شده است، معمولا بدون نياز به اطلاعات ساختاري اصلي موجود در پايگاه‌داده قابل ارائه است. مصارف عمده از وب در حال حاضر شامل جستجو در اطلاعات توسط مردم و استفاده از آن، جستجو جهت در تماس بودن با ديگر افراد، مرور كاتالوگ‌هايي از فروشگاه‌هاي آنلاين و سفارش محصولات با پر كردن فرم‌ها و مشاهده اجناس بزرگسالان مي شود.
اين فعاليت‌ها به طور مشخص به نحو احسن توسط ابزار نرم افزاري پشتيباني نشده‌اند. جدا از وجود پيوند‌هايي كه در بين سندها ارتباط برقرار مي‌كنند، ابزارهاي بسيار ضروري، ارزشمند و اصلي براي اين كار موتورهاي جستجو مي باشد.
موتورهاي جستجوي مبتني بر كلمه كليدي همچون Yahoo و Google ابزارهاي اصلي براي استفاده از وب امروزي است. واضح است كه وب نمي توانست به موفقيت عظيم كنوني بدوني موتورهاي جستجو دست يابد. اگرچه مشكلاتي جدي در رابطه با استفاده از آنها وجود دارد:
فراخواني بالا، دقت پايين. حتي اگر صفحات مرتبط اصلي بازيابي شود، استفاده كمي از صفحات اصلي مي توان نمود. تعداد خيلي زياد مي تواند به بدي تعداد خيلي كم باشد.
فراخواني كم يا صفر. اغلب اتفاق مي‌افتد كه هيچ پاسخ مرتبطي براي پرس‌و‌جو خود دريافت نمي‌كنيم، يا صفحات مربوط و مهم بازيابي نمي‌شود. هر چند با وجود موتورهاي جستجوي كنوني، فراخواني اندك كمتر رخ مي‌دهد ولي همچنان اتفاق مي‌افتد.
نتايج بسيار حساس به واژگانند. اغلب كلمات كليدي ابتدايي ما به نتايج دلخواه منجر نمي‌شود، در اين صورت سندهاي مرتبط داراي كلمات متفاوت با پرس‌و‌جو خواهد بود. اين مساله باعث نارضايتي مي‌شود زيرا پرس‌و‌جو‌ها با معناي مشابه بايد پاسخ هاي همانند بازگردانند.
هر كدام از نتايج تنها يك صفحه وب هستند. اگر به اطلاعاتي كه در سندهاي مختلف پخش شده‌اند نياز داشته باشيم، ابتدا بايد چندين پرس‌و‌جو براي جمع آوري سندهاي مرتبط ارسال كنيم و سپس به صورت دستي اطلاعات جزئي را استخراج كرده و به هم متصل كنيم.
جالب است كه بر خلاف پيشرفت‌هايي كه در فناوري موتور جستجو صورت گرفته است، اين مشكلات همچنان باقي مانده‌اند. به نظر مي رسد كه حجم محتواي وب از پيشرفت فناوري پيشي گرفته است.
هرچند حتي اگر يك جستجو موفقيت آميز باشد، خود فرد است كه بايد سندهاي انتخاب شده را كند تا اطلاعاتي كه به دنبال آن است استخراج گردد. بدين صورت تضمين قطعي براي بازيابي اطلاعات، اين فعاليت بسيار زمانبر، وجود ندارد. بنابراين اصطلاح بازيابي اطلاعات، كه در رابطه با موتورهاي جستجو به كار مي رود، تا حدي گمراه كننده است. مكان يابنده مي‌تواند اصطلاح مناسب‌تري باشد. علاوه بر اين نتايج جستجوها در وب براي ساير ابزارهاي نرم‌افزاری آماده و قابل دستیابی نمی‌باشد. موتورهاي جستجو اغلب برنامه‌های ایزوله‌ای هستند.
در حال حاضر مانع اصلی برای فراهم آوردن پشتیبانی بهتر از کاربران وب این است که معنای محتوای وب برای ماشین قابل دسترسی نیست. البته ابزاری وجود دارند که متن‌ها را بازیابی می‌کنند، آنها را به بخش‌هایی تقسیم می‌کنند، املای آنها را چک می‌نمایند و تعداد کلمات آنها را می‌شمارند. اما هنگامی که زمان تفسیر جملات و استخراج اطلاعات مفید برای کاربران فرا می‌رسد، قابلیت‌های نرم‌افزار کنونی بسیار محدودند. به سادگی معلوم است که تشخیص دو جمله زیر از یکدیگر دشوار می‌باشد.
من استاد علوم کامپیوتر هستم.
ممکن است فکر کنید من استاد کامپیوتر هستم.
موقعیت کنونی چگونه با استفاده از پردازش متن قابل بهبود است؟ یک راه حل این است که از محتوا به گونه‌ای که امروزه ارائه می‌شود استفاده کرده و تکنیک‌های خبره بر پایه هوش مصنوعی و زبان‌شناسی محاسباتی، توسعه رو به رشدی یابد. این رویکرد تا کنون برای مدتی دنبال شده‌است، اما برخلاف برخی پیشرفت‌ها محقق شدن آن بسیار دور می‌نماید.
یک رویکرد جایگزین، ارائه محتوای وب به شکلی است که به آسانی قابل پردازش توسط ماشین  باشد و به گونه‌ای از تکنیک‌های هوشمند استفاده گردد که بتوان از این طرز ارائه سود برد. ما به این طرح تحول وب به عنوان ابتکار وب معنایی ارجاع می‌کنیم. لازم است بدانیم که وب معنایی بزرگراه اطلاعاتی جهانی جدیدی موازی با وب جهان‌گستر موجود نخواهد بود. در عوض بتدریج وب موجود را دربرمی‌گیرد.
وب معنایی توسط کنسرسیوم وب جهان‌گستر (W3C)، یک موسسه بین‌‌المللی استانداردسازی برای وب انتشار یافت. ایده وب معنایی توسط تیم برنرز لی آغاز شد. همان شخصی که در اواخر دهه 1980 میلادی وب جهان‌گستر را ابداع نمود. او از این ابتکار انتظار درک دید اصلی او به وب و دیدی که در آن مفهوم اطلاعات نقش بسیار مهم‌تری نسبت به وب امروزی را ایفا می‌کند، دارد. 
توسعه وب معنایی شتاب صنعتی زیادی داشته و دولت‌ها سرمایه گذاری‌های زیادی در این زمینه انجام داده‌اند. دولت ایالات متحده پروژه زبان نشانه‌گذاری عامل DARPA (DAML) را برپا‌نموده است و همچنین وب معنایی در میان خطوط عمل کلیدی برنامه کاری ششم اتحاد اروپا قرار دارد.

Comments (0) Posted to وب معناگرا چیست؟ 03/25/2013 Edit

WEB3 چیست؟«وب 3» اصطلاحی است که برای اشاره به وب آینده به کار میرود. پس از آنکه اصطلاح وب 2 برای تکامل اخیر وب رواج یافت، بسیاری از متخصصین ،روزنامه نگاران و رهبران فن، اصطلاح وب 3 را بکار بردند تا فرضیاتی درباره موج آینده تغییرات اینترنت مطرح کنند.
نظرات پیرامون مرحله بعدی سیر تکاملی وب، بسیار متفاوت است، برخی معتقدند؛ پدیدار شدن تکنولوژی وب مفهومیراه وب را تغییر خواهد داد و آنرا به سوی هوش مصنوعی خواهد برد. دیگر نظریه پردازان اظهار میکنند که وب 3 افزایش سرعت اینترنت، اپلیکیشن های تحت وب، یا پیشرفت گرافیکی رایانه، نقش کلیدی را در سیر تکاملی وب بازی خواهد کرد.
نظرات رهبران فن:
تیم برنزلی ـ مخترع وب ـ در ماه می سال 2006 گفت:
مردم مدام میپرسند وب 3 چیست؟ من فکر میکنم وقتی شما تعداد زیادی کاغذ کالک را روی هم میگذارید همه چیز ناهموار و چین خورده شده، مبهم به نظر میرسد. وب 2 و دسترسی به وب مفهومی، سراسر حجم عظیم اطلاعات را یکپارچه میکند، شما دسترسی غیر قابل باوری به منابع اطلاعاتی خواهید داشت.
در ماه می سال 2006 از اریک اسمیت ـ مدیر گوگل ـ خواسته شد تا وب 2 و وب 3* را تعریف کند. او پاسخ داد:
… اگر بخواهید که حدس بزنم که وب 3 چه خواهد بود، خواهم گفت که «وب 3» راهی متفاوت در ساخت اپلیکیشن ها است. پیش بینی من این است که «وب 3» در نهایت در قالب اپلیکیشن هایی تحقق می یابد که تکه ای از یکدیگرند. شماری از ویژگی های آنها از این قرار است: اپلیکیشن ها نسبتا کوچک ، اطلاعات توده ای ، اپلیکیشن ها روی هر وسیله ای اعم از پی سی یا تلفن همراه قابل اجرا، اپلیکیشن ها بسیار سریع و بسیار قابل کاستومایز و اپلیکیشن ها توزیعی خواهند بود، بصورت لفظ به لفظ؛ با شبکه های اجتماع، با ایمیل. شما به فروشگاه نمیروید تا آنها را بخرید… آنها نوع بسیار متفاوتی از اپلیکیشن ها خواهند بود که ما هرگز در محاسباتمان ندیده ایم.
در نوامبر سال 2006، جری یانگ ـ بنیانگذار و رئیس یاهو ـ گفت:
وب 2 خوب مستند شده و درباره آن سخن گفته اند، نیروی اینترنت با امکاناتی که در مرحله شبکه میتوان انجام داد به نقطه بحرانی رسیده است، ما همچنین از چهار سال قبل شاهد ابزارهای قدرتمند هستیم، همچنین راه های قدرتمند تعامل با شبکه را نه تنها در سخت افزار مانند کنسول های بازی و ابزارهای همراه، بلکه حتی در شاخه نرم افزار مشاهده میکنیم، شما لازم نیست که متخصص کامپیوتر باشید تا یک برنامه ایجاد کنید. ما میبینیم که توسعه بزرگ در وب 2 و وب 3، توسط مانیفست صورت میگیرد، یک اشتراک حقیقی میانی … تمایز میان حرفه ای، نیمه حرفه ای، و مصرف کننده گان محو میشود. ایجاد یک شبکه، تجارت و اپلیکیشن ها را نتیجه میدهد.
رید هاستینگس ـ بنیانگذار و مدیر Netflix ـ فرمول ساده تری برای تعریف مراحل وب دارد:
وب 1 دیال آپ بود، با 50 کیلوبایت پهنای باند، وب 2 با 1 مگابایت پهنای باند میانگین، و وب 3 با 10 مگابایت پهنای باند ثابت خواهد بود. بگونه ای که وب کاملا ویدئویی خواهد بود، آن هنگام آرزوی وب 3 تحقق خواهد یافت.
نوآوری هایی که با «وب 3» پیوند خورده اند:
اپلیکیشن های مبتنی بر وب و دسکتاپ؛
تکنولوژی وب 3 همچون نرم افزار های هوشمند که از داده های مفهومی استفاده میکنند. اندازه کوچک با چندین شرکت برای اینکه از کار با داده ها بهره وری بیشتر و موثرتری داشت. در هر صورت در سالهای اخیر عموماً روی تکنولوژی وب مفهومی تمرکز بیشتری میباشد.
منازعات پیرامون وب 3: (منازعات قابل توجه پیرامون چیستی اصطلاح وب 3 و تعریف شایسته آن)
تبدیل وب 3 به یک دیتابیس:
اولین قدم بسوی وب 3 ظهور «داده وب» است، ساختاری که اسناد در وب منتشر میشوند. فرمت های قابل استفاده، قابل کنترل و قابل جستجو همچون RDF، ICDL و microformats. رشد اخیر تکنولوژی SPARQL استانداردی برای زبان جستجو و API یی برای جستجوی سراسر RDF، دیتابیسی توزیعی روی وب فراهم کرده است. داده وب مرحله جدیدی از داده های یکپارچه و اپلیکیشن های مشارکتی را فعال کرده و داده ها را قابل دستیابی باز و قابل پیوند همچون صفحات وب ساخته است. داده وب اولین قدم از راهی است که بسوی وب کاملا مفهومی میرود. در مرحله داده وب، تمرکز بیشتر بر روی تبدیل فرمت داده های در دسترس به RDF میباشد. وب مفهومی کامل، مرحله ای از وب است که تمام پهنای داده های فرمت شده و سنتی که قالب بندی نشده اند یا محتواهای نیمه فرمت شده، (همچون صفحات وب، اسناد و مانند آن) باید در دسترس RDF و OWL که فرمتهای مفهومی میباشند قرار گیرد. اجزای تمپلت وبسایت هاباید قابل استفاده مجری وب 3 باشد تا بیشتر بتواند اطلاعات جامعی درباره محتوای سازمان یافته وبسایتها بدست آورد.
سیر تکاملی بسوی هوش مصنوعی:
همچنین وب 3 مسیر تکاملی وب را که به هوش مصنوعی منتهی میشود توصیف میکند، مسیری که وب را به شکل یک شبه انسان تبدیل میکند. برخی شکاکان معتقدند که این تصوری دست نیافتنی است. در هر صورت کمپانی هایی همچون آی بی ام و گوگل در حال تکمیل تکنولوژی های جدیدی هستند که اطلاعات شگفت انگیزی بدست می آورد مانند پیش بینی موسیقی از طریق اطلاعاتی که روی وبسایستهای موزیک موجود است. اینجا همچنین بر روی اینکه نیرویی که وب 3 را به حرکت در خواهد آورد مناقشه است؛ آیا سیستم های باهوش خواهند بود یا هوشمندی از یک نوع سازمان دهی بیشتر پدیدار خواهد شد. از سلسله ای از هوشمندی انسانها، چنانکه از راه فیلترینگ جمعیسرویسهایی همچون خوشمزه، فلیکر و دیگگ که مفاهیم را استخراج میکنند و وب موجود و واکنش انسان ها نسبت به آنرا تنظیم میکنند.
وب مفهومی و SOA:
در رابطه با مدیریت هوش مصنوعی، وب 3 میتواند تحقق و توسعه وب مفهومی باشد، تحقیقات علمی در جهت گسترش نرم افزار برای استدلال بر مبنای منطق تعریفی و عوامل هوشمند پیش میرود. بنابراین اپلیکیشن ها میتوانند عملیات استدلال منطقی را با استفاده از مجموعه قوانین منطق انجام داده و ارتباط میان مفهوم و داده روی وب را بیان کند.
سرامانا میترا دیدگاه با این دیدگاه که وب مفهومی ماهیت نسل بعدی اینترنت خواهد بود مخالف است، او فرمولی برای کپسول وب 3 ارائه میدهد.
وب 3 همچنین با همگرایی معماری جهتدار سرویس ها و وب مفهومی پیوند خورده است.
وب 3، «اینترنت سرویس ها» نیز نامیده میشود، غیر از قسمت قابل خواندن انسانی وب، سرویسهایی در دسترس SOA ماشین خواهد بود که میتوانند به سطح بالاتری از سرویس ها، ترکیب و هماهنگی دهند.
حرکت تکاملی بسوی سه بعدی
احتمال دیگر برای وب 3 این است که مسیر سه بعدی را طی کند، که توسط کنسرسیوم وب سه بعدی پشتیبانی میشود. این ممکن است وب را به یک دوره فضای سه بعدی وارد کند. مفهومی که به آینده ی *Second Life مرتبط میباشد. این ممکن است با استفاده از فضای به اشتراک گذاشته شده سه بعدی راه جدیدی برای ارتباط و مشارکت باز کند.
وب اجرایی چند لایه
وب 1 فقط قابل خواندن بود، وب با تولید محتوا همراه بود و با آنچه که سایت ارائه میکرد سازمان می یافت.
اما وب 2 بصورت «خواندنی ـ نوشتنی» توسعه یافت و کاربران نقش فعالی به عهده گرفتند.
وب 3 میتواند این مرحله را با اجازه دادن به انسانها برای تغییرات در سایت و منابع آن بیشتر ادامه دهد. با نمای رشد ثابت قدرت رایانه، این غیر قابل باور نیست که نسل بعدی سایت ها مجهز به منابعی شوند که کد مشارکتی کاربران بر روی آنها اجرا شود.
«وب اجرایی» میتواند اپلیکیشن های آنلاین را در همه توابع پلتفرم هایی که منتقل میکند در یک اینترفیس واحد … ترکیب کند.
تکنولوژی مشارکتی مقادیر
مفهوم وب 3 شامل مفهومی از وب است که «دنیای واقعی» را وب با احساس بازسازی میکند. وب 3 به این معنا پایان حلقه ی یکپارچه سازی تکنولوژی ها برای شبکه های دیجیتال است و پردازش، هضم و غیر قابل تجرید ساختن «دنیای واقعی» نوین است. در این معنا وب 3 بیولوژیکال، دیجیتال آنالوگ وبی خواهد بود که در آنجا اطلاعات از مجموعه ای از مقادیر دیجیتال آمیخته با حواس ساخته میشوند و بوسیله میانجی های آنالوگ به دنیای واقعی پیوند خورده اند.
پیشنهاد توسعه تعریف:
نوا اسپیواک وب 3 را بعنوان سومین دهه وب (2020-2010) تعریف میکند، دوره ای که تعداد زیادی از تکنولوژی های بزرگ تکمیلی همزمان به مرحله جدیدی از کمال خواهند رسید. از جمله؛
دگرگونی شکل وب به شبکه اپلیکیشن ها و محتواهای جداگانه که یکپارچه و قابل مشارکت میشوند.
اتصالات همه جا حاضر، پذیرش پهنای باند، اینترنت همراه و ابزارهای همراه در دسترس خواهند بود.
محاسبات شبکه ای، نرم افزار بعنوان مدلهای سرویس تجاری، سرویس های وب قابل مشارکت، محاسبات توزیع شده،محاسبات شبکه ای و محاسبات توده ای
تکنولوژی های باز، API ها و پرتکل های باز، قالبهای داده ای باز، نرم افزارهایی با پلتفرم متن باز و داده های باز (مانندCreative Commons و Open Data License)شناسه باز، OpenID، اعتبار باز، شناسه و اطلاعات شخصی قابل انتقال
وب هوشمند، وب مفهومی تکنولوژی هایی همچون RDF، OWL ،SWRL ،SPARQL ،GRDDL پلتفرم اپلیکیشن های مفهومی …
دیتابیس های توزیعی، دیتابیس های سراسر جهان (فعال شده با تکنولوژی وب مفهومی)
و برنامه های هوشمند، پردازش زبان طبیعی، فراگیری ماشین، استدلال ماشین، عوامل خودگردان.
 
با تشکر از مهدی سالخورده 

Comments (0) Posted to وب معناگرا چیست؟ 03/23/2013 Edit

طراحی یک سیستم توصیه‏گر ترکیبی معنایی با استفاده از تکنیک‏های پردازش زبان طبیعی فارسی


با افزایش سریع اطلاعات، به سیستمی توصیه‏گر که با دادن پیشنهادات مناسب با علایق یک کاربر بر اساس پیشینه ی عملکرد او، وی را از صرف وقت در مرور تمام آیتم‏ها باز دارد، به شدت احساس نیاز می‌شود. سیستم توصیه‏گر با تحلیل رفتار کاربر خود، اقدام به پیشنهاد مناسب‏ترین اقلام به وی می‏نماید. حوزه ی مفاهیم موجود در بسیاری از سیستم‏های توصیه‏گر فعلی، محدود به دانش موجود در خود سیستم بوده و از منابع عظیم دانش خارج از سیستم، مانند وب معنایی و داده‏های پیوندی استفاده نمی‏شود. در این مقاله سیستم توصیه‏گر ترکیبی‏ای معرفی شده است که از مفاهیم و روابط موجود بین آنها در پایگاه‏های خارج از خود استفاده می‏کند. در نتیجه یکی از قسمت‏های اصلی سیستم پیشنهادی، استخراج مفاهیم از آیتم‏ها و رفتار کاربران می‏باشد؛ که این کار با تکنیک‏های پردازش زبان طبیعی مانند ریشه‏یابی کلمات کلیدی آیتم‏ها میسّر می‏باشد. همچنین در سیستم پیشنهادی از نگاشت معنایی ریشه‏های بدست آمده، به شبکه واژگان فردوس‏نت استفاده شده است. با این‏کار به دلیل گسترش معنایی مجموعه کلمات کلیدی و ویژگی‏های آیتم‏ها، صحت توصیه‏ها افزایش خواهد یافت. در پایان نیز با استفاده از حدود 81 هزار کتاب دسته‏بندی شده استخراجی از سایت Acm و میلیو‏ن‏ها نرخی که هزاران کاربر به یک میلیون مقاله/کتاب موجود در مجموعه داده Epinions داده‏اند، نشان داده خواهد شد که مشکل "شروع آهسته" تا حد زیادی قابل حل می‏باشد.

مقدمه
سیستم توصیه‏گر به عنوان یک سیستم ابتکاری که اطلاعات مفید را پیشنهاد می‏دهد و می‏تواند در دامنه‏های گوناگون بکار رود، در نظر گرفته می‏شود [1]. سیستم توصیه‏گر یا سامانه ی پیشنهادگر با تحلیل رفتار کاربر خود، اقدام به پیشنهاد مناسب‏ترین اقلام (داده، اطلاعات، کالا و ... ) به وی می‏نماید.
این گونه سیستم ها در واقع جهت حل مشکلات ناشی از حجم فراوان و رو به رشد اطلاعات ارائه شده است و به کاربر خود کمک می‏کند تا در میان حجم عظیم اطلاعات، سریع تر به هدف خود دست یابد [2]. سیستم‏های توصیه‏گر به کاربرانی که از بین حجم بالای اطلاعات به دنبال نوعی خاص از اطلاعات مرتبط با اولویت‏هایشان هستند، پیشنهادات شخصی شده‏ای را ارائه می‏دهد. این نوع سیستم‏ها با توانایی‏ای که در جمع آوری اطلاعات از رفتار و حرکت کاربران، دسته بندی و تفسیر آنها دارند، امکانی فراهم آورده‏اند که کاربران با صرف زمان و انرژی کمتر به اطلاعات مناسب‏تری دسترسی پیدا کنند.
امروزه سعی در ساخت "سیستمی‏ توصیه‏گر" با درصد خطای کم و سرعت بالا در تمام شرایط به یکی از پرطرفدارترین حوزه‏های تحقیقاتی دانشگاهی تبدیل شده است. به‏طوری‏که از سال 2010 به بعد تعداد 9250 مقاله و تنها در سال 2011 تعداد 4170، در رابطه ی مستقیم یا غیرمستقیم با این موضوع، در کنفرانس‏ها و مجلات گوناگون سراسر دنیا پذیرفته شده‏اند.
در سیستم‏های توصیه‏گر با مقیاس دنیای واقعی به دلیل خرید مقطعی (مانند وسایل الکترونیکی) و یا به طور کلی کثرت تعداد آیتم‏های موجود جهت پیشنهاد، مشتری‏ها نوعاً درصد کمی از آیتم‏ها را نرخ گذاری می‏کنند. این مشکل را پراکندگی  می‏نامیم. این مشکل زمانی رخ خواهد داد که تعداد نرخ‏ها در مقایسه با تعداد آیتم‏ها کوچک باشد [3]. مساله "شروع آهسته"  نیز مشکل دیگری است که می‏توان آن را نوع خاصی از مشکل پراکندگی به حساب آورد. در ابتدای شروع به کار، سیستم تا مدتی نمی‏تواند پاسخ مناسبی ارائه کند؛ زیرا پایگاه دانش آن از تعداد محدودی نمونه ساخته شده است. این مشکل همچنین در هنگام کار با آیتم جدید و یا کاربر جدید نیز پیش می‏آید. برای بسیاری از مسائل ارائه شده، با گذر زمان و استفاده ی مکرر کاربران، پایگاه دانش با استفاده از اطلاعات کاربران تقویت می‏شود ولی در این فاصله ی زمانی، کارایی سیستم ممکن است از سطح قابل قبولی برخوردار نباشد.
 سیستم‏های توصیه‏گر بر اساس تخمین نرخ (صریح و یا ضمنی [4]) و چگونگی پیشنهادات به چهار دسته تقسیم می‏شوند:

توصیه‏گر براساس محتوا
به کاربری که یک کتاب را در گذشته دیده و یا خریده است، کتب با محتوای مشابه را می‏توان پیشنهاد داد. 
توصیه‏گر همبستگی یا اشتراکی
ایده: اگر کاربران علایق یکسانی در گذشته داشته‏اند -برای نمونه، اگر آنها کتاب یکسانی را دیده‏اند یا خریده‏اند- آنها سلیقه‏های مشابهی‏ در آینده خواهند داشت. 
روش دانش‏محور
استفاده از دانش خارج از سیستم در مواردی که نمی‏توان تنها بر پیشینه ی خریدها تکیه کرد.
توصیه‏گر ترکیبی
ایده ی سیستم‏های توصیه‏گر می‏تواند به کاربرانی که در زمینه‏های جستجو، مرتب سازی، دسته‏بندی، پالایش اطلاعات و به اشتراک‏گذاری کار می‏کنند کمک نماید. بنابراین می‏توان با دسته‏بندی آیتم‏ها (در این تحقیق منظور مقالات است) و سپس توصیه ی آیتم‏های دسته ی مورد علاقه ی کاربر، سیستمی توصیه‏گر طراحی نمود.
یکی از مهم‏ترین قسمت‏های سیستم‏های توصیه‏گر محتوایی و یا ترکیبی، واحد خواندن و پردازش ویژگی‏های آیتم‏ها می‏باشد. در سیستم پیشنهادی نیز ابتدا کلمات کلیدی مقالات با استفاده از تکنیک‏های پردازش زبان، ریشه‏یابی شده و سپس با نگاشت آنها به واحدهای معنایی موجود در شبکه ی واژگان فردوس‏نت ، به مجموعه‏ای از واژگان هم‏معنی تبدیل می‏شوند. سیستم توصیه‏گر پیشنهادی را می توان سیستمی هوشمند و معناگرا نامید؛ بدین دلیل که از تکنولوژی‏های وب معنایی مانند داده‏ها و روابط موجود در ابر داده‏های پیوندی باز (قابل دسترس عموم) جهت بهبود درستی پیشنهادات خود استفاده می‏کند.
وب معنایی وبی است که در آن روابط بین داده‏ها مشخص می‏باشد. یعنی با داشتن یک داده می توان به نمونه های مشابه یا مرتبط با آن داده دسترسی داشت. در واقع وب معنایی، وب داده‏ها و یا شبیه یک پایگاه داده ی جهانی است. اولین قدم تحقق آن، قرار دادن داده‏ها و تعریف روابط بین آنها روی وب در شکلی است که ماشین بتواند به طور طبیعی معانی آن را درک نماید. در واقع می-توان گفت وب معنایی، وبی مستقل و جدا نیست و گسترشی از وب کنونی است که در آن به اطلاعات، معنای ساخت یافته‏ای می‏دهند. عبارت داده ی پیوندی  به تلاش‏هایی برای انتشار و اتصال داده‏های ساخت یافته  بر روی وب اشاره دارد. "وب معنایی" هدف یا نتیجه نهایی است. "پیوند زدن داده‏ها" زمینه را برای تحقق این هدف فراهم می‏کند.
در بخش بعد کارهای مرتبط به اجمال معرفی شده‏اند. در بخش سوم، تکنیک‏های پردازش زبان طبیعی بکار رفته در سیستم توصیه‏گر پیشنهادی معرفی گردیده؛ شِمای کلی سیستم در بخش چهارم آمده است. در بخش پایانی نیز روش ارزیابی سیستم پیشنهادی به تفصیل ذکر گردیده است.
کارهای مرتبط
می‏توان گفت که پیدایش اصطلاح "سیستم‏های توصیه‏گر" تقریبا به اواسط دهه 1990 برمی گردد. در آن زمان، محققان بر روی ساختار‏های نرخ‏گذاری، متمرکز شده بودند. از اواسط دهه 90 تا کنون تعداد زیادی سیستم توصیه‏گر برای کمک به کاربران در رسیدن به اطلاعات مورد علاقه شان پیاده سازی شده اند [5]. سیستم GCBR [6] و سیستم GroupLens [7]، توصیه‏گر مقالات و اخبار یوزنت و Bellcore Video Recommender [8] سیستم پیشنهاد فیلم نیز در ادامه طراحی و پیاده سازی شدند.
سیستم پیشنهاد آهنگ [9] که با استفاده از تعاملات کاربر درون شبکه‏های اجتماعی و دیگر داده‏های انتشار یافته درون حوزه داده‏های پیوندی باز، همچنین با بهره گیری از تکنولوژی وب معنایی، استخراج سه‏تایی‏های RDF از وب سایت‏های آهنگ و پرس‏وجوی معنایی روی آنها، پیشنهادات خود را ارائه می‏دهد، نیز یکی از این سیستم‏ها می‏باشد. شیوه پیشنهاددهی جدید گفته شده در [10] ترجیحات دیگر کاربران در سیستم اشتراکی چندرسانه‏ای را بر اساس دانش کشف شده در شبکه اجتماعی چند بعدی(MSN)، فراهم می‏کند. این سیستم، فعالیت‏های کاربران را در لایه های جداگانه‏ی MSN در نظر می‏گیرد. این روند و وزن-دهی شخصی‏ به هر لایه، توصیه‏ها را شخصی می‏کند. علاوه بر این سیستم‏های عملیاتی، تحقیقاتی نیز در زمینه ی ترکیب سیستم‏های توصیه‏گر و ساخت کاراترین سیستم ممکن توسط Balabanovic، Bruke و Nguyen انجام شده است [11].
برخی کارها به دسته‏بندی برچسب‏ های کاربران در شبکه‏های اجتماعی پرداخته‏اند. سیستم توصیه‏گر اجتماعی معرفی شده در [12] به تقسیم برچسب‏ها به چهار دسته می‏پردازد. این سیستم ابتدا فرض می‏کند که مفهوم برچسب، در پایگاه‏های دانشی مثل  Yago[13] موجود است و سپس آن را به معنی مرتبط نگاشت می‏کند. اگر مفهوم برچسب در هیچ پایگاهی موجود نبود، با استفاده از تکنیک‏های پردازش زبان، جداکردن برچسب‏ها و سپس تشخیص نقش برچسب مانند اسم و فعل و غیره، آن را به یک واحد معنایی‏‏ موجود در پایگاه دانش نگاشت و سپس دسته ی معادل آن واحد را بدست می‏آورد.
تکنیک‏های بکار رفته از پردازش زبان طبیعی
برای بهبود معیار بازیابی (Recall) و درستی (Precision) سیستم، باید کلمات کلیدی متعلق به یک ریشه ی زبانی تشخیص داده شوند و یا به عبارت دیگر، ریشه‏یابی یا ریخت‏شناسی شوند. ریخت‏شناسی بخشی از علم پردازش زبان طبیعی است که به بررسی ساختار کلمات و ریشه‏یابی واژگان می‏پردازد. به عمل بیرون آوردن ریشه اصلی یک واژه، ریشه‏یابی (stemming) گویند. ریشه‏یابی باعث بهبود چشمگیر پیشنهادات سیستم می‏شود. برای مثال، "نتایج" و "نتیجه‏ها" یک معنی دارند؛ اما با مقایسه مستقیم توسط ماشین، دو کلمه متفاوت تشخیص داده می‏شوند. با ریشه‏یابی، هر دو به کلمه ی یکسان "نتیجه" تبدیل خواهند شد و میزان شباهت اسناد دربرگیرنده خود به یکدیگر را بالا خواهند برد. پس بهتر است با تبدیل هر دو کلمه به ریشه‏شان، آنها را دو کلمه یکسان در نظر گرفت.
در ریشه یابی کلمات کلیدی، از یک ریشه یاب معنایی بهره گرفته شده است. بدین صورت که فرهنگ لغتی شامل تمامی لغات فارسی تهیه گردیده و در ریشه یابی لغات، حذف پسوندها به ترتیبی خاص صورت پذیرفته و صحت نتیجه ی جاری از طریق معنادار بودن کلمه و وجود آن در فرهنگ لغت، مورد بررسی قرار می گیرد. لغاتی مانند جمع های مکسر جزو استثنائات محسوب می گردند؛ بنابراین فرهنگ لغتی نیز حاوی جمع های مکسر تهیه شده و ریشه ی این لغات مستقیماً بیان می گردد.
پس از مرحله ی یافتن ریشه ی هر لغت، مرحله ی نگاشت کلمه کلیدی به یک واحد معنایی در شبکه ی واژگان فردوس‏نت می‏باشد. نحوه‏ی کار به این صورت است که شبکه واژگان، لغات را در گروه‏های هم‏خانواده قرار می‏دهد. هر کدام از این گروه‏ها شامل لغاتی است که در یک متن می‏توانند به جای یکدیگر استفاده شوند و بیانگر یک مفهوم خاص هستند که به وسیله مفاهیم معنایی و روابط لغوی به یکدیگر مرتبط می‏شوند که نتیجه این کار شبکه‏ای است متشکل از لغات و مفاهیم که از نظر معنایی با یکدیگر ارتباط دارند. بنابراین می‏توان به جستجو در بین لغات یک شبکه واژگان، هم از نظر املایی و هم از نظر معنایی پرداخت.
سیستم توصیه‏گر پیشنهادی
در هر سیستم توصیه‏گری هدف نهایی، تصمیم به توصیه یا عدم توصیه یک آیتم به یک کاربر می‏باشد. سیستم توصیه‏گر پیشنهادی با بررسی تعدادی مقاله ی جدید ورودی، توصیه یا عدم توصیه آنها به کاربر جاری را تصمیم‏گیری می‏کند. به بیان دقیق‏تر این سیستم با بررسی مقالات خوانده شده توسط کاربر و تشخیص دسته ی آنها که مشخص کننده دسته‏های مورد علاقه کاربر می‏باشد؛ پس از تشخیص دسته ی یک مقاله ی جدید، در مورد پیشنهاد به خواندن این مقاله به کاربر تصمیم می‏گیرد.
یکی از ویژگی‏های اصلی هر مقاله، کلمات کلیدی هستند؛ زیرا آنها موضوع اصلی مقاله را بیان می‏کنند. بنابراین با تشکیل برداری از کلمات کلیدی مقالات و مقایسه ی بردار دو مقاله، می‏توان شباهت موضوعی مقالات را تشخیص داد. برای رسیدن به دقت بالاتر بایستی حوزه معنایی کلمات کلیدی مقاله مشخص شوند. بدون این کار دو کلمه کلیدی هم‏خانواده ظاهراً متفاوت، مانند "سیستم پیشنهادکننده" و "سیستم توصیه‏گر"، غیرمتشابه می‏باشند. برای تشخیص حوزه معنایی یک کلمه باید آن را به واحد معنایی مربوطه‏اش نگاشت داد. برای تحقق این امر، استفاده از ریشه کلمه به جای خود آن، نتایج بسیار مناسب‏تری را به‏همراه خواهد داشت. در سیستم توصیه‏گر پیشنهادی با گرفتن کلمات کلیدی هر مقاله و ریشه‏یابی آنها و سپس نگاشت به واحد معنایی موجود در شبکه واژگان فردوس‏نت، در واقع دسته یک مقاله به طور معنایی مشخص می‏شود. با انجام عملیات گفته شده در فوق، مثلاً دو مقاله "سطوح دسترسی در شبکه‏های Ad-Hoc" و "امنیت در شبکه‏های بی‏سیم" (به‏درستی) در یک دسته قرار خواهند گرفت. اما با بررسی صرفاً خود کلمات کلیدی بصورت خام، تشابه بسیار کمتری برای آنها درنظر گرفته خواهد شد که در نتیجه ی آن، به کاربری که یکی را خوانده، دومی از طرف سیستم (به غلط) توصیه نخواهد شد.
عملکرد سیستم توصیه‏گر پیشنهادی متشکل از دو قسمت است: یادگیری و تست. در بخش یادگیری، تعدادی مقاله به عنوان ورودی به سیستم داده شده و حوزه معنایی و تمام کلمات هم‏خانواده کلمات کلیدی آنها، با ثبت دسته‏ی مقاله، درون پایگاه داده ذخیره می‏شوند.
 در بخش تست نیز ورودی، مقاله ی جدیدی است که سیستم می‏خواهد روی توصیه‏کردن یا نکردن آن به کاربر، تصمیم بگیرد. در این بخش، کلمات کلیدی مقاله ی جاری پس از طی مراحل پردازش زبانی و معنایی گفته شده در بخش یادگیری، با کلمات و عبارات هر دسته که در پایگاه داده ذخیره شده‏اند، مقایسه می‏شوند. در این مقایسه، زاویه بین برداری از کلمات کلیدی مقاله جدید با بردار کلمات کلیدی دسته ی موجود در پایگاه داده، با استفاده از شباهت کسینوسی مطابق با فرمول (1) محاسبه می‏شود. با توجه به این نوع شباهت معنایی، هر چه کسینوس زاویه ی بین دو بردار کمتر باشد، آن دو بردار تطابق بیشتری داشته و در نتیجه شباهت بیشتری دارند. 

پس از مقایسه فوق به ازای هر دسته، دسته ی با بیشترین مقدار شباهت به مقاله ی جدید، به عنوان حوزه ی موضوعی آن، تشخیص داده می‏شود. 
پس اگر دسته ی تشخیص داده شده، جزو دسته‏های مورد علاقه کاربر بود (یعنی دسته‏هایی که کاربر سابقه خواندن چندین مقاله ی آنها را دارد)، این مقاله به او برای خواندن پیشنهاد می‏شود. 
ارزیابی سیستم
در سیستم پیشنهادی، تکنولوژی‏های وب معنایی، مانند داده‏های پیوندی، برای حل مشکل "شروع آهسته" و یا به‏طورکلی "پراکندگی داده"  به‏کار می‏روند. بنابراین مجموعه داده‏ای که پراکندگی بسیاری را در ماتریس نرخ‏گذاری کاربر-آیتم خود داشته باشد، محک خوبی برای ارزیابی این نوع سیستم خواهد بود. از طرف دیگر به دلیل موجود نبودن مجموعه داده‏ای مناسب به زبان فارسی، جهت ارزیابی سیستم‏های توصیه‏گر همراه با داده‏ها و ارتباطات بین کاربری در شبکه‏ای اجتماعی،  تصمیم به مونتاژ کردن سیستم پیشنهادی به زبان انگلیسی و ارزیابی آن در بستری به این زبان گرفته شد. به همین دلیل، مجموعه داده Epinions [14] انتخاب شده است. این مجموعه توسط Paolo Massa در یک خزش  تولید شده است و شامل حدود 132هزار کاربر با تعداد 13,668,319 نرخ روی حدود 1,560,144 مقاله/کتاب می‏باشد. بنابراین پراکندگی داده در جدول نرخ‏های کاربر-آیتم طبق فرمول (2) حدود 0.99993 می‏باشد و چون این عدد نزدیک به یک است، پراکندگی این مجموعه داده، بسیار زیاد می‏باشد.
 
در فرمول فوق نماد R بیانگر مجموعه نرخ‏ها، I مجموعه آیتم‏ها و U مجموعه کاربران می‏باشد. نماد || نیز اندازه مجموعه را بیان می‏کند. به‏عنوان نمونه |R| یعنی تعداد نرخ‏ها.
علاوه بر پراکندگی بسیار داده در این مجموعه، دلیل دیگر انتخاب آن برای ارزیابی، موجود بودن ارتباط بین کاربران می‏باشد. همان‏طور که قبلا نیز توضیح داده شد، در سیستم پیشنهادی از روی روابط بین کاربران و شباهت سلایق آنها به یکدیگر، اقدام به تکمیل پروفایل‏ها می‏شود که با این‏کار حوزه‏های بیشتر مورد علاقه کاربران تشخیص داده می‏شوند. این روابط بین کاربری در یک شبکه اجتماعی و توسط خود کاربران ایجاد شده است. به دلیل موجود بودن ارتباطات بین کاربران، مجموعه Epinions  یک شبکه اجتماعی نیز می‏باشد و با استفاده از آن می‏توان تاثیر تکمیل پروفایل کاربران را از روی کاربران مشابه مرتبط با آنها در افزایش صحت پیشنهادات سیستم مشاهده کرد.
کاربران در این شبکه اجتماعی با بازدید نرخ‏ها و توضیحات دیگر کاربران روی آیتم‏هایی که خودشان قبلاً بازبینی کرده‏اند، اقدام به برقراری ارتباط اعتماد از خود به کاربران مشابه خود می‏کنند. به عنوان نمونه فرض کنید که کاربر A پس از خواندن کتابی به آن نرخ 5 (بالاترین میزان علاقه) را می‏دهد. این کاربر وقتی با مشاهده نظرات و نرخ کاربر B متوجه می‏شود که او نیز به همان کتاب یا چندین کتاب مشابه دیگر ابراز علاقه بالا کرده‏ است، به آن کاربر اعتماد کرده و سعی می‏کند سایر کتبی که کاربر B به آنها علاقه دارد را نیز بخواند. در واقع کاربر A کاربر B را در نظرات و علاقه‏ها و روحیات شبیه خودش تشخیص می‏دهد. بنابراین از اعتماد کاربر A به کاربر B می‏توان در جهت تکمیل پروفایل A و تشخیص بیشتر علاقه‏های وی استفاده کرد. در این مجموعه، 841,372 ارتباط بین کاربری (717,667 اعتماد و 123,705 عدم اعتماد) وجود دارد که حدود 85 هزار کاربر این اعتماد/عدم‏اعتماد را دریافت کرده‏اند؛ که به ازای هر یک می‏توان به تکمیل خودکار پروفایل وی از روی علاقه‏های کاربران مورد اعتماد او اقدام کرد و در نتیجه، کتابهایی را (بدرستی) به وی توصیه کرد که مشابه کتب خوانده شده او نباشند اما مورد علاقه ی کاربران مورد اعتماد وی باشند. پس می‏توان گفت که با استفاده از تکنولوژی شبکه‏های اجتماعی و ارتباط بین کاربران، میزان معیار Recall (فرمول 6) بالاتر خواهد رفت و سیستم توصیه‏گر دقیق‏تری را خواهیم داشت. در زیر معیارهایی برای ارزیابی "صحت پیش‏بینی‏ها"ی سیستم در مورد آیتم‏های مورد علاقه کاربران و "صحت دسته‏بندی" آیتم‏ها (به دو دسته آیتم‏های مورد توصیه و عدم توصیه به کاربر) توسط سیستم، بیان خواهند شد.
 
صحت پیش‏بینی‏ها
هنگام ارزیابی توانایی یک سیستم جهت پیش‏بینی علاقه یک کاربر به آیتمی خاص، خطای مطلق میانگین  (فرمول 3) [15] به طور حتم مشهورترین معیار است. در این فرمول، rec(u,i) نرخ پیش‏بینی شده‏ی کاربر u به آیتم i می‏باشد. Testsetu نیز مجموعه آیتم‏های مورد بررسی برای توصیه به کاربر u می‏باشد.

MAE انحراف میانگین بین امتیازهای پیشنهادی محاسبه شده و مقدار نرخ‏های واقعی را محاسبه می‏کند. اما در ارزیابی سیستم پیشنهادی، از این معیار به‏دلیل ضعف‏های آن استفاده نشده است. یکی از مشکلات معیار MAE اینست که همه‏ی خطاها را در حدس نرخ‏ها یکسان وزن‏دهی می‏کند. برای مثال، فرض کنید که مجموعه داده‏ای شامل 100 کاربر است که یکی از آنها 297 نرخ (کاربر سنگین ) و بقیه هرکدام 3 نرخ (کاربران شروع سرد ) داده‏اند. واضح است که روش CF برای "کاربر سنگین" خوب عمل کرده و برای کاربران شروع آهسته ضعیف عمل می‏کند. اما معیار MAE مقدار خطای بالایی را گزارش می‏دهد که این مقدار بالا برای کاربر سنگین اشتباه خواهد بود. در مجموعه داده‏ی Epinions نیز حدود 53 درصد از کاربران کمتر از 5 آیتم را بازبینی و نرخ‏گذاری کرده‏اند. به همین جهت برای ارزیابی صحیح تر، معیار "خطای مطلق میانگین کاربر"  (فرمول 4) [16] انتخاب گردیده است. در این معیار، خطای MAE جداگانه برای هر کاربر محاسبه و سپس میانگین بدست می‏آید. 

صحت دسته‏بندی‏ها
هدف دسته‏بندی آیتم‏ها (به دو دسته‏ی آیتم‏هایی که باید توصیه شوند و آنهایی که نباید ‏توصیه شوند) در مفاهیم توصیه محصولات، تعیین n عدد از مربوط‏ترین آیتم‏ها برای یک کاربر می‏باشد. Precision و Recall دو معیار از شناخته شده‏ترین معیارهای دسته‏بندی می‏باشند؛ البته عموماً برای اندازه‏گیری کیفیت اعمال استخراج اطلاعات استفاده می‏شوند. Precision (فرمول 5 ) بیان می‏کند که از مجموعه پیشنهادات، چند درصد درست هستند و Recall (فرمول 6) نیز بیان می‏کند که چند درصد از آیتم‏های مورد علاقه کاربر به او پیشنهاد شده‏اند. در این دو فرمول، منظور از TrustSet مجموعه‏ای از آیتم‏هاست که باید به کاربر پیشنهاد داده شوند و RecognizedSet نیز مجموعه آیتم‏هایی است که توسط سیستم به کاربر توصیه شده است.  
به علت موازی عمل کردن این معیارها، برای جمع آنها باید میانگین هارمونیکی‏شان (فرمول 7) گرفته شود.

نتیجه‏گیری
استفاده از تکنیک‏های پردازش زبان فارسی باعث بهبود چشم‏گیری در صحت پیشنهادات ارائه شده ی سیستم می‏شود. زیرا به عنوان مثال بکارگیری تکنیک ریشه‏یابی و استفاده از ریشه یک کلمه کلیدی به جای خود آن مقدار شباهت محتوای یک مقاله به علاقه‏های پیشین یک کاربر را افزایش می‏دهد.
علاوه بر این سیستم ما از داده‏های پیوندی موجود در دنیای وب معنایی مانند متن و برچسب‏های کاربران موجود در سایت Amazon و یا توضیح کتب در DBPedia که نسخه معنایی WikiPedia می‏باشد، استفاده می‏کند. استفاده از آنها، باعث گسترش پروفایل و حوزه علاقه‏های کاربر می‏شود. برای نمونه فرض کنید که موضوع "فلسفه" جزو علاقه‏های پیشین یک کاربر ثبت شده است. در داده‏های پیوندی نیز بین دو کلمه "فلسفه" و "صدرالمتاهلین" ارتباطی جزء به کل وجود دارد که این باعث اضافه شدن "صدرالمتاهلین" به لیست علاقه‏های کاربر می‏شود. در نتیجه این بهبود باعث پیشنهاد کتب ارزشمند نوشته "صدرالمتاهلین" به وی خواهد شد.
مشکل سیستم پیشنهادی شاید زمان طولانی ارایه ی یک پیشنهاد به کاربر باشد. این مدت زمان زیاد به خاطر استفاده از دانش موجود در خارج سیستم می‏باشد. این دانش خارجی باید از طریق سرویس‏های اینترنت و پرس‏وجو از SparQL Endpoint هایی که حاوی داده‏های پیوندی مورد نیاز سیستم می‏باشند، بدست آید. در کارهای آتی می‏توان با اضافه نمودن امکان ذخیره داده‏های مورد نیاز، در هنگامی که کاربر از سیستم استفاده نمی‏کند و سپس پردازش آفلاین با سرعت زیاد در هنگام توصیه به کاربر، این زمان را به حداقل رساند.
ضمایم
معیار F_Measure که با نام F_1 نیز بکار برده می‏شود، میانگین هارمونیکی دو معیار Precision و Recall می‏باشد (به طور کلی سه نوع میانگین حسابی، هندسی و هارمونیکی وجود دارد.). این نوع میانگین برای اعضای متقابل، مانند بدست آوردن سرعت متوسط در یک حدفاصل معین می‏باشد. فرمول کلی این میانگین در (8) بیان شده است. n تعداد معیارها و xi نیز مقدار هر معیار می‏باشد.
برای همه نوع داده، از بین سه میانگین بیان شده در فوق، میانگین هارمونیکی، حداقل مقدار و میانگین معمول حسابی، بیشترین مقدار را دارند.

Comments (0) Posted to ارزیابی سیستم های توصه گر 03/19/2013 Edit

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به پايه بودن جمله در بسياري از پردازش هاي زباني، خروجي دقيق اين ابزار از درجه ي اهميت بالايي برخوردار است. از نمونه هاي انگليسي آن مي توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.
Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و  tab و ... . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.
Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و ... . براي تشخيص اينکه يک کلمه اسم است، راه هاي مختلفي وجود دارد که از جمله ي آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ريشه ي کلمه، استفاده از قواعد نحوي ساخت واژه و ... مي باشد. در اين ابزار پس از تشخيص اسم ها با استفاده يک لغتنامه از اسامي افراد، مکان ها، مقادير عددي و ... نوع اسم تشخيص داده مي شود. به نظر مي رسد که اين لغتنامه در فارسي موجود نمي باشد.
از جمله نمونه هاي انگليسي اين ابزار مي توان به Stanford NER و Illinois NER اشاره کرد.
Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي. ارتباطات معنايي در داخل اين مجموعه شامل 16  رابطه  مي باشد. اين مجموعه به عنوان يک مرجع در بسياري از پردازش هاي زباني مورد استفاده قرار مي گيرد. ار نمونه هاي انگليسي آن مي توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمايشگاه فناوري وب دانشگاه فردوسي مشهد نيز يک نمونه از اين مجموعه با نام فردوس نت را توليد کرده است.
Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و ...). معمولاً ريشه يابي لغات بر اساس قواعد ساخت واژه اي و سپس حذف پسوندها مي باشد. تاکنون روش مؤثري براي حذف پيشوندها ارائه نشده است. در تلاشي که در آزمايشگاه فناوري وب انجام شده است، سعي شده تا بر اساس آناليزهاي آماري و داده کاوي پسوندها حذف گردند، که اين روش هم مي تواند راهي براي تشخيص ريشه باشد.
معروفترين الگوريتم ريشه يابي در انگليسي porter مي باشد.
Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و... . در اين ابزار پس از تشخيص نوع کلمات به کار رفته در يک جمله و سپس بر اساس جايگاه آن کلمات در جمله، کلماتي که در جايگاه هاي يکسان قرار دارند، مورد مقايسه قرار مي گيرند. از نمونه هاي انگليسي آن مي توان به Illinois NESim و Illinois WNSim اشاره نمود.
Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و .... در يک جمله. جهت تقويت الگوريتم هاي وابسته به SRL لازم است نه تنها نقش هاي کلمات مشخص گردند، بلکه بايد وابستگي هاي کلمات به لحاظ نقشي در جمله مشخص گردند. از جمله نمونه هاي انگليسي آن مي توان به Illinois Chunker  اشاره کرد.
Semantic role labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله. اين ابزار يکي از مهمترين نقش ها را در پردازش هاي زباني بر عهده دارد. دقت در اين ابزار بسيار حائز اهميت است. اين ابزار بايد نقش هاي گرامري کلمات در جمله ها مانند فعل، فاعل، مفعول مستقيم، مفعول غير مستقيم و .... را تشخيص دهد. از جمله نمونه هاي انگليسي آن مي توان به OpenNlP، Illinois SRL،  Swirl و LTHSRL  اشاره کرد. اين ابزارها از الگوريتم پارسينگ charniak استفاده مي کنند.
Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده. از ابزارهاي موجود در انگليسي مي توان به Illinois Curator و Stanford Annotator اشاره کرد.
Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات. اين ابزار در زبان انگليسي معادل ابزاري است که مرجع ضمير را که به صورت اسم در جمله هاي قبلي آمده است، مشخص مي کند. استفاده از ضماير به جاي اسامي در زبان انگليسي بسير رايج مي باشد. اما در زبان فارسي اين امر چندان رايج نيست. اما در زبان فارسي عنوان يک مفهوم اسمي با اصطلاحات مختلف بسيار رايج مي باشد. عملاً ما به دنبال ابزاري هستيم که مرجع خاص يک سري از عنوان ها ي مختلف اسمي را مشخص کند. از نمونه هاي انگليسي اين ابزار مي توان به Illinois Coreference package  اشاره کرد.
Pos tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و ... . يکي از روش هاي کاري براي ايجاد اين ابزار، ايجاد يک rule base که معمولاً به صورت دستي تشکليل مي شود، براي تشخيص نوع کلمه است. از نونه هاي فارسي آن مي توان به ابزار آزمايشگاه آقاي دکتر بيجن خان، و ابزار آزمايشگاه فناوري وب دانشگاه فردوسي مشهد اشاره کرد. از نمونه هاي انگليسي آن مي توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

Comments (3) Posted to پردازش متن 03/15/2013 Edit

سامانه خلاصه ساز ایجاز

سامانه خلاصه ساز تک سندی و چند سندی متون خبری فارسی تحت عنوان "ایجاز" به صورت برخط قابل استفاده می باشد.
 sum
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی و بهره گیری از ابزارهایی نظیر خلاصه‌سازهای خودکار و مترجم های ماشینی بیش از پیش احساس می شود. خلاصه‌سازی خودکار متن به عنوان هسته‌ی
مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن مانند سیستم‌های تصمیم‌یار، سیستم‌های پاسخ گو، موتورهای جستجو و غیره از سال‌ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.
در پیاده سازی این سامانه، سعی شده است تا از تجربیات مجموعه کارهای مشابه داخلی و خارجی استفاده شود و با ارائه ی پارامترهای جدید، بر دقت خلاصه‌ساز به میزان قابل توجهی افزوده گردد. همچنین برای اولین بار با بهره گیری از یک پیکره بزرگ خلاصه سازی و همچنین با استفاده از ابزار ارزیابی استاندارد، روش ارائه شده با سایر روش های موجود برای متون فارسی به صورت استاندارد مقایسه و ارزیابی شده است. نتایج حاصل از این ارزیابی ها قابل توجه می باشد.
 
برای مشاهده سامانه اینجا کلیک نمایید. 

Comments (2) Posted to ابزار ارزیابی خلاصه ها 02/15/2013 Edit

بروشور جزئیات کارگاه سالانه آزمایشگاه فناوری وب 1391


چهارمین کارگاه سالانه آزمایشگاه فناوری وب دانشگاه فردوسی مشهد در تاریخ 14 بهمن لغایت 17 بهمن برگزار می گردد. به شرکت‌کنندگان در کارگاه‌ها، گواهي حضور از طرف آزمايشگاه تخصصي فناوري وب دانشگاه فردوسي اعطا مي‌شود.

   

 

 

ثبت نام

زمان ثبت نام پیش از موعد 22 دی 1391 می‌باشد.

تاریخ برگزاری کارگاه‌ها: شنبه 14 بهمن الی سه‌شنبه 17 بهمن 

ساعت برگزاری کارگاه‌ها: حضوری از 8 الی 12  و مجازی 14 الی 18

 

عنوان کارگاه

موضوعات

ارائه دهندگان

تاریخ

وب معنایی

مقدمه و آشنایی، زبان‌های وب معنایی (XML، RDF و OWL)

برنامه نویسی وب معنایی (Jena)، ساخت آنتولوژی (Protege)

بهشيد بهكمال

(دانشجوی دکترای نرم‌افزار)

 

صمد پایدار

(دانشجوی دکترای نرم‌افزار)

14/11/91

پردازش زبان طبیعی

مفاهیم بازیابی اطلاعات (IR)

ابزارهای پردازش زبان طبیعی

 

خلاصه‌سازی

 

ترجمه ماشینی

محسن کامیار

(دانشجوی دکترای نرم‌افزار)

احمد استیری

(دانشجوی ارشد نرم‌افزار)

آصف پورمعصومی

(دانشجوی دکترای نرم‌افزار)

 احمد جکیان طوسی

(کارشناس ارشد هوش)

15/11/91

معماری موتورهای جستجو

مقدمه و معماری کلی

 

خزنده‌ها

 

شاخص‌گذاری

 

رتبه بندی

محسن کامیار

(دانشجوی دکترای نرم‌افزار)

ریحانه امامدادی

(دانشجوی ارشد نرم‌افزار)

فاطمه عبیری

(دانشجوی ارشد نرم‌افزار)

اعظم فیض‌نیا

(دانشجوی ارشد نرم‌افزار)

16/11/91

Hbase و Hadoop

آشنایی و راه‌اندازی

فتانه زرین‌کلام

(کارشناس ارشد نرم افزار)

آرش شاهکار

(دانشجوی ارشد برق)

محبوبه دادخواه

(دانشجوی دکترای نرم‌افزار)

17/11/91

 برای اطلاع از جزییات بیشتر در مورد مطالب کارگاه بروشور زیر را دانلود نمایید.

صفحه 1

صفحه 2

هزینه ثبت نام برای هر کارگاه

شرایط

مبلغ

دانشجویی پیش از موعد با شرکت آنلاین

20000 تومان

دانشجویی پیش از موعد با شرکت حضوری

30000 تومان -برای دانشجویان دانشگاه فردوسی 20000

عادی پیش از موعد با شرکت آنلاین

40000 تومان

عادی پیش از موعد با شرکت حضوری

60000 تومان

 زمان ثبت نام پیش از موعد 22 دی 1391 می‌باشد و به مبلغ ثبت نام‌های پس ا ز این تاریخ 10000 تومان افزوده خواهد شد.

شماره  حساب: 425054937 بانک تجارت شعبه دانشگاه فردوسي - بنام آقای دکتر حمیدرضا پوررضا

ثبت نام 

 

برای مشاهده جزئیات بیشتر اینجا را کلیک نمایید. 

 

Comments (3) Posted to مطالب علمی 01/20/2013 Edit

پایان فاز اول پروژه قرآنی

بسم الله الرحمن الرحیم
امام علی (ع) می فرماید: "قرآن را زمانه تفسیر می‌کند."

در برداشت از چنین روایاتی است که علامه طباطبایی هر دهه را نیازمند تفسیری جدید از قرآن دانسته اند و بدیهی است این مهم مستلزم بهره مندی از فناوری‌های معاصر است. با این نگرش و در پیروی از امر امام راحل (ره) به تلاش در تنقیب قرآن، "شبکه پژوهشی قرآن­ کاوی"
(Quran Mining Research Network) در دهه اخیر شکل یافته است تا با بهره گیری از فناوری‌های متن کاوی (Text Mining) ابزار پیشرفته هوش مصنوعی رایانه را در خدمت اکتشاف اطلاعات پنهان متن قرآن قرار ­دهد. محققین این شبکه تلاش دارند نه تنها بحث‌های حل نشده و شبهه‌های ایجاد شده برای قرآن را مرتفع سازند بلکه جنبه‌هایی ناشناخته از این اصلی ترین منبع هدایت به بشریت عرضه کنند.
در همین راستا طراحي و پياده‌سازي پيكره متني قرآن كريم در قالب RDF و به شكل محتواي الكترونيكي، حاوي اطلاعات صرفي و نحوي، امكان استفاده و كاوش را براي هر گونه پژوهش و پردازش هوشمند ايجاد خواهد کرد.
تبيين اعجاز زباني قرآن كريم، در دستيابي به لايه‌هاي نامشهود زباني اين متن الهي می‌باشد.
بدین ترتیب پس از فراهم شدن بستر مناسب جهت متن کاوی روی قرآن کریم می‌توان با طراحی و بهره گیری از ابزارهای متن کاوی به اکتشاف کلامی و معنایی متن قرآن کریم پرداخت.
 
بحمد الله با صرف بیش از 6 ماه تلاش برای تهیه زیر ساخت وب معنایی برای قرآن کریم بالاخره به لطف ایزد باریتعالی و عنایات حضرتش، تلاش ها به بار نشست و فاز اول پروژه به پایان رسید و کلیه داده ها و اطلاعات موجود برای استفاده پژوهشگران و محققان بر روی وب قرار گرفت.
http://wtlab.um.ac.ir/linkdata/quran.html 
امید است که این تلاش های هر چند ناچیز مورد رضایت حق تعالی قرار گیرد.
از کلیه علاقه مندان به پژوهش های قرآنی، متن کاوی و داده کاوی در قرآن کریم و سایر کتب مقدسه و حوزه های مرتبط جهت ادامه پروژه دعوت به همکاری میشود.
علاقه مندان می توانند تمایل خود برای همکاری در ادامه پروژه و همچنین نظرات، پیشنهادات و انتقادات خود را با این حقیر در میان بگذارند.
 
احمد استیری
09151702634
 ahmad.estiry66@gmail.com
 

با سپاس فراوان
 
 

Comments (1) Posted to پروژه قرآنی 12/04/2012 Edit

ابزارهای مورد نیاز برای پردازش متن


در این پایان­نامه تلاش شده است تا در گام اول بسیاری از ابزارهای پایه­ای پردازش زبان فارسی که با دقت بالا موجود نبودند، از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان فارسی طراحی و پیاده­سازی گردد. از جمله­ی این ابزارها می­توان ابزار نرمال­ساز یا یکسان­ساز، ابزار تشخیص دهنده جملات، ابزار تشخیص دهنده لغات، ابزار ریشه­یاب، ابزار پاسر، ابزار برچسب­زن اجزای واژگانی کلام و غیره را نام برد.

·      نرمال­ساز (Normalizer): در ابتدا بايستي همه‌ي نويسه‌هاي (کاراکترهاي) متن با جايگزيني با معادل استاندارد آن يکسان‌سازي گردند.

·      جداکننده کلمات (Tokenizer): با کمک این پردازشگر می­توان کلمات متن را استخراج نمود.

·      حذف کننده کلمات ایست (Stopword Remover): با استفاده از این ابزار می­توان کلمات ایست را حذف نمود.

·      جدا کننده جملات (Sentence Splitter): با کمک این پردازشگر می­توان جملات را از متن استخراج کرد.

·      ریشه یاب (Stemmer) : وظیفه ریشه­یابی کلمات را برعهده دارد.

·      برچسب زننده اجزای واژگانی کلام (POS): از این پردازشگر برای برچسب­زنی اجزای واژگانی کلام استفاده می­شود.

·      پارسر (Parser) : از این پردازشگر برای تجزیه نحوی جملات استفاده می­شود.

در روند هرگونه پردازش روي متن­هاي زبان طبيعي انجام يک سري پيش­پردازش امري اجتناب ناپذیر است. علاوه بر آن، دقت اين پيش­پردازش­ها تاثير بسزايي در فازهاي بعدي نتايج اعمال الگوريتم­ها دارد. هرچقدر که دقت پيش­پردازش بيشتر باشد الگوريتم­ها به نتايج واقعي خود نزديک­تر خواهند شد.

پردازش زبان فارسی از جهاتی با پردازش زبان انگلیسی تفاوت دارد. در زبان انگلیسی تمامی حروف و تمامی کلمات جدا از هم و با قانونی مشخص نوشته می­شوند و این در حالی است که در زبان فارسی بعضی از حروف به هم چسبیده‌اند، بعضی از حروف جدا از هم نوشته می­شوند، بعضی از کلمات یکپارچه­اند، بعضی از کلمات با فاصله یا نیم­فاصله به دو یا چند بخش تقسیم می­شوند. علاوه براین بعضی از حروف مانند "ی" در بعضی از نوشته­ها با نسخه عربی مانند "ی عربی" نوشته می‌شوند که مشکلاتی را در مقایسه کلمات بوجود می­آورد.

Comments (3) Posted to ابزار ارزیابی خلاصه ها 09/23/2012 Edit

ارزیابی خلاصه سازهای ماشینی


با توجه به روشن شدن اهمیت بسیار زیاد خلاصه­سازها، موضوع مهمی که به عنوان یک مشکل در این زمینه، مطرح است؛ آنست که پس از تولید خلاصه چه طور کیفیت آنها را ارزیابی کنیم.

ارزيابي خلاصه­ها و سيستم­هاي خودکار خلاصه­سازي متن، فرايندهاي مشخص و واضحي نيستند. بطورکلي حداقل دو خصوصيت از خلاصه وجود دارد که در هنگام ارزيابي و همچنين در سيستم­هاي خلاصه­سازي، بايد مورد سنجش قرار گيرند[Hov97]: نرخ فشرده­سازي (ميزان کوتاه بودن خلاصه نسبت به متن اصلي) و نرخ حفظ (ميزان اطلاعاتي که حفظ مي­شوند).

يک مرحله­ي تعيين­کننده در هر سيستم، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است. سيستم­هاي پردازش زبان طبيعي نيز از اين قاعده، مستثني نيستند. بلکه با توجه به بي­قاعدگي­هاي زبان انساني، در ارزیابی ابزارهای مرتبط با زبان طبیعی با مشکلات بیشتری مواجه خواهیم بود و اثبات منطقي اين پيکره­ي بي­قاعده، يک ريسک است. يک رويه­ی متداول براي برقراري ارتباط با اين حقيقت، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده، به صورت زيرمجموعه­اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي­شود. در نتيجه نمود رويه­اي خاص، مي­تواند در قالب يک آزمايش، اعتبارسنجي شود.

امروزه اکثر سيستم هاي خودکار خلاصه­سازي متن، مبتني بر استخراج هستند. گرچه کارهايي براي پس- ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصه­ها چه از نظر کلمات بکار رفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصه­ها در مقايسه با يک خلاصه مرجع ثابت و تغيير ناپذير، رضايت­بخش نيست. همچنين با توجه به اينکه نرخ­هاي فشردگي مختلف براي انواع مختلفي از متون مناسب است، روش­هاي ارزيابي که امکان ارزيابي براي نرخ­هاي مختلف مي دهند را بايد مورد توجه قرار داد.

روش­هاي ارزيابي خودکار عموما با مشابهت­هاي محتوا بين خلاصه­ها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روش­ها که در ادامه توضيح داده مي­شود، بايد براي پوشش هرچه بيشتر اين جنبه­ها (قابليت مقايسه نتايج با سيستم­هاي ديگر، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روش­هاي خلاصه­سازي متفاوت) بکارگرفته شود.

واضح است که به منظور اطمينان از پاسخ­دهي نتايج و انجام يک مقايسه­ي قابل اطمينان در ميان سيستم­هاي خلاصه­سازي، چند نوع محيط استاندارد شده براي ارزيابي اين نتايج شديدا مورد نياز مي­باشد. دو رهيافت عمده در ارزيابي سيستم‌هاي خلاصه‌سازي وجود دارد: قضاوت انساني و مقايسه با خلاصه‌ي مرجع.

به منظور ارزيابي خلاصه‌اي که يک ماشين از يک متن توليد مي‌کند، مي‌توان آن خلاصه را با خلاصه­هاي توليد شده توسط انسان­ها مقايسه کرد. از آنجايي که در خلاصه­هاي انساني ممکن است هر شخص با توجه به نظرات شخصي خود، بخشي از متن را مهم­تر تشخيص دهد، پس ميان خلاصه‌هاي انساني نيز ممکن است تفاوت‌هايي باشد. براي اعمال اين موضوع، هر خلاصه­ي ماشيني با چند خلاصه انساني متفاوت از همان متن مقايسه مي­گردد و نتيجه­ي نهايي، مي­تواند ميانگين نتايج حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني و يا بيشينه­ي امتياز حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني باشد.

Comments (0) Posted to ابزار ارزیابی خلاصه ها 09/13/2012 Edit

خلاصه سازی متن ؟؟؟


امروزه با رشد چشمگير حجم مستندات منتشر شده در وب و نياز اساسي به نگهداري، دسته­بندي، بازيابي و پردازش ماشيني و سريع آنها توجه به پردازش زبان طبيعي و بهره­گيري از ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني، بيش از پيش خودنمايي مي­کند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان به دنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. خلاصه‌سازی خودکار متن به عنوان هسته‌ی مرکزی طیف گسترده‌ای از ابزارهای پردازشگر متن از سال‌ها پیش همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.

 خلاصه‌سازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه رايانه‌اي به نحوي که ويژگي‌ها و نکات اصلي سند اوليه حفظ شود[MAN99]. بنابر تعريف ارائه شده در استاندارد ISO215، خلاصه "يک بازگويي مختصر از سند" مي­باشد. خلاصه­سازی از دیدگاه­های مختلف دارای تقسیم­بندی­های متفاوتی می­باشند. از یک دیدگاه به دو دسته خلاصه گزینشی و چکیده­ای تقسیم می­شوند. در خلاصه­های گزینشی، متن خلاصه از کنار هم قرار گرفتن کلمات و جملات انتخابی متن مرجع بوجود می­آید؛ درحالیکه در خلاصه­های چکیده­ای، لغات تغییر می­یابند و جملات خلاصه می­توانند بازتولید گردند. دسته­بندی­های دیگری هم برای روش­های خلاصه­سازی وجود دارد که در قسمت­های بعدی به آنها پرداخته شده است.

 خلاصه­سازي خودکار توسط رایانه انجام مي­شود و به همين دليل تفاوت­هاي زيادي با خلاصه­اي که توسط انسان توليد مي­شود دارد. انسان­ها با توجه به هوش و شعور ذاتي خود قادر به درک و فهم مفاهيم موجود در متن و ارتباط بين آنها مي­باشند و اين در حالي است که انجام اين عمليات توسط ماشين کار بسيار دشوار و پيچيده­اي مي­باشد.

 هدف نهایی سیستم­های خلاصه­سازی تولید خلاصه­هایی با کیفیت نزدیک به خلاصه­های انسانی می­باشد. اما برای رسیدن به این مهم چالش­های زیادی پیش رو وجود دارد. مهم­ترین مشکل در گام نخست انتخاب مناسب­ترین جملات متن اصلی می­باشد به نحوی که مطالب مهم و اصلی متن را پوشش داده، از پیوستگی و خوانایی بالایی برخوردار بوده، دارای ساختار گرامری مناسبی باشد و در عین حال فاقد افزونگی و جملات تکراری یا شبیه به هم باشد.

Comments (0) Posted to ابزار ارزیابی خلاصه ها 09/04/2012 Edit

گزارش‌های جدید از ارزیابی خودکار خلاصه‌سازهای ماشینی فارسی

 

امروزه ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني، توجه زيادي را به خود جلب نموده‌اند و فعاليت‌هاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. در زبان فارسي هم نظير ديگر زبان‌ها تلاش‌هايی در اين زمينه صورت گرفته است. از اين رو ارزيابي چنين ابزارهايي از اهميت ويژه‌اي برخوردار است. در اين پایان­نامه، ابزاري به منظور ارزيابي سيستم­هاي خلاصه­سازي خودکار ارائه شده است که البته قابليت استفاده در ديگر کاربردهاي پردازش زبان طبيعي و بازيابي اطلاعات را نيز دارد. اين ابزار شامل معيارهايي براي تعيين کيفيت خلاصه­ها به صورت خودکار، از طريق مقايسه آنها با خلاصه­هاي توليد شده توسط انسان (خلاصه­هاي ايده­آل) مي­باشد. اين معيارها تعداد واحدهايي که بين خلاصه­هاي سيستمي و خلاصه­هاي انساني هم­پوشاني دارند نظير n تايي­ها، رشته­ي کلمات و جفت کلمات را محاسبه مي­نمايند. بدیهی است برای انجام مقایسه­ی متون در سطح معنا در مورد خلاصه­های چکیده­ای، مقایسه­ی ظاهر لغات کافی نمی­باشد و بهره­گیری از شبکه­ی واژگان، ضروری به نظر می­رسد که با ایده­ای مناسب برای زبان فارسی به کار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است.

ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکره­ای عظیم و تست ابزار بر روی اسناد این پیکره می­باشد. پیکره­ای مناسب شامل 100 متن خبری و 1000 خلاصه در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان خلاصه­یار تولید شد که 500 عدد چکیده­ای و 500 عدد استخراجی می‌باشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.
 
از این پس گزارشات مربوط به پیشرفت کار به مرور زمان در وبلاگ قرار خواهد گرفت.
 
 

Comments (0) Posted to ابزار ارزیابی خلاصه ها 08/30/2012 Edit

مهندسی نرم افزار 1


بسم الله الرحمن الرحیم
در این بخش گزیده ای از مطالب و موضوعاتی که در طول دوره کارشناسی و کارشناسی ارشد، بر روی آنها کار کرده ام و همینک فایل کامل آنها موجود می باشد، ارائه می گردد. در صورت نیاز به فایل کامل هر کدام از موضوعات و بخش های ارائه شده یا نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ، لطفا با ایمیل UniversityDataInfo{@}yahoo.com مکاتبه نمایید. فایل ها در قالب فایل ورد، پی دی اف، پاورپوئینت و ... می باشند.
امید که مطالب موجود برای خوانندگان گرامی، مفید واقع گردد.
مطالب درج شده برای هر فایل، اطلاعات مربوط به فایل شامل ردیف، موضوع، قالب فایل، عنوان فایل، کلمات کلیدی و بخشی از متن فایل جهت نمایش می باشد.
-----------------------------------------------
 
90
مهندسی نرم افزار 1
پروژه
پروژه درس مهندسی نرم افزار 1 - سیستم مدیریت اطلاعات  بیمارستان قائم (عج) Hospital Information System - (HIS)
دانلود رایگان پروژه درس مهندسی نرم افزار 1 ، پروژه درس مهندسی نرم افزار 1 - سیستم مدیریت اطلاعات  بیمارستان قائم (عج) Hospital Information System - (HIS) ، فصل اول : HIS چیست ؟ ، فصل دوم : ضرورت استفاده از نرم افزارHIS ، فصل سوم : روند کلی کار در HIS ، فصل چهارم : معرفی بیمارستان قائم (عج) ، فصل پنجم : تشریح مراحل طراحی و تولید نرم افزار سیستم آزمایشگاه ، فصل ششم : تحلیل و بررسی سیستم فعلی ، فصل هفتم : پیشنهادات مطرحی برای بهبود سیستم ، دانلود ، DFD، مستندات ، کد ، الگوریتم، ...
موجود
HIS   چیست؟  در تعریف عبارت اختصاری HIS با دو تعبیر مواجه می‌شویم .  برخی آنرا مخفف Health  Information System  می‌دانند که به معـنای "سیستم اطلاعات سلامت" است و برخی دیگـر آن را Hospital Information System  که به معنـای "سیستم اطلاعات بیمارستانی" است می‌دانند.  در عصر حاضر اکثر علوم، وابستگی خود را به IT احساس می‌کنند. علم پزشکی نیز از این قانون مستثنی نیست.  این دو رشته کاملا از یکدیگر جدا هستند و باید به گونه‌ای آنها را به یکدیگر پیوند داد. مدیریت تکنولوژی به عنوان یک علم میان رشته‌ای نقش پیوند دهنده را ایفا می‌کند. در مقاله حاضر تلاش بر این است که ابتدا با ادبیات تله مدیسین و HIS آشنا شویم و سپس به کاربردها و مشکلات بر سر راه این دانش بپردازیم.درنهایت تحقیقی در راستای آسیب شناسی انتقال این دانش انجام گرفته است که امیدوارم گام مناسبی برای ادامه دهندگان راه باشد.  در تعریف عبارت اختصاری HIS با دو تعبیر مواجه می‌شویم .برخی آنرا مخفف Health Information System  می‌دانند که به معـنای "سیستم اطلاعات سلامت" است و برخی دیگـر آن را Hospital Information System که به معنـای "سیستم اطلاعات بیمارستانی" است می‌دانند. حال اگـر بخواهیم تعریفی جامع‌تر را در نظر بگیریم همان تعبیر اول پذیرفنتی است. 
-----------------------------------------------------
91
مهندسی نرم افزار 1
نمونه سوال
نمونه سوالات امتحانی میان ترم و پایان ترم درس مهندسی نرم افزار 1
دانلود رایگان نمونه سوالات مهندسی نرم افزار، دانشگاه فردوسی مشهد، میان ترم، پایان ترم، نمونه سوالات امتحانی میان ترم و پایان ترم درس مهندسی نرم افزار 1


-----------------------------------------------------
92
مهندسی نرم افزار 1
پروژه
"پروژه درس مهندسی نرم افزار 1 -تحلیل سیستم کتابخانه جوادالائمه"
"دانلود رایگان پروژه درس مهندسی نرم افزار 1 ، پروژه درس مهندسی نرم افزار 1 -،فصل اول : تعریف مساله ، کتابدار و علم کتابداری ، انواع کتابخانه ها ، بخش های مختلف یک کتابخانه و عملکردهای آن ، طبقه بندی ساختار حرفه اطلاع رسانی ، حکم کتبی از اهداف وبرد سیستم ، فصل دوم : امکان سنجی ، کتابچه جامع امکان سنجی ، امکان سنجی تکنیکی ، امکان سنجی عملیاتی ، امکان سنجی اقتصادی ، فصل سوم : تحلیل سیستم ، نمونه ای از فرم IPO ، نمونه هایی از فرهنگ داده ها ، نمونه های از نمودارهای DFD ، نمودار ER ، سطوح دسترسی ، فصل چهارم : طراحی سیستم ،  تحلیل سیستم کتابخانه 
جوادالائمه، دانلود ، DFD، مستندات ، کد ، الگوریتم، ..."
موجود
کتابدار و علم کتابداری: کتابداری دانشی است که به جمع آوری، سازماندهی و حفظ و نگهداری و توزیع دانش مدون می پردازد. مهمترین هدف کتابخانه ها فراهم نمودن وسایل وکسب اطلاعات و تحقیق برای مراجعین است و به عبارت دیگر اصول علم کتابداری، راهنمای ساده و سریعی است که مراجعه به کتاب و کتابخانه را برای همه ی مردم آسان می کند و موضوع مورد مطالعه را درست و سریع در اختیار مراجعه کننده قرار می دهد.
-----------------------------------------------------
93
مهندسی نرم افزار 1
پروژه
"پروژه درس مهندسی نرم افزار 1 -تحلیل سیستم کتابخانه شهید کامیاب مشهد"
"دانلود رایگان پروژه درس مهندسی نرم افزار 1 ، پروژه درس مهندسی نرم افزار 1 -،فصل اول : تعریف مساله ، کتابدار و علم کتابداری ، انواع کتابخانه ها ، بخش های مختلف یک کتابخانه و عملکردهای آن ، طبقه بندی ساختار حرفه اطلاع رسانی ، حکم کتبی از اهداف وبرد سیستم ، فصل دوم : امکان سنجی ، کتابچه جامع امکان سنجی ، امکان سنجی تکنیکی ، امکان سنجی عملیاتی ، امکان سنجی اقتصادی ، فصل سوم : تحلیل سیستم ، نمونه ای از فرم IPO ، نمونه هایی از فرهنگ داده ها ، نمونه های از نمودارهای DFD ، نمودار ER ، سطوح دسترسی ، فصل چهارم : طراحی سیستم ،  تحلیل سیستم کتابخانه 
جوادالائمه، دانلود ، DFD، مستندات ، کد ، الگوریتم، ..."
موجود
کتابدار و علم کتابداری: کتابداری دانشی است که به جمع آوری، سازماندهی و حفظ و نگهداری و توزیع دانش مدون می پردازد. مهمترین هدف کتابخانه ها فراهم نمودن وسایل وکسب اطلاعات و تحقیق برای مراجعین است و به عبارت دیگر اصول علم کتابداری، راهنمای ساده و سریعی است که مراجعه به کتاب و کتابخانه را برای همه ی مردم آسان می کند و موضوع مورد مطالعه را درست و سریع در اختیار مراجعه کننده قرار می دهد.
-----------------------------------------------------
94
مهندسی نرم افزار 1
پروژه
"پروژه درس مهندسی نرم افزار 1 -تحلیل و طراحی سیستم تغذیه دانشگاه فردوسی با رویکرد MIS"
دانلود رایگان پروژه درس مهندسی نرم افزار 1 ، پروژه درس مهندسی نرم افزار 1 -، فصل اول : MIS چیست ؟ ، فصل دوم : ضرورت استفاده از نرم افزارMIS ، فصل سوم : روند کلی کار در MIS ، فصل چهارم : معرفی مورد ، فصل پنجم : تشریح مراحل طراحی و تولید نرم افزار سیستم MIS ، فصل ششم : تحلیل و بررسی سیستم فعلی ، فصل هفتم : پیشنهادات مطرحی برای بهبود سیستم ،دانلود ، DFD، مستندات ، کد ، الگوریتم، ...
موجود
معرفی سیستم :تنوع و پیچیدگی فعالیت های مختلف علمی،اقتصادی،آموزشی و ... در قالب سازمان های مختلف و گستردگی ارتباطات درون و برون سازمانی در نظام های مدیریتی امروزی و همچنین شاخص ها و عوامل فراوان موثر در رشد و توسعه سازمان ها موجب می شود تا مدیران سازمان ها بیش از هر زمان دیگری نیازمند باشند تا به سلاح ا و ابزارهای اطلاعاتی و ارتباطی در عرصه رقابت های تجاری مجهز شوند. چالش جهانی ایجاد شده  در عرصه مدیریت که  با  ظهور پدیده  فناوری اطلاعات و ارتباطات رنگ و جلوه دیگری گرفته است مهمترین و شاید اثر گذارترین دست یافته بشر در طول چند قرن اخیر می باشد تا جایی که مهمترین کالای تجاری قرن حاضر را اطلاعات  معرفی کرده اند. امروزه دو سیستم مدیریت اطلاعات و مهندسی اطلاعات از اهمیت ویژه ای نزد مدیران برخوردار شده است به گونه ای که مدیران وکارمندان باتزریق این ابزارها در سازمان مربوطه می توانند به جای سخت کار کردن ، سریع تر وبا دقت تر از قبل کار کنند ضمن اینکه مدیران می توانند نظارت ومدیریت غیر متمرکز را تجربه کنند. در این راستا ما بر آن شدیم تا با بررسی و تحلیل این سیستم با رویکرد مدیریت اطلاعات گامی هر چند کوچک در این عرصه برداریم. سیستم مورد بررسی تمام خصوصیات موجود در یک سیستم کامل از جمله نیروی انسانی ، ماشین و انباره های اطلاعاتی را دارا می باشد ضمن اینکه زمان در فعالیت های این سیستم از اهمیت بالا برخوردار است که این مسئله نقش یک سیستم مدیریتی کارا را خطیر تر می سازد. سیستم تغذیه دانشگاه فردوسی هم اکنون تا حدود 80% مکانیزه می باشد و هدف ما در این پروژه ارائه راهکار برای مکانیزه نمودن کامل سیستم و در نهایت طراحی یک سیستم مدیریت واحد می باشد که این امر مستلزم شناخت کامل این سیستم وصرف زمان زیاد می باشد. در ادامه بحث به طرح اهداف  سیستم  می پردازیم و در راستای نیل به این اهداف مشکلات سیستم موجود را مورد بررسی قرار داده و برای حل این مشکلات راهکار هایی را ارائه می کنیم.
---------------------------------
 

Comments (6) Posted to مطالب کارشناسی 08/25/2012 Edit

دانلود رایگان جزوات آموزشی - آموزش کامل گام به گام


بسم الله الرحمن الرحیم
در این بخش گزیده ای از مطالب و موضوعاتی که در طول دوره کارشناسی و کارشناسی ارشد، بر روی آنها کار کرده ام و همینک فایل کامل آنها موجود می باشد، ارائه می گردد. در صورت نیاز به فایل کامل هر کدام از موضوعات و بخش های ارائه شده یا نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ، لطفا با ایمیل UniversityDataInfo{@}yahoo.com مکاتبه نمایید. فایل ها در قالب فایل ورد، پی دی اف، پاورپوئینت و ... می باشند.
امید که مطالب موجود برای خوانندگان گرامی، مفید واقع گردد.
مطالب درج شده برای هر فایل، اطلاعات مربوط به فایل شامل ردیف، موضوع، قالب فایل، عنوان فایل، کلمات کلیدی و بخشی از متن فایل جهت نمایش می باشد.
-------------------------------------------
 78
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی ADSL - زبان فارسی - 28 صفحه
دانلود تحقیق آماده، دانلود رایگان، شبکه های کامپیوتری، گزارش دوره آموزشی ADSL - زبان فارسی - 28 صفحه ، ورد ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

 ADSL چيست؟

ADSL مخفف كلمات Asymmetric Digital Subscriber Line به معناي خط اشتراك ديجيتال نامتقارن است. اين تكنولوژي نسبتاً جديد است كه خطوط تلفن فعلي را به راهي براي دستيابي به صوت و تصوير و تبادل اطلاعات با سرعت نسبتاً بالا تبديل مي كند. ADSL مي تواند بيش از 6Mb در ثانيه به مشترك تحويل دهد اين بدان معناست كه بدون سرمايه گذاري زياد و با كابل هاي موجود مي توان ظرفيت را تا 50 برابر افزايش داد. با اين تكنولوژي حتي مي توان محتواي فعلي موجود در اينترنت را از متن به صوت تبديل كرد و ديگر احتياجي به كوچك كردن حجم تصاوير گرافيكي و در نتيجه كاهش كيفيت آنها نخواهد بود. مي توان به راحتي ويديو كنفرانس بين دانشگاهها و مراكز صنعتي برگزار كرد.

ADSL مي تواند به راحتي تا 10 سال ديگر حلال مشكلات سرعت اينترنت باشد تا سيستم خطوط تلفن بتوانند خطوط با ظرفيت جديد يا حتي سيستم هاي پيشرفته تر كه احتياج به كابل نداشته باشند راه اندازي شود.

تكنولوژي

ADSL وابسته به پردازش سيگنالهاي ديجيتال و يك الگوريتم خلاق براي فشرده كردن حجم بالاي اطلاعات براي يك جفت خط معمولي تلفن است. به علاوه ايجاد تغييراتي در ترانس ها فيلترهاي آنالوگ و مبدلهاي آنالوگ/ديجيتال لازم است.

مشكل ديگر اين تكنولوژي طول خط تلفن است. چون خطوط تلفن بلند ممكن است سيگنال را ضعيف كنند. اگر از بيرون به ADSL نگاه كنيم به نظر ساده مي آيد. در لوله هاي نامرئي اطلاعات با سرعتهاي مختلف درون خطوط تلفن در حال حركت هستند. اما در درون اين تكنولوژي جائيكه همه ترانزيستورها كار مي كنند يك معجزه از تكنولوژي مدرن در حال انجام است.

مودمهاي ADSL براي خلق كردن كانالهاي چندتايي، پهناي باند موجود را با توجه به فركانس تقسيم مي كنند كه آنها هم به كانالهاي سرعت پايين يا سرعت بالا تقسيم مي شوند اين تكنولوژي در مودمهاي V.34 و V.32 وجود دارد.

-----------------------------------------------------
79
عمومی
آموزشی - پی دی اف
پایان نامه دوره آموزشی آشنایی با انواع انتن ها و کاربرد انها در ارتباطات ماهواره ای و مایکروویو - زبان فارسی - 29 صفحه
دانلود تحقیق آماده، دانلود رایگان، پایان نامه دوره آموزشی آشنایی با انواع انتن ها و کاربرد انها در ارتباطات ماهواره ای و مایکروویو - زبان فارسی - 29 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...


Antenna (آنتن)
آنتن جهت دريافت و تشعشع امواج راديوئي به كار مي رود. اگر به صورت فرستنده به كار رود ، امواج فرستنده را به امواج الكترو مغناطيس تبديل نموده و پخش مي نمايد و اگر به صورت گيرنده به كار رود ، امواج اكترومغناطيسي موجود در فضا را دريافت نموده و تبديل به امواج الكتريكي نموده و جهت آشكار شدن ، به مدار گيرنده  تحويل ميدهد . آنتن ها انواع مختلفي دارند مانند : آنتن امني (omni)، پارابوليك ، ياگي ، بشقابي ، تلسكوپي و ...
انواع ماهواره و كاربردهاي آن

ماهواره ها
ماهواره‌ها مانند تكراركننده‌هاي مايكروويو عمل مي‌كنند با اين تفاوت كه بر روي دكلي به ارتفاع 500 مايل نصب شده‌اند. در نتيجه مزيت يك ماهواره نسبت به يك ايستگاه تكراركننده مايكروويو آن است كه محدوده وسيع‌تري از زمين را تحت پوشش خود قرار مي‌دهد.
 علاوه بر پوشش وسيع سيستم‌هاي ارتباطي ماهواره‌اي، پهناي باند وسيع، هزينه كم آن نسبت به ارتباطات سيمي و بي‌سيم زميني، اطمينان بالا و انعطاف‌پذيري آن از ديگر مزاياي ارتباطات ماهواره‌اي است
از آنجا كه يك ماهواره جهت دريافت، ارسال و يا تكرار اطلاعات مورد استفاده قرار مي‌گيرد، انواع كاربرد يك ماهواره را مي‌توان به صورت‌هاي مختلف بيان نمود
الف) فضا-زمين: در اين كاربرد ماهواره اطلاعات را به صورت‌هاي مختلف، مانند عكسهاي ماهواره‌اي كه از كره زمين مي‌گيرد، دريافت نموده و آن اطلاعات را براي ايستگاه زميني مخابره مي‌كند
ب) فضا-فضا: از آنجا كه ارتباطات حوزه فركانسي استفاده شده توسط ماهواره به گونه‌اي است كه گيرنده و فرستنده بايد در ديد يكديگر باشند، هر ماهواره محدوده‌اي از زمين را مي‌تواند تحت پوشش خود قرار دهد. مي‌توان از دو يا چند ماهواره استفاده نمود و اين محدوده‌ها را افزايش داد.
پ) زمين-فضا-زمين: در اين نوع ارتباط دو يا چند ايستگاه زميني از اين طريق به هم متصل مي‌شوند. از اين نوع ارتباط جهت ارتباط شبكه‌هاي كامپيوتري مي‌توان استفاده نمود

پوشش ماهواره‌ها بر زمين 
همانگونه كه قبلاً توضيح داده ‌شده سرويسهاي استفاده از ماهواره‌ها به دو صورت يك طرفه و دو‌طرفه هستند. شايد اين سوال پيش آيد كه در شبكه‌هاي كامپيوتري ارتباط دوطرفه است و يك ارتباط يك طرفه چگونه مي‌تواند مورد استفاده قرار گيرد؟
سرويسهاي يك طرفه علاوه بر پخش و دريافت تصاوير تلويزيوني در شبكه‌هاي كامپيوتري نيز استفاده مي‌شوند. يك شبكه محلي را در نظر بگيريد كه مي‌خواهيم از آن جهت استفاده از اينترنت بهره بگيريم. در حالتي كه ايستگاه‌هاي‌كاري موجود در اين شبكه محلي مصرف‌كننده اطلاعات باشند از يك خط استيجاري و يا يك خط مخابراتي درخواستي جهت ارسال تقاضاهاي خود استفاده‌نموده, تقاضاهاي خود را كه از نظر حجم در حد ناچيزي هستند با سرعت اندك ارسال مي‌كنيم و هنگام دريافت اطلاعات مورد تقاضا كه حجم زيادي را تشكيل مي‌دهند از يك ديش فقط دريافت‌كننده استفاده‌نموده و اطلاعات را با سرعت بالا دريافت مي‌كنيم. اين موضوع در شكل 6-13 نشان داده شده است.
يكي ديگر از دلايل استفاده از سرويس‌هاي يك طرفه ماهواره‌اي آن است كه چون سرويس‌هاي دو طرفه در موارد جاسوسي و ارتباطات محرمانه اطلاعاتي مورد استفاده قرار مي‌گيرد،
در كشورهاي مختلف محدوديت‌هاي خاصي جهت استفاده از آنها وجود دارد ولي ارتباطات يك‌طرفه شامل اين محدوديت نمي‌شوند. زيرا مسير ارتباطي آنها از طريق شركت‌هاي مخابراتي انجام شده و قابل كنترل خواهد‌ بود.
 
-----------------------------------------------------
80
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی AVR به زبان ساده - زبان فارسی - 53 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی AVR به زبان ساده - زبان فارسی - 53 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

میکروکنترلر AVR چیست ؟
میکرو کنترلرهای AVR از سری محصولات شرکت ATMEL است . این شرکت در زمینه های مختلف ساخت میکرو کنترلر و انواع حافظه های جانبی سریال و موازی – GPS – FPGA و بسیاری دیگر ، فعالیت دارد . معماری ساخت میکروکنترلر AVR ، کاهش مجموعه دستورالعمل های کامپیوتر است که به اختصار RISC گفته میشود .
۲-۱ سخت افزار داخلی AVR :
سرعت پردازش :
سرعت پردازش اطلاعات یا فرکانس کار سیستم در واحد MIPS و MHZ ( مگاهرتز) که بین ۰ تا ۲۰MHZ متغییر است .
تعداد دستورالعمل :
قابلیت اجرای چندین دستورالعمل در یک کلاک سیکل .
رجیستر : رجیستر منبع ذخیره ۸بیتی که کم ارزش ترین بیت با صفر شروع میشود ( ۲^۰=۱) ، تمامی میکروکنترلرها دارای ۳۲ رجیستر ۸ بیتی هستند که همگی اکومولاتور بوده و با CPU به طور مستقیم در ارتباط اند .
حافظه FLASH :
تراشه های AVR دارای حافظه ای برای نوشتن برنامه و قابل برنامه ریزی داخلی است که قابلیت ۱۰۰۰۰ بار نوشتن و پاک کردن را دارا می باشد .برای دسترسی به این حافظه از پروگرامر استفاده می شود .
حافظه EEPROM :
حافظه ای که می توان برای نگه داری بانک اطلاعاتی از آن استفاده کرد و قابل برنامه ریزی داخلی است که قابلیت ۱۰۰۰۰ بار نوشتن و پاک کردن را دارا می باشد . برای دسترسی به این حافظه از پروگرامر استفاده می شود .
حافظه SRAM :
حافظه SRAM یک RAM استاتیک بوده و برخلاف رجیستر ها به صورت مستقیم از طریق CPU قابل دسترسی نیستند . بیشترین استفاده SRAM در پشته است .
۱
پورت های I /O :
برای تبادل اطلاعات با وسایل جانبی تراشه های AVR دارای پورت های هستند ، که بصورت دو طرفه ( ورودی و خروجی ) که قابل انتخاب توسط برنامه نویس بوده و اکثرا” ۸ بیتی می باشند .
ولتاژ کاری :
مقدار ولتاژ تغذیه که نسبت نوع تراشه بین ۱٫۵ تا ۵٫۵ و یا ۲٫۷ تا ۵٫۵ و ۴ تا ۵٫۵ ولت متغیر بوده است .
SPI :
ارتباطی با پروتکل سریال – پرسرعت – سه سیمه که برای عملیات هایی همچون پروگرام و برنامه ریزی کردن حافظه FLASH و EEPROM و یا ارتباط با یک میکروکنترلر دیگر به صورت MASTER- SLAVE مورد استفاده قرار می گیرد .
UART :
ارتباط سریال و قابل برنامه ریزی که پین های مورد استفاده آن در دو حالت نرم افزاری و سخت افزاری قابل تغییر است.
این ارتباط بیشتر برای ارتباط با کامپیوتر طراحی شده اما منطق کار این ارتباط TTL بوده در صورتیکه ورودی سریال کامپیوتر،از استاندارد RS-232 استفاده شده است. برای این ارتباط باید از تراشه های مبدل سطح ولتاژ استفاده شود.
نکته: سطح ولتاژ در منطق TTL بین ۰ تا ۵V بوده و در پروتکل RS-232 بین -۱۵V تا +۱۵V می باشد.
نکته: پایه های مورد استفاده در این ارتباط به نام TXD و RXD می باشد.
(۱۲C) WIRE INTERFACE :
پروتکل ارتباطی سریال ۱۲C ساخته شده شرکت PHILIPS که در آن تنها از دو سیم برای ارتباط میان میکرو با وسایل جانبی استفاده شده است.
پین های مورد استفاده این پروتکل در AVR به نام SCL و SDA است.
۱-WIRE:
یکی از جدید ترین پروتکل های استفاده شده در میکروکنترلرهای AVR, که توسط شرکت Dallas
طراحی شده است. برعکس بقیه پروتکل ها محدودیت کابل استفاده شده آن تا ۳۰ متر افزایش یافته است.
JTAG :
پروتکل ارتباطی استاندارد IEEE که در ایران کمتر جا افتاده و قابلیت برنامه ریزی حافظه ها و فیوز بیت ها را دارد. یکی از مشخصات قابل توجه این ارتباط این است که در زمان حالت کار میکروکنترلر هم میتوان از آن استفاده کرده و حافظه ها و فیوز بیت ها را تغییر داد.
تایمر- کانتر:
زمان سنجی و شمارش با سرعت های قابل تنظیم و مدهای مختلف از جمله COMPARE و CAPTURE و PWM, که به دو نوع ۸ بیتی و ۱۶بیتی در تراشه قرار گرفته است.
PWM :
مخفف مدولاسیون پهنای پالس (PULSE WIDTH MODULATOR) که در این نوع مدولاسیون میزان دامنه سیگنال ثابت بوده و پهنای پالس ها تغییر می کند. PWM یکی از حالت های کاری تایمر- کانتر بوده و پرکاربردترین موارد استفاده آن در کنترل سرعت موتورهای DC می باشد.
مبدل آنالوگ به دیجیتال ۱۰بیتی (ADC) :
تراشه های AVR بیت ۱۰ بیت و به صورت مالتی پلکس شده تا ۸ و در نمونه های جدید تا ۱۶ورودی (مانند پورت A) بوده و با سرعت تبدیل بالای بین ۶۰ تا ۲۶۰us می تواند بین ۰ تا vccرا به مقدار عددی ۰ تا ۱۰۲۳ تبدیل کند.
مقایسه کننده آنالوگ داخلی :
دو پین از پایه های تراشه AVR به نام های AIN0 و AIN1 از نظر میزان ولتاژ (نسبت به زمین)روی آنها مقایسه شده و در صورتی که برابر بودن پایه ای به نام ACO (خروجی مقایسه کننده)صفرمی شود.
نکته: ولتاژ های ورودی این دو پایه تا مقدار VCC مجاز خواهد بود.
REAL-TIME CLOCK (RTC) :
در صورتی که به یک ساعت دقیق و اتوماتیک در یک پروژه نیاز باشد از RTC استفاده می شود. RTC یکی از حالت های تایمر- کانتر دو، بوده که تنها بعضی از میکروها نظیر ATMEGA10E ،AT90S8535 , ATMEGA32، ATMEGA128 , قابل اجراست. RTC نیاز به اتصال جداگانه کریستال به میکرو دارد (کریستال ۳۲, ۷۶۸HZ) .
WATCHDOG :
در معنای لغت , سگ نگهبان نام گرفته است و در حقیقت تایمری با اسیلاتور بوده و با برنامه ریزی آن و مقدار دهی به آن ، پس گذشت زمان دلخواه میکرو را ریست می کند.
حالتهای SLEEP:
انواع حالت های SLEEP که هر نوع میکرو تعدادی از آن را دارا بوده و مشخص کننده حالت های کار یک میکرو در زمان های بیکاری و یا خاموشی و یا گوش به زنگ (STAND BY) است.
وقفه های داخلی و خارجی:
فرض کنید میکرو در حال انجام عملیاتی مانند نوشتن مقدار عددی در حافظه است در همین زمان یکی از پایه ها مانند پایه کانتر، یک می شود و ما می خواهیم که هم عمل نوشتن در حافظه انجام شود و هم عمل کانتر و شمارش ورودی ؛اما هیچ پردازشگری نمی تواند در یک زمان بیش از یک دستور را ایجاد کند. برای این منظور از وقفه استفاده شده و عمل شمارش پایه کانتر انجام شده و بعد از آن CPU به ادامه نوشتن عدد در حافظه می پردازد.
میکروکنترلرهای AVR دارای انواع مختلف وقفه های داخلی و خارجی می باشد. وقفه های خارجی که با نام INT0 و INT1 و در بعضی میکرو ها تا INT7 وجود دارد. اما تقریباً تمام امکانات داخلی میکرو دارای وقفه بوده، مانند تایمر- کانترها و پروتکل های ارتباطی و مقایسه کننده ها و مبدل آنالوگ به دیجیتال و …….
نکته: وقفه های داخلی به صورت یک رجیستر بوده که با یک شدن فعال می شود .
۳-۱ انواع میکرو کنترلر AVR :
1 – AUTOMOTIVE AVR
2 – AVR Z-LINK
3 – CAN AVR
4 – LCD AVR
5 – LIGHING AVR
6 – MEGA AVR
7 – SMART BATTERY AVR
8 – TINY AVR
9 – USB AVR
10 – XMEGA
-----------------------------------------------------
81
عمومی
آموزشی - پی دی اف
گزارش پارامترهای شبکه رادیویی زیمنس BSS - زبان فارسی - 10 صفحه
دانلود تحقیق آماده، دانلود رایگان، شبکه های کامپیوتری، گگزارش پارامترهای شبکه رادیویی زیمنس BSS - زبان فارسی - 10 صفحه، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
82
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی BTS-312 - زبان فارسی - 33 صفحه
دانلود تحقیق آماده، دانلود رایگان، شبکه های کامپیوتری، گزارش دوره آموزشی BTS-312 - زبان فارسی - 33 صفحه، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
83
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی بهره برداری سوئیچ EWSD - V15 - زبان فارسی - 9 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی بهره برداری سوئیچ EWSD - V15 - زبان فارسی - 9 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
84
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی اصول و ساختار GPRS - زبان فارسی - 17 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی اصول و ساختار GPRS - زبان فارسی - 17 صفحه، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...


-----------------------------------------------------
85
عمومی
آموزشی - پی دی اف
گزارش شبکه هوشمند و تحول سرویسهای مخابراتی IN- Intelligence Network - زبان فارسی - 26 صفحه
دانلود تحقیق آماده، دانلود رایگان، شبکه های کامپیوتری، گگزارش شبکه هوشمند و تحول سرویسهای مخابراتی IN- Intelligence Network - زبان فارسی - 26 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
86
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی کابل شناسی و کابل شناسی خاکی کانالی و کانالسازی - زبان فارسی - 20 صفحه
دانلود تحقیق آماده، دانلود رایگان، شبکه های کامپیوتری، گزارش دوره آموزشی کابل شناسی و کابل شناسی خاکی کانالی و کانالسازی - زبان فارسی - 20 صفحه، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
87
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی ORCAD - زبان فارسی - 44 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی ORCAD - زبان فارسی - 44 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
88
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی proteus 6.9. - زبان فارسی - 72 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی proteus 6.9. - زبان فارسی - 72 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------
89
عمومی
آموزشی - پی دی اف
گزارش دوره آموزشی Word - زبان فارسی - 61 صفحه
دانلود تحقیق آماده، دانلود رایگان، گزارش دوره آموزشی Word ، آموزش ورد - زبان فارسی - 61 صفحه ، آموزش رایگان، آموزش به زبان فارسی، آموزش کامل، مرجع کامل، آموزش گام به گام، یادگیری، ...

-----------------------------------------------------

Comments (0) Posted to مطالب کارشناسی 08/25/2012 Edit

«قبلي   1 2 3 4 5 6 7 8 9 10  بعدي»

درباره من

احمد استیری

احمد استیری هستم. بنده فارغ التحصیل مقطع کارشناسی ارشد رشته مهندسی کامپیوتر - گرایش نرم افزار از دانشگاه فردوسی مشهد می باشم. دوره کارشناسی ارشد را زیر نظر جناب دکتر کاهانی در آزمایشگاه فناوری وب دانشگاه فردوسی گذرانده ام. در این مدت در حوزه های مرتبط با پردازش متن از جمله وب معنایی و به طور ویژه متن کاوی بر روی متون زبان فارسی فعالیت داشتم. طراحی و پیاده سازی ابزارهای پایه ای پردازش زبان فارسی و به خصوص طراحی نخستین ابزار پارسر زبان فارسی و ابزار ارزیابی خودکار خلاصه سازهای فارسی و همچنین تولید پیکره قرآنی فرقان از جمله کارهای من در دوره کارشناسی ارشد می باشد.
در صورت نیاز به توضیحات تکمیلی و یا هر گرونه سوال و ابهام در مورد موضوعات مطرح شده در وبلاگ با ایمیل زیر مکاتبه نمایید.

پست الکترونیکی من:
UniversityDataInfo{@}yahoo.com

آخرين مطالب بروز شده

موضوعات

پيوندها

کلی

Feeds