انتخاب داده به عنوان دومین مرحله از فرایند داده کاوی

22:29, 07/05,2014

انتخاب داده ها: انبار داده ها شامل انواع مختلف و گوناگونی از داده ها است که همه آن ها در داده کاوی مورد نیاز نیستند. برای فرآیند داده کاوی باید داده ها ی مورد نیاز انتخاب شوند. به عنوان مثال در پایگاه داده های مربوط به سیستم فروشگاهی، اطلاعاتی در مورد خرید مشتریان، خصوصیات آماری آن ها، تامین کنندگان، خرید، حسابداری و غیره وجود دارند. برای تعیین نحوه چیدن قفسه ها تنها به داده هایی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است. حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه داده نیست؛ بلکه ممکن است به منظور کاهش هزینه عملیات، نمونه هایی از عناصر انتخاب و کاوش شوند.

 

 

انبارش داده ها به عنوان اولین مرحله از فرایند داده کاوی

22:24, 07/05,2014

انبارش داده‌ها: هدف از فرآیند انبارش داده ها، فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است. در این فرآیند، اطلاعات مختصر، مفیدو تحلیلی در دوره های زمانی مناسب سازماندهی و ذخیره می‌شود تا بتوان از آن‌ها در فرآیند های تصمیم‌گیری که از ملزومات آن داده کاوی است، استفاده شود. به طور کلی تعریف زیر برای انبار داده ها ارائه می گردد:

انبار داده ها، مجموعه ای است موضوعی[1]، مجتمع[2]، متغیر در زمان[3] و پایدار[4] از داده ها که به منظور پشتیبانی از فرآیند مدیریت تصمیم گیری مورد استفاده قرار می گیرد.



[1]Subject Oriented

[2]Integrated

[3]Time Variant

[4]Non Volatile

 

 

مراحل فرایند کشف دانش

22:22, 07/05,2014

فرآیند کشف دانش از پایگاه داده ها شامل پنج مرحله است که عبارتند از :

انبارش داده ها[1]

انتخاب داده ها

تبدیل داده ها

کاوش در داده ها

تفسیر نتیجه



[1]Data Warehousing

 

 

کاربردهای داده‌کاوی

22:21, 07/05,2014

برخی از کاربردهای داده کاوی در محیط های واقعی عبارتند از :

خرده فروشی:

تعیین الگوهای خرید مشتریان

تجزیه و تحلیل سبد خرید بازار

پیشگویی میزان خرید مشتریان از طریق پست(فروش الکترونیکی)

بانکداری :

پیش بینی الگو های کلاهبرداری از طریق کارت های اعتباری

تشخیص مشتریان ثابت

تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی

بیمه :

تجزیه و تحلیل دعاوی

پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان

پزشکی :

تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی

تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت

 

 

درجه اطمینان یک قانون همبستگی

17:21, 07/02,2014

 

  درجه اطمینان قانون همبستگی R=X->Y، برابر با درجه پشتیبانی تمام عناصری که در کل قانون آمده اند تقسیم بر درجه پشتیبانی بخش مقدم قانون به عبارت دیگر.

 اگر درجه اطمینان یک قانون از مقداریکه اصطلاحا کمترین پشتیبانی (MinConf) نام دارد بیشتر شود، این قانون به عنوان یک قانون قوی شناخته خواهد شد. این مقدار توسط کاربر تعیین می گردد.

 

 

درجه پشتیبانی یک مجموعه عنصر

17:18, 07/02,2014

درجه پشتیبانی مجموعه عنصر S ، تعداد تراکنش های داخل D است به گونه ای که شامل S  باشند. به عبارت دیگر، درجه پشتیبانی نسبی مجموعه عنصر S ، نسبت درصد تراکنش های موجود در D  که شامل S  نیز می باشند به کل تراکنش های D  می باشد. به عبارت دیگر درجه پشتیبانی می گوید که یک مجموعه عنصر چند بار یا چند درصد در کل منبع داده تکرار شده است.

 

 

کاوش قوانین همبستگی

17:01, 07/02,2014

کاوش و استنتاج مجموعه عناصر مکرر و به تبع آن قوانین همبستگی، روش های قدرتمندی برای آنالیز مسائل به اصطلاح سبد خرید می باشد که هدف آن یافتن نظم در بین عناصری است که با یکدیگر رخ می دهند. مانند محصولاتی که بیشتر با یکدیگر فروخته می شوند یا داروهایی که بیشتر با یکدیگر مصرف می شوند. مساله یافتن قوانین همبستگی اولین بار در سال 1993 مطرح شد.

اجازه دهید هر عنصر را با Ii  نمایش دهیم. بنابراین I={I1,I2,…,Im}مجموعه ای از تمام عناصر موجود است که اغلب به آن عنصر پایه می گویند. هر تراکنشTi  زیر مجموعه ای از I است و بر اساس این تراکنش ها، پایگاه‌داده را به عنوان مجموعه ای از تراکنش‌ها تعریف می کنیم که به صورت D={T1,T2,…,Tn} نشان داده می‌شود. هر مجموعه عنصر S یک زیر مجموعه غیر تهی از I است و هر قانون همبستگی R، قانونی به شکل X->Y است که هم X و همY مجموعه عنصر هستند. این قانون بدین معنا است که اگر در یک تراکنش، مجموعه عنصر X رخ دهد، با احتمالی مشخص، مجموعه عنصرY نیز در همان تراکنش رخ خواهد داد. این احتمال درجه اطمینان نام دارد. همچنین به X مقدم و به Y نتیجهگفته می شود.

 

 

تحلیل پیوند یکی از انواع عملیات داده کاوی

16:54, 07/02,2014

در این روش پیوند هایی مرسوم به همبستگی میان رکورد ها و یا مجموعه ای از رکورد ها بازشناسی می شوند. سه رده ویژه از تحلیل پیوند وجود دارند که عبارتند از :

کشف همبستگی

کشف الگوهای متوالی

کشف دنباله های زمانی مشابه

قوانین همبستگی



 

تقطیع پایگاه داده ها یکی از انواع عملیات داده کاوی

16:52, 07/02,2014

هدف از تقطیع پایگاه داده ها، تقسیم آن به تعداد نامعینی از قطعات یا خوشه هایی از رکورد های مشابه است، یعنی رکوردهایی که خصوصیاتی مشابه دارند و می توان آن‌ها را همگن فرض کرد. پیوستگی داخلی این قطعات بسیار زیاد است در حالی که همبستگی خارجی میان آن ها کم می باشد.

در این مدل بر خلاف مدل قبل، از یادگیری نظارت نشده برای تعیین زیرشاخه های ممکن از جمعیت داده ای استفاده می شود. دقت تقطیع پایگاه داده‌ها از روشهای دیگر کمتر است، بنابراین در مقابل خصوصیات نامربوط و افزونگی، حساسیت کمتری از خود نشان می دهد.

از کاربردهای این روش می توان به شناسایی مشتریان، بازاریابی مستقیم و غیره اشاره کرد.

تقطیع پایگاه داده ها با آمارگیری مرتبط است که در آن از فاصله میان رکورد ها و درصد قرار گرفتن داده های ورودی در خوشه ها، جهت تجزیه و تحلیل استفاده می شود.



 

طبقه بندی، یکی از روش های مدل سازی پیشگویی کننده

16:50, 07/02,2014

مسائل طبقه بندی به شناسایی خصوصیاتی منجر می شوند که مشخص می نمایند هر مورد به کدام گروه تعلق دارد.این الگو هم می تواند برای فهم داده موجود و هم برای پیش بینی اینکه هر نمونه جدید چگونه کار می کند استفاده شود.برای مثال شما ممکن است بخواهیدپیش بینی کنید که آیااشخاص بر اساس رفتار هایشان هنگام خرید کالا از فروشگاه گروه بندی شوند یا براییک عمل جراحی باید گروه بندی گردند.

داده کاوی مدل های طبقه بندی را بوسیله امتحان کردن داده طبقه بندی شده و نهایتایافتن یک الگوی پیشگو،ایجاد می کند. این موارد موجود می تواند از یک پایگاه داده تاریخی ناشی شود؛ مانند اطلاعات افرادیکه تحت معالجه دارویی خاصی قرار دارند. یا اینکه از تجربه هاییکه طی آن یک نمونه از تمام پایگاه داده در جهان واقعی تست شده باشد و نتایج آن برای ایجاد یک گروه بند استفاده شده باشند منتج شود. برای مثال یک نمونه از لیستی از پیام ها به عنوان پیشنهاد فرستاده خواهد شد و نتایج پیام رسانی برای ساخت یک مدل طبقه بندی جهت بکار گرفته شدن در تمام پایگاه داده استفاده خواهد شد.



 

مدل سازی پیشگویی کننده

16:45, 07/02,2014

مدل سازی پیشگویی کننده، شبیه تجربه یادگیری انسان در به کار بردن مشاهدات برای ایجاد یک مدل از خصوصیات مهم پدیده ها است. در این روش از تعمیم دنیای واقعی و قابلیت تطبیق داده های جدید با یک قالب کلی، استفاده می شود.

در این مدل، می توان با تحلیل پایگاه داده های موجود، خصوصیات مجموعه های داده را تعیین کرد. این مدل با استفاده از روش یادگیری نظارت شده، شامل دو فاز آموزش و آزمایش ایجاد شده است. در فاز آموزش با استفاده از نمونه های عظیمی از داده های قبلی، مدلی ساخته می شود که به آن مجموعه آموزشی می گویند. در فاز آزمایش این مدل روی داده هایی که در مجموعه آموزشی قرار ندارند، اعمال می شود تا صحت و خصوصیات آن تایید گردد.

از کاربردهای عمده این مدل می توان به مدیریت مشتریان، تصویب اعتبار، بازاریابی مستقیم در خرده فروشی و غیره اشاره کرد.

یکی از روش های مدل سازی پیشگویی کننده، طبقه بندی است.



 

عملیات داده کاوی

16:42, 07/02,2014

در داده کاوی، چهار عمل اصلی انجام می شود که عبارتند از :

مدلسازی پیشگویی کننده

تقطیع پایگاه داده ها

تحلیل پیوند

تشخیص انحراف

 

 

کاوش الگوی متوالی(Sequential pattern mining)

21:25, 04/04,2014

کاوش الگوی متوالی زیر توالی های تکراری را به عنوان الگوهایی در دیتابیس متوالی بازیابی می کند. یک دیتابیس متوالی تعدادی از رکوردها را ذخیره می کند در حالی که همه رکوردها، توالی (ترتیب) هایی از وقایع منظم (ordered events) با یا بدون درنظر گرفتن زمان هستند. یک مثال دیتابیس متوالی تراکنش های مشتریان خرده فروشی است. در زیر مثالی از توالی خرید در یک مغازه خواربار فروشی برای هر مشتری که در طی یک ماه به ازای هر هفته خریداری کرده اند را خواهیم دید .

برای دو مشتری توالی های زیر را داریم.

{<(شکر، چای)،(شیر)،(شکر، شیر، نان)،(شیر، نان)>،T1}

{<(شکر، چای)،( نان)>،T2}

مشتری اول هر چهار هفته خرید داشته است در حالی که مشتری دوم تنها در دو هفته خرید داشته است. همچنین هر مشتری می تواند یک یا بیشتر در هر بار مراجعه به سوپر مارکت خرید داشته باشد. رکوردها در یک دیتابیس متوالی می توانند طول متفاوتی داشته باشند و هر واقعه می تواند یک یا بیشتر آیتم در مجموعه اش داشته باشد.

مثالهای دیگر از توالی ، توالی های DNA و داده وبلاگ و یا عملیات یک عامل هستند.کاوش الگوی متوالی یک مسئله مهم با کاربردهای گسترده شامل تحلیل رفتار خرید مشتری ، الگوهای دسترسی وب، آزمایشات علمی، درمان بیماریها و شکل گیری پروتئین است. یک الگوریتم کاوش الگوی متوالی دیتابیس را برای یافتن الگوهای تکرار شونده تحت عنوان توالی های تکراری جستجو می کند که پس از آن می توانند توسط کاربر نهایی و یا مدیریت برای یافتن ارتباطات میان آیتم های مختلف یا وقایع در داده ها با هدف رقابتهای بازاری، شناخت کسب و کار، پیش بینی و برنامه ریزی استفاده شوند. با افزایش استفاده از وب گسترده جهانی برای کسب و کارهای الکترونیکی و  سرویسهای وب کاوش استفاده از وب، یکی از زمینه های رایج از کاوش الگوی متوالی در مقالات است.

 


 

داده کاوی موازی

19:12, 02/01,2014

اغلب الگوریتم‌های داده‌کاوی مجموعه آیتم تکراری یک روند را اجرا می کنند. ابتدا یک مجموعه از کاندیدها تولید و سپس آنهایی که غیر تکراری هستند حذف می شوند و تنها آنهایی که تکراری محسوب می شوند برای تولید در مرحله بعد استفاده می‌شوند. یک ایده برای کاهش تعداد کاندها اغلب سایز داده‌ها و یا نرخ داده‌های وارد شده بسیار بزرگ است بنابراین الگوریتم‌های رایج کارایی لازم را ندارند. ابتدا فایل ورودی به چانکهای مجزا تقسیم و سپس موازی‌ سازی برای هر بخش جدا انجام می‌شود. تعداد تکرار هر مجموعه آیتم به صورت محلی بدست آمده، سپس مجموعه آیتم‌های تکراری بدست آمده برای بدست آوردن مجموعه نهایی با هم ادغام می شوند. برای پیاده سازی از قالب کاری Map Reduce استفاده شده است که معماری نرم افزار استانداری است که توسط Google ایجاد شده و هدف آن طراحی و اجرای پردازش داده در مقیاس بزرگ است. برای موازی سازی دو تکنیک وجود دارد. 


 

داده‌کاوی الگوهای تکراری از جریانهای داده

19:10, 02/01,2014

یک جریان داده ترتیبی پیوسته, سریع و بزرگ از عناصر داده است. داده‌کاوی جریان داده مسائل جدیدی را مطرح می کنند چرا که می‌بایست تنها با یک نگاه به داده‌کاوی پرداخت. داده‌های جریانی سه خصوصیت اصلی  دارند. داده به طور پیوسته وارد می شود. هیچ فرضی در مورد ترتیب جریان وجود ندارد. طول جریان داده محدودیتی ندارد. در برخی کاربردها، داده در فرم جریانهای داده پیوسته است. به عنوان مثال اندازه‌های ترافیک شبکه، وبلاگها، جریانهای کلیک، داده‌های گرفته شده از  شبکه‌های سنسور و رکوردهای تلفن. نتیجتاً کاوش قوانین مشارکتی در محیط‌های جریان داده به صورت تدریجی از مشکلات بیشتری نسبت به محیط پایگاه داده استاتیک برخوردار است. متد مختلف در این زمینه از دو تکنیک زیر استفاده می کنند:انتخاب یک زیر مجموعه از تمام داده یا تبدیل داده برای کاهش سایز: تکنیک‌هایی که در این مورد استفاده شده‌اند نمونه‌برداری، Sketching، Synopsis و aggregation هستند. الگوریتم‌هایی برای استفاده مؤثر از زمان و فضا.  در رابطه با داده‌کاوی تدریجی روشی تقریبی برای شمارش تعداد در جریانهای داده ای که از داده‌های قبلی استفاده می کند تعریف شده است.