کاوش قوانین همبستگی

17:01, 07/02,2014

کاوش و استنتاج مجموعه عناصر مکرر و به تبع آن قوانین همبستگی، روش های قدرتمندی برای آنالیز مسائل به اصطلاح سبد خرید می باشد که هدف آن یافتن نظم در بین عناصری است که با یکدیگر رخ می دهند. مانند محصولاتی که بیشتر با یکدیگر فروخته می شوند یا داروهایی که بیشتر با یکدیگر مصرف می شوند. مساله یافتن قوانین همبستگی اولین بار در سال 1993 مطرح شد.

اجازه دهید هر عنصر را با Ii  نمایش دهیم. بنابراین I={I1,I2,…,Im}مجموعه ای از تمام عناصر موجود است که اغلب به آن عنصر پایه می گویند. هر تراکنشTi  زیر مجموعه ای از I است و بر اساس این تراکنش ها، پایگاه‌داده را به عنوان مجموعه ای از تراکنش‌ها تعریف می کنیم که به صورت D={T1,T2,…,Tn} نشان داده می‌شود. هر مجموعه عنصر S یک زیر مجموعه غیر تهی از I است و هر قانون همبستگی R، قانونی به شکل X->Y است که هم X و همY مجموعه عنصر هستند. این قانون بدین معنا است که اگر در یک تراکنش، مجموعه عنصر X رخ دهد، با احتمالی مشخص، مجموعه عنصرY نیز در همان تراکنش رخ خواهد داد. این احتمال درجه اطمینان نام دارد. همچنین به X مقدم و به Y نتیجهگفته می شود.

 

 

تحلیل پیوند یکی از انواع عملیات داده کاوی

16:54, 07/02,2014

در این روش پیوند هایی مرسوم به همبستگی میان رکورد ها و یا مجموعه ای از رکورد ها بازشناسی می شوند. سه رده ویژه از تحلیل پیوند وجود دارند که عبارتند از :

کشف همبستگی

کشف الگوهای متوالی

کشف دنباله های زمانی مشابه

قوانین همبستگی



 

تقطیع پایگاه داده ها یکی از انواع عملیات داده کاوی

16:52, 07/02,2014

هدف از تقطیع پایگاه داده ها، تقسیم آن به تعداد نامعینی از قطعات یا خوشه هایی از رکورد های مشابه است، یعنی رکوردهایی که خصوصیاتی مشابه دارند و می توان آن‌ها را همگن فرض کرد. پیوستگی داخلی این قطعات بسیار زیاد است در حالی که همبستگی خارجی میان آن ها کم می باشد.

در این مدل بر خلاف مدل قبل، از یادگیری نظارت نشده برای تعیین زیرشاخه های ممکن از جمعیت داده ای استفاده می شود. دقت تقطیع پایگاه داده‌ها از روشهای دیگر کمتر است، بنابراین در مقابل خصوصیات نامربوط و افزونگی، حساسیت کمتری از خود نشان می دهد.

از کاربردهای این روش می توان به شناسایی مشتریان، بازاریابی مستقیم و غیره اشاره کرد.

تقطیع پایگاه داده ها با آمارگیری مرتبط است که در آن از فاصله میان رکورد ها و درصد قرار گرفتن داده های ورودی در خوشه ها، جهت تجزیه و تحلیل استفاده می شود.



 

طبقه بندی، یکی از روش های مدل سازی پیشگویی کننده

16:50, 07/02,2014

مسائل طبقه بندی به شناسایی خصوصیاتی منجر می شوند که مشخص می نمایند هر مورد به کدام گروه تعلق دارد.این الگو هم می تواند برای فهم داده موجود و هم برای پیش بینی اینکه هر نمونه جدید چگونه کار می کند استفاده شود.برای مثال شما ممکن است بخواهیدپیش بینی کنید که آیااشخاص بر اساس رفتار هایشان هنگام خرید کالا از فروشگاه گروه بندی شوند یا براییک عمل جراحی باید گروه بندی گردند.

داده کاوی مدل های طبقه بندی را بوسیله امتحان کردن داده طبقه بندی شده و نهایتایافتن یک الگوی پیشگو،ایجاد می کند. این موارد موجود می تواند از یک پایگاه داده تاریخی ناشی شود؛ مانند اطلاعات افرادیکه تحت معالجه دارویی خاصی قرار دارند. یا اینکه از تجربه هاییکه طی آن یک نمونه از تمام پایگاه داده در جهان واقعی تست شده باشد و نتایج آن برای ایجاد یک گروه بند استفاده شده باشند منتج شود. برای مثال یک نمونه از لیستی از پیام ها به عنوان پیشنهاد فرستاده خواهد شد و نتایج پیام رسانی برای ساخت یک مدل طبقه بندی جهت بکار گرفته شدن در تمام پایگاه داده استفاده خواهد شد.



 

مدل سازی پیشگویی کننده

16:45, 07/02,2014

مدل سازی پیشگویی کننده، شبیه تجربه یادگیری انسان در به کار بردن مشاهدات برای ایجاد یک مدل از خصوصیات مهم پدیده ها است. در این روش از تعمیم دنیای واقعی و قابلیت تطبیق داده های جدید با یک قالب کلی، استفاده می شود.

در این مدل، می توان با تحلیل پایگاه داده های موجود، خصوصیات مجموعه های داده را تعیین کرد. این مدل با استفاده از روش یادگیری نظارت شده، شامل دو فاز آموزش و آزمایش ایجاد شده است. در فاز آموزش با استفاده از نمونه های عظیمی از داده های قبلی، مدلی ساخته می شود که به آن مجموعه آموزشی می گویند. در فاز آزمایش این مدل روی داده هایی که در مجموعه آموزشی قرار ندارند، اعمال می شود تا صحت و خصوصیات آن تایید گردد.

از کاربردهای عمده این مدل می توان به مدیریت مشتریان، تصویب اعتبار، بازاریابی مستقیم در خرده فروشی و غیره اشاره کرد.

یکی از روش های مدل سازی پیشگویی کننده، طبقه بندی است.



 

عملیات داده کاوی

16:42, 07/02,2014

در داده کاوی، چهار عمل اصلی انجام می شود که عبارتند از :

مدلسازی پیشگویی کننده

تقطیع پایگاه داده ها

تحلیل پیوند

تشخیص انحراف

 

 

کاوش الگوی متوالی(Sequential pattern mining)

21:25, 04/04,2014

کاوش الگوی متوالی زیر توالی های تکراری را به عنوان الگوهایی در دیتابیس متوالی بازیابی می کند. یک دیتابیس متوالی تعدادی از رکوردها را ذخیره می کند در حالی که همه رکوردها، توالی (ترتیب) هایی از وقایع منظم (ordered events) با یا بدون درنظر گرفتن زمان هستند. یک مثال دیتابیس متوالی تراکنش های مشتریان خرده فروشی است. در زیر مثالی از توالی خرید در یک مغازه خواربار فروشی برای هر مشتری که در طی یک ماه به ازای هر هفته خریداری کرده اند را خواهیم دید .

برای دو مشتری توالی های زیر را داریم.

{<(شکر، چای)،(شیر)،(شکر، شیر، نان)،(شیر، نان)>،T1}

{<(شکر، چای)،( نان)>،T2}

مشتری اول هر چهار هفته خرید داشته است در حالی که مشتری دوم تنها در دو هفته خرید داشته است. همچنین هر مشتری می تواند یک یا بیشتر در هر بار مراجعه به سوپر مارکت خرید داشته باشد. رکوردها در یک دیتابیس متوالی می توانند طول متفاوتی داشته باشند و هر واقعه می تواند یک یا بیشتر آیتم در مجموعه اش داشته باشد.

مثالهای دیگر از توالی ، توالی های DNA و داده وبلاگ و یا عملیات یک عامل هستند.کاوش الگوی متوالی یک مسئله مهم با کاربردهای گسترده شامل تحلیل رفتار خرید مشتری ، الگوهای دسترسی وب، آزمایشات علمی، درمان بیماریها و شکل گیری پروتئین است. یک الگوریتم کاوش الگوی متوالی دیتابیس را برای یافتن الگوهای تکرار شونده تحت عنوان توالی های تکراری جستجو می کند که پس از آن می توانند توسط کاربر نهایی و یا مدیریت برای یافتن ارتباطات میان آیتم های مختلف یا وقایع در داده ها با هدف رقابتهای بازاری، شناخت کسب و کار، پیش بینی و برنامه ریزی استفاده شوند. با افزایش استفاده از وب گسترده جهانی برای کسب و کارهای الکترونیکی و  سرویسهای وب کاوش استفاده از وب، یکی از زمینه های رایج از کاوش الگوی متوالی در مقالات است.

 


 

داده کاوی موازی

19:12, 02/01,2014

اغلب الگوریتم‌های داده‌کاوی مجموعه آیتم تکراری یک روند را اجرا می کنند. ابتدا یک مجموعه از کاندیدها تولید و سپس آنهایی که غیر تکراری هستند حذف می شوند و تنها آنهایی که تکراری محسوب می شوند برای تولید در مرحله بعد استفاده می‌شوند. یک ایده برای کاهش تعداد کاندها اغلب سایز داده‌ها و یا نرخ داده‌های وارد شده بسیار بزرگ است بنابراین الگوریتم‌های رایج کارایی لازم را ندارند. ابتدا فایل ورودی به چانکهای مجزا تقسیم و سپس موازی‌ سازی برای هر بخش جدا انجام می‌شود. تعداد تکرار هر مجموعه آیتم به صورت محلی بدست آمده، سپس مجموعه آیتم‌های تکراری بدست آمده برای بدست آوردن مجموعه نهایی با هم ادغام می شوند. برای پیاده سازی از قالب کاری Map Reduce استفاده شده است که معماری نرم افزار استانداری است که توسط Google ایجاد شده و هدف آن طراحی و اجرای پردازش داده در مقیاس بزرگ است. برای موازی سازی دو تکنیک وجود دارد. 


 

داده‌کاوی الگوهای تکراری از جریانهای داده

19:10, 02/01,2014

یک جریان داده ترتیبی پیوسته, سریع و بزرگ از عناصر داده است. داده‌کاوی جریان داده مسائل جدیدی را مطرح می کنند چرا که می‌بایست تنها با یک نگاه به داده‌کاوی پرداخت. داده‌های جریانی سه خصوصیت اصلی  دارند. داده به طور پیوسته وارد می شود. هیچ فرضی در مورد ترتیب جریان وجود ندارد. طول جریان داده محدودیتی ندارد. در برخی کاربردها، داده در فرم جریانهای داده پیوسته است. به عنوان مثال اندازه‌های ترافیک شبکه، وبلاگها، جریانهای کلیک، داده‌های گرفته شده از  شبکه‌های سنسور و رکوردهای تلفن. نتیجتاً کاوش قوانین مشارکتی در محیط‌های جریان داده به صورت تدریجی از مشکلات بیشتری نسبت به محیط پایگاه داده استاتیک برخوردار است. متد مختلف در این زمینه از دو تکنیک زیر استفاده می کنند:انتخاب یک زیر مجموعه از تمام داده یا تبدیل داده برای کاهش سایز: تکنیک‌هایی که در این مورد استفاده شده‌اند نمونه‌برداری، Sketching، Synopsis و aggregation هستند. الگوریتم‌هایی برای استفاده مؤثر از زمان و فضا.  در رابطه با داده‌کاوی تدریجی روشی تقریبی برای شمارش تعداد در جریانهای داده ای که از داده‌های قبلی استفاده می کند تعریف شده است.    


 

داده کاوی تدریجی

19:09, 02/01,2014

یکی از زمینه‌های چالش انگیز در داده کاوی، کاوش قوانین مشارکتی است. کاوش قوانین مشارکتی در میان مقادیر زیاد تراکنشها می‌تواند اطلاعات با ارزشی را بر روی رفتار خرید مشتریان بدست آورد و بنابراین کیفیت تصمیمات خرید و فروش را بالا خواهد برد. تحلیل سبد خرید یک زمینه فعال در تکنیکهای کاوش داده است. کاوش قوانین مشارکتی فرایندی دو مرحله ای است. مرحله اول یافتن تمام مجموعه آیتم‌های تکراری است که از یک مقدار مشخص حمایت بیشتر باشند و مرحله دوم تولید قوانین مشارکتی از مجموعه آیتم‌های تکراری است که شرایط اطمینان مینیمم را میسر کنند. از آنجایی که شناسایی مجموعه آیتم‌های تکراری از پیچیدگی زیادی برخوردار است معمولا مسئله کاوش قوانین مشارکتی می‌تواند به مسئله کشف مجموعه آیتم‌های‌تکراری کاهش یابد. الگوریتم‌های مختلفی برای حل این مسئله استفاده شده‌اند . این الگوریتم‌ها به صورت کارا در مورد پایگاه داده‌های استاتیک عمل می‌کنند ولی اگر رکوردهای جدید با گذشت زمان اضافه شوند سناریوی کشف قوانین تغییر خواهد کرد. بنابراین تکنیکهایی برای تغییراتی که  در پایگاه داده رخ می‌دهد ابداع شده اند.


 

داده کاوی تدریجی- تقسیم‌بندی تکنیک‌ها مبتنی بر الگوریتم هسته‌ای استفاده‌شده برای کاوش تراکنش

23:33, 01/31,2014

الگوریتم‌های داده‌کاوی تدریجی از نظر تکنیک هسته‌ای استفاده شده، به چند دسته مبتنی بر الگوریتم Apriori ، مبتنی بر قطعه بندی و الگوریتم‌های رشد الگو تقسیم می شوندالگوریتم‌های  با تکنیک هسته‌ای

1-      الگوریتم‌های Apriori

2-     الگوریتم های مبتنی بر پارتیشن بندی برای داده‌کاوی تدریجی

3-      الگوریتم‌های افزایش الگو برای داده‌کاوی تدریجی 


 

داده کاوی تدریجی

23:28, 01/31,2014
اغلب الگوریتم‌های داده‌کاوی تدریجی از نظر الگوریتمی که عملیات کاوش نهایی را انجام می‌دهد به سه دسته کلی تقسیم می‌شون. به علاوه تمام این سه دسته می توانند به صورت داده‌کاوی تدریجی موقتی و یا موازی انجام شوند. 1- تقسیم‌بندی تکنیک‌ها مبتنی بر الگوریتم هسته‌ای استفاده‌شده برای کاوش تراکنش 2-  داده‌کاوی الگوهای موفتی وابسته به بازه اعتبار تراکنش‌ها 3- داده‌کاوی  موازی در قسمتهای بعدی هر یک را توضیح خواهیم داد.  

 

کشف قوانین مشارکتی

17:06, 12/23,2013
برای مثال، در یک پایگاه داده از تراکنش های فروش،  کشف تمام وابستگی بین آیتم ها که حضور یک آیتم در یک تراکنش حضور دیگر آیتم ها را در همان تراکنش به همراه دارد مد نظر است.به عنوان مثال 90 درصد از مشتریانی که شیر و نان می خرند تخم مرغ را نیز در همان زمان خریداری می کنند. کشف اینگونه قواعد به فروشگاه کمک خواهد کرد که همواره اجناسی که با یکدیگر مورد تقاضا هستند را تهیه کند.   

 

کاوش تدریجی پایگاه داده - Incremental mining

17:01, 12/23,2013
هدف تحلیل الگوها و یافتن ارتباطات در داده کشف تمایلات در بازار است که از آن طریق می توان به تحلیل مشتریان، تحلیل نیازها، پیش بینی امکانات آینده پرداخت. این تحلیل ها به سازمان برای نوآوری، حفظ مشتریان و افزایش در کارایی عملیاتی کمک خواهد کرد.  کشف قوانین مشارکتی در انتخابهای بازار، تحلیل تصمیم و مدیریت کسب و کار مفید است. یک زمینه مهم از قوانین مشارکتی تحلیل سبد خرید است که رفتار خرید مشتریان را توسط جستجوی مجموعه­هایی از آیتم ها که مکررا با هم خرید شده اند  مطالعه می کند. با افزایش استفاده از پایگاه داده های مبتنی بر رکورد که مرتباً داده ها اضافه می­شوند اخیراً کاربردهای مهمی به کاوش افزایشی نیازمند شده اند. در پایگاه داده های تراکنشی، تراکنش های جدید اضافه و برخی از تراکنش ها با گذر زمان حذف می شوند. تحقیقات مختلفی الگوریتمهایی برای استخراج قوانین به صورت موثر و کارا در پایگاه داده های داینامیک تعریف کرده اند و سعی دارند الگوریتم هایی ابداع کنند که تنها بخش بروز شده مورد بررسی قرار گیرد و نیازی به پایش پایگاه داده نباشد.  

 

کاوش داده

16:59, 12/23,2013
  vفرایند جستجوی اطلاعات پنهان ناشناخته در مجموعه داده بزرگ qمثال: کمک به تصمیم گیری، تحیقات بازاری ، تحلیل مالی، خرده فروشی های صنعتی vانواع کاوش q توصیفی oخلاصه کردن خصوصیات عمومی داده، یافتن الگوهای قابل تفسیر برای داده oمثال: خوشه بندی، کشف قوانین مشارکتی، کشف الگوی ترتیبی qپیشنهادی oاستنتاج و پیش بینی برای داده های فعلی از طریق داده های قبلی و پیش بینی متغیرهای ناشناخته oکلاس بندی ، رگرسیون vانواع کاوش q کلاس بندی: ایجاد یک مدل برای کلاس بندی دادهای فعلی و پیش بینی کلاس داده های بعدی(یادگیری با ناظر) oدرخت تصمیم، متد نزدیکترین همسایه، شبکه های عصبی qخوشه بندی: گروه بندی داده ها بر اساس شباهت (یادگیری بدون ناظر) oمثال خوشه بندی مشتریان بانک از طریق میزان  سرمایه و پس انداز جهت تصمیم گیری نحوه ارائه وام qقوانین مشارکتی