در این پست خیلی مختصر در مورد معرفی یک دیتاست از ایمیلهای spam صحبت خواهم کرد.

نام این دیتاست Enron است واز اینجا قابل دانلود است.

این دیتاست در پروژه ای با نام CALO Project جمع اوری شده است.و بعد ها توسط  Leslie Kaelbling در MIT خریداری و به کاربرده شده است.

این دیتا ست حاوی 619,446 پیام می باشدکه این پیام ها به 158 کاربر متعلق هستند.برخی از پیام های خاص کابران مذکور را از دیتاست فوق حذف کرده اند ونهایتا به 200399 پیام منتهی شده که به طور متوسط به ازای هر کاربر 757 پیام وجود دارد.

اصولا این دیتاست به عنوان یک Benchmark برای دسته بندی ایمیلها ایجاد شده است.

دو مقاله درمعرفی و توضیح این دیتاست ارائه شده است که از اینجا و اینجا قابل دانلود هستند.