نوع فایل: word (قابل ویرایش)
تعداد صفحات : 100 صفحه
چکیده:
امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.
یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.
الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.
کلید واژه:هرزنامه-تکنیک های داده کاوی
فهرست مطالب:
چکیده 1
فصل اول:مقدمه2
1-1 پیش گفتار 3
1-2 بیان مسئله 3
1-3 اهمیت و ضرورت انجام تحقیق 4
ساختار پایان نامه 5
فصل دوم:وب و هرزنامه های وب6
2-1 وب جهان گستر 7
2-1-1 وب به عنوان گراف8
2-1-2 گراف وب در صفحه و سطح میزبان8
2-1-3 اتصال9
2-2 موتورهای جستجو10
2-2-1 معماری موتورهای جستجوی وب11
2-2-2 سرویس دهنده پرس و جوی موتور جستجو13
2-3 رتبه بندی 13
2-3-1 رتبه بندی مبتنی بر محتوا13
2-3-2 الگوریتم های مبتنی بر لینک15
2-4 هرزنامه وب19
2-4-1 هرزنامه محتوا20
2-4-2 هرزنامه لینک 22
2-4-3 تکنیک های مخفی 27
2-5 یادگیری ماشین 29
2-5-1 Na?Ve Bayes 30
2-5-2 درخت تصمیم 31
2-5-3 ماشین بردار پشتیبان33
2-6 ترکیب طبقه بندی کننده ها35
2-6-1 Bagging 35
2-6-2 Boosting 36
2-7 روش های ارزیابی 37
2-7-1 ارزیابی متقاطع 38
2-7-2 دقت و فراخوانی38
2-7-3 منحنی ROC 39
2-8 جمع بندی40
فصل سوم: پیشینه تحقیق 41
3-1 مجموعه داده های مورد استفاده توسط محققین 42
3-1-1 UK2006 42
3-1-2 UK2007 43
3-1-3 مجموعه داده جمع آوری شده با استفاده از جستجوی MSN 44
3-1-4 DC2010 44
3-2 مطالعات مبتنی بر محتوا47
3-3 روش های مبتنی بر لینک51
3-3-1 الگوریتم های مبتنی بر انتشار برچسب ها 51
3-3-2 رتبه بندی تابعی 55
3-3-3 الگوریتم های هرس لینک و وزن دهی دوباره56
3-3-4 الگوریتم های مبتنی بر پالایش برچسب ها 57
3-4 روش های مبتی بر لینک و محتوا 58
3-4-1 مطالعات مبتنی بر کاهش ویژگی 57
3-4-2 مطالعات مبتنی بر ترکیب طبقه بندی کننده ها59
3-4-3 مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه 63
3-4-4 مطالعات مبتنی بر پیکربندی وب 71
3-4-5 تشخیص هرزنامه از طریق آنالیز مدلهای زبانی76
3-4-6 تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب79
3-4-7 رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی 82
3-5 جمع بندی 83
فصل چهارم: پیاده سازی ایده پیشنهادی 85
4-1 مقدمه86
4-2 ویژگی های مجموعه داده انتخابی 87
4-3 پیش پردازش 92
4-3-1 پیش پردازش مجموعه داده UK2007 93
4-3-2 کاهش ویژگی ها با اعمال الگوریتم های داده کاوی93
4-4 داده کاوی و ارزیابی مدل ها 96
4-4-1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی 102
4-4-2 مقایسه مقدار F_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمده از الگوریتم های کاهش ویژگی109
4-5 تفسیر نتایج110
4-6 جمع بندی 114
فصل پنجم: نتیجه گیری و کارهای آتی 115
5-1 نتیجه گیری 116
5-2 کارهای آتی- 117
منابع118
عناوین یادداشتهای وبلاگ
بایگانی
دسته بندی موضوعی