سورنا فایل

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

سورنا فایل

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

وب ماینینگ Web mining

اختصاصی از سورنا فایل وب ماینینگ Web mining دانلود با لینک مستقیم و پر سرعت .

وب ماینینگ Web mining


وب ماینینگ Web mining

پروژه پایان نامه  وب ماینینگ Web mining

90صفحه  ورد قابل ویرایش 

8000تومان 

 

 

چکیده

در عصر حاضر وب ماینینگ[1] محیط اینترنت جهانی را تبدیل به محیطی کاربردی تر کرده است.که کاربران میتوانند سریعتر و راحتتر اطلاعات مورد نیازشان را پیدا کنند که شامل :کشف و تحلیل داده ، مستندات وmulti media از محیط اینترنت جهانی میباشد ,Web Mining  از جزئیات سند ومحتویات سند و ساختار هایپر لینک[2] برای کمک به کاربر جهت مشاهده اطلاعات مورد نیازش استفاده میکند.

وب و موتورهای جستجو خودشان شامل اطلاعات ارتباطی درباره ی مستندات هستند و Web Mining  این ارتباطات را کشف میکند و به سه بخش تقسیم بندی مینماید.

  • در اولین بخش Web Content Mining، موتورهای جستجو محتویات را با کلمات کلیدی تعریف میکنندومی شناسند.پیدا کردن کلمات کلیدی محتوا و پیدا کردن یک ارتباط بین محتوای صفحه ی وب و محتوای سوال کاربر، Content Mining گفته میشود.
  • Hyper Linksاطلاعاتی را درباره ی سایر مستندات روی وب که در سند دیگری مهم هستند تهیه میکند.این لینکها عمقی را به سند اضافه میکنند و حالت چند بعدی که از خصوصیات وب است ایجاد میکنند. کاوش این ساختار لینک دومین بخش یعنی  Web Structure Mining  است.
  • در نهایت ارتباطی با سایر مستندات روی وب که بوسیله ی جستجوی قبلی شناخته شده اند، وجود دارد. این ارتباط در صفحه های جستجو  (log) و دستیابی ذخیره میشود. کاوش این Log ها سومین بخش یعنی Web Usage Mining را تشکیل میدهد.

درک کاربر اغلب یک بخش مهم از  Web Mining است. تحلیل جستجوهای قبلی کاربر ،شکلی که کاربر ترجیح میدهد اطلاعات پیدا شده را ببیندو سرعت در پاسخ ممکن است در پاسخ دادن به پرس و جوی کاربر موثر باشد.

Web Mining در ماهیت نظم خاصی دارد.پل زدن بین فیلدهایی مثل اطلاعات بازگشتی ،پردازش زبانهای طبیعی، استخراج اطلاعات ،Machine Learning، پایگاه داده ،داده کاوی ،ذخیره ی داده ، طراحی رابط کاربر و Visual کردن .

تکنیکهای Web Mining کاربردهای عملی در M-commerce ،E-commerce ، E-Government ،E-learning ، آموزش از راه دور ، آموزش سازمانی،تشکیلات مجازی ، مدیریت دانش و کتابخانه ی دیجیتال دارد.

در این تحقیق ما به بررسی جنبه های مختلف Web Data Mining میپردازیم.

   

 


فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

فصل اول وب کاوی (web mining) ((

1-1- مقدمه. 2

1-2- مراحل وب کاوی.. 4

3- وب کاوی و زمینه های تحقیقاتی مرتبط... 5

3-1- وب کاوی و داده کاوی.. 5

3-2- وب کاوی و بازیابی اطلاعات... 6

3-3- وب کاوی و استخراج اطلاعات... 7

3-4- وب کاوی و یادگیری ماشین.. 8

4- انواع وب کاوی.. 9

5- چالش های وب کاوی.. 10

1-6- کاوش محتوای وب... 11

1-6-1- انواع کاوش محتوا در وب... 12

1-6-1-1- طبقه بندی.. 12

6-1-2- خوشه بندی.. 13

6-1-3- سایر انواع کاوش محتوا در وب... 14

6-2- رویکردهای کاوش محتوا در وب... 14

6-3- الگوریتم های کاوش محتوا در وب... 15

6-3-1- درخت تصمیم.. 16

فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

6-3-2- شبکه عصبی.. 17

6-3-3- سایر الگوریتم های کاوش.... 17

7- کاوش ساختار وب... 18

7-1- مدل های بازنمایی ساختار وب... 19

7-1-1- مدل های مبتنی بر گراف... 19

7-1-2- مدل های مارکو. 21

7-2- الگوریتم های کاوش ساختار وب... 21

7-2-1- HITS. 22

7-2-2- Page Rank.. 24

7-2-3- الگوریتم جریان بیشینه. 25

7-2-4- Average Clicks. 26

7-3- کاربردهای کاوش ساختار وب... 27

7-3-1- تشخیص اجتماعات وب... 28

7-3-2- پیمایش وب... 28

8- کاوش استفاده از وب... 29

8-1- انواع داده های استفاده از وب... 30

8-1-1- داده های سرورهای وب... 30

8-1-2- داده های سرورهای پراکسی.. 31

فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

8-1-3- داده های کلاینت... 31

8-2- پیش پردازش داده های استفاده از وب... 32

8-2-1- پاکسازی داده 32

8-2-2- تشخیص و بازسازی نشست... 32

8-2-3- بازیابی ساختار و محتوا 33

8-2-4- قالب بندی داده 34

8-3- روش های کاوش استفاده از وب... 35

8-3-1- قوانین انجمنی.. 35

8-3-2- الگوهای ترتیبی.. 36

8-3-3- خوشه بندی.. 37

8-4- کاربردهای کاوش استفاده از وب... 38

8-4-1- خصوصی سازی محتوای وب... 38

8-4-2- پیش بازیابی.. 39

8-4-3- بهبود طراحی سایت های وب... 39

9- کاربردهای وب کاوی.. 39

9-1- تجارت الکترونیکی.. 40

9-2- موتورهای جستجو. 41

9-3- حراجی در وب... 41

فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

نتیجه گیری.. 42

فصل دوم: کاوش پایگاه دادههای وب

2-1- مقدمه. 44

2-2-  جستجو در پایگاه دادةها در وب... 44

2-3 - داده کاوی شیئی – رابطهای.. 45

2-4- اشتراک داده در مقابل داده کاوی در وب... 45

2-5- کاوش پایگاههای دادة نیمه ساخت یافته. 46

2-6- کاوش و سپس ادغام. 47

2-7-Web mining و Meta data.. 48

2-8- کاوش متادیتا 48

2-9- انبار و کاوش.... 49

1-10- متادیتا برای کاوش چند رسانهای.. 49

2-11- متا دیتا برای web mining.. 49

2-12- کاوش پایگاه دادههای توزیع شده، ناهمگن ، وراثتی و متحد در وب... 50

2-13-  ماژولهایی از DP برای داده کاوی.. 51

2-14- داده کاوی روی پایگاه داده توزیع شده 51

2-15-کاوش و سپس اجتماع. 52

2-16-کاوش interoperating و مخزن.. 52

فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

2-17- همکاری میان عاملهای کاوش.... 52

2-18-  واسط برای مجتمع سازی.. 53

2-19- معماریها وweb data mining.. 54

2-20-  ماژولهای داده کاوی مثل اشیاء 54

2-21- خلاصه: 54

 

فصل سوم: مدیریت اطلاعات و داده کاوی وب

3-1- مقدمه. 57

3-2- همکاری  بین عاملهای کاوش.... 57

3-3- مدیریت دانشها و داده کاوی وب... 58

3-4- مدیریت دانش و داده کاوی وب... 59

3-5- محاسبات  بیسیم و داده کاوی وب... 60

3-6- کیفیت  سرویس و داده کاوی وب... 61

3-7- جنبههای دیگر: 61

3-8- اجتماع سرویسهای وب و داده کاوی.. 62

فصل چهارم: کاوش الگوهای کاربردی و ساختار روی وب

4-1 - مقدمه. 64

4-2- تحلیل الگوهای کاربردی و روندهای پیشبینی.. 64

فهرست مطالب

عنوان.........................................................................................................................................................................صفحه

4-3- خروجیها و تکنیکهای web usage mining.. 65

4-4- تحلیل web usage mining.. 66

4-5-  انواع تحلیلCRM و کاربردهای تجارت هوشمند: 68

4-6- مدیریت ارتباط با مشتری ومحصولات... 73

4-7- web mining برای e-commerce.. 73

4-8-کاوش ساختار روی وب... 74

4-9-  بازبینی web structure mining.. 74

4-10-خروجیهای web structure mining.. 74

4-11 - جمع بندی و نتیجه گیری.. 75

4-12-گرافیک سه بعدی چیست ؟ 77

4-13- کارت گرافیک سه بعدی.. 78

4-14- کارت گرافیک سه بعدی.. 80

4-15- سخت افزار 83

4-16- کارت گرافیک سه بعدی.. 83

4-17- نتیجه گیری.. 87

فهرست منابع.. 88

 

 

 

فهرست  اشکال

عنوان                                                                                                                  صفحه

شکل1-1مدل های گراف تک گره ای......................................................................................................................19

شکل2-1 مدل های گراف چند گره ای....................................................................................................................20

شکل1-3- مدل گراف وب...........................................................................................................................................21


[1]-Web Mining

[2]-Hyper Link

 


دانلود با لینک مستقیم


وب ماینینگ Web mining

Spatial analysis and data mining techniques for identifying riskfactors of Out-of-Hospital Cardiac Arrest

اختصاصی از سورنا فایل Spatial analysis and data mining techniques for identifying riskfactors of Out-of-Hospital Cardiac Arrest دانلود با لینک مستقیم و پر سرعت .

Spatial analysis and data mining techniques for identifying riskfactors of Out-of-Hospital Cardiac Arrest


Spatial analysis and data mining techniques for identifying riskfactors of Out-of-Hospital Cardiac Arrest

تکنیک های تجزیه و تحلیل فضایی و داده کاوی جهت شناسایی فاکتورهای ریسک ایست قلبی خارج از بیمارستان/////

 چکیده

حمله قلبی خارج از بیمارستان OHCA یکی از موضوعات مورد اهمیت در زمینه خدمات پزشکی اورژانسی EMS است. در کنار کمک هایی که توسط شاهدان و رهگذران به بیماران OHCA ارائه می گردد، فاکتورهای زمانی همانند زمان ورود آمبولانس به صحنه و مدت زمان انتقال بیمار به بخش EMS نیز دارای اهمیت است. پوشش فراگیر بخش EMS که به طور خاص می تواند توسط تکنولوژی های محاسبه بهبود یابد، می تواند به طور معناداری نرخ نجات بیماران OHCA را بهبود بخشد. در عین حال، این موضوع می تواند تخصیص منابع و سیاست های مدیریت در سیستم های بهداشت و سلامت کلان شهرها را به چالش بکشد.

اهداف: در این مطالعه ما در ابتدا از تکنیک های تحلیل فضایی (با ایجاد قطعات مناسبی بر سطح شهر) جهت شناسایی قسمت هایی از شهر که خطر OHCA در آن مناطق بالاست، استفاده می نماییم. سپس با استفاده از تکنیک های داده کاوی به بررسی اثر مشخصه های بیمار، اقدامات نجات قبل از انتقال بیمار به بیمارستان و فاکتورهای فضایی بر امکان نجات بیمار پس از ایست قلبی می پردازیم. با فراهم آوری این اطلاعات بیمارستان ها می توانند خدمات EMS را با تخصیص مناسب منابع در محل مربوطه ارتقاء دهند و نرخ نجات بیماران OCHA را بهبود بخشند.

روش ها: حیطه این پژوهش کشورتایوان شهر نیو تایپه است. داده های ثبت شده مربوط به کلیه بیماران OCHA شهر نیو تایپه در سال 2011 مورد بررسی قرار گرفت. داده های مذکور با اطلاعات پایگاه داده DOORPLATE به منظور بهبود تحلیل های فضایی و افراز مناطق شهری ادغام گشت. آنالیزهای فضایی به صورت محلی و جهانی با استفاده از شاخص گلوبال مورگان و شاخص لوکال مورگان و آماره GOG به منظور دسته بندی مناطق با ریسک بالا در شهر نیو تایپه جهت بیماران OCHA به انجام رسید. به منظور تحلیل عوامل تاثیرگذار بر در نجات بیمار OCHA در راه انتقال به بیمارستان روش های آماری همانند آزمون کا اسکوئر، رگرسیون لاجیستیک و درخت تصمیم مورد استفاده قرار گرفت.

نتایج: خوشه بندی فضایی وقایع OCHA در نیمه غربی شهر نیو تایپه با احتمال کمتر از 0.05معنادار شناخته شد. ما به این نتیجه رسیدیم که نرخ نجات بیماران بعد از ایست قلبی به طور معناداری با عواملی همچون نوع OCHA، اعزام EMT-P (امدادگران پزشکی مرکز اورژانس)، طریقه لوله گذاری، نحوه تجویز دارو، ROSC (بازگشت گردش خون خودبخودی) در محل، استفاده از دیفیبریلاتور خارجی خودکار AED، نحوه عملکرد شاهدین، ضربان قلبی اولیه AED، ریتم ریکاوری قلبی قبل از بستری و سابقه دیابت بیمار و سابقه بیماری کلیوی بیمار در ارتباط است.

نتیجه گیری: بر اساس یافته های این مطالعه، چندین فاکتور مهم در مورد OCHA بایستی به منظور بهبود کیفیت خدمات EMS ارتقاء یابد. با آنالیز کانون های OCHA بیمارستان ها قادراند منابع موجود در کمک رسانی را به صورت کارامدی مدیریت نمایند و متعاقبا سیاست های EMS را به صورت کارآمدی به اجرا در آورند. در نتیجه نرخ نجات بیماران OCHA می تواند بهبود یابد.


دانلود با لینک مستقیم


Spatial analysis and data mining techniques for identifying riskfactors of Out-of-Hospital Cardiac Arrest

ترجمه مقاله : Data Mining and Fusion Techniques for WSNs as a Source of the Big Data

اختصاصی از سورنا فایل ترجمه مقاله : Data Mining and Fusion Techniques for WSNs as a Source of the Big Data دانلود با لینک مستقیم و پر سرعت .

ترجمه مقاله : Data Mining and Fusion Techniques for WSNs as a Source of the Big Data


ترجمه مقاله : Data Mining and Fusion Techniques for WSNs as a Source of the Big Data

Procedia Computer Science 65 ( 2015 ) 778 – 786

(International Conference on Communication, Management and Information Technology (ICCMIT 2015)

 

Data Mining and Fusion Techniques for WSNs as a Source of the Big Data

 

Mohamed Mostafa Fouada,b,e,f, Nour E. Oweisb,e, Tarek Gaberb,c,e,f, Maamoun Ahmedd, Vaclav Snaselb

 

Abstract :

The wide adoption of the Wireless Senor Networks (WSNs) applications around the world has increased the amount of the sensor data which contribute to the complexity of Big Data. This has emerged the need to the use of in-network data processing techniques which are very crucial for the success of the big data framework. This article gives overview and discussion about the state-of-theart of the data mining and data fusion techniques designed for the WSNs. It discusses how these techniques can prepare the sensor data inside the network (in-network) before any further processing as big data. This is very important for both of the WSNs and the big data framework. For the WSNs, the in-network pre-processing techniques could lead to saving in their limited resources. For the big data side, receiving a clean, non-redundant and relevant data would reduce the excessive data volume, thus an overload reduction will be obtained at the big data processing platforms and the discovery of values from these data will be accelerated. c 2014 The Authors. Published by Elsevier B.V. Peer-review under responsibility of Universal Society for Applied Research. Keywords: Wireless Sensor Networks; Big Data; Data Mining; Data Fusion, Machine learning;

 

تکنیک های داده کاوی و تلفیق( ترکیبی) برای WSN ها به عنوان منبعی از کلان داده ها

 

چکیده:

میزان تطبیق پذیری بالای شبکات حسگری بی سیم[1]  در دنیا  باعث افزایش میزان حجم داده های حسگری شده است که منجر به ایجاد پیچیدگی در کلان داده ها[2] میشود. این پدیده باعث شده است تا نیاز به استفاده از تکنیک های پردازش داده های درون شبکه ای حس شود که این تکنیک ها برای بروز موفقیت در چارچوب[3] کلان داده ها ضروری هستند. در این مقاله درباره ی نوآوری تکنیک های داده کاوی و تلفیق داده هایی که به طور ویژه برای شبکات حسگر بی سیم بوده اند, بحث و بررسی میشود. این تحقیق این مطلب را بررسی میکند که چطور این تکنیک ها می توانند داده های حسگری درون شبکه را آماده کننده (قبل از اینکه هر گونه پردازشی به عنوان کلان داده روی آنها صورت بگیرد.) این مسئله هم برای  WSN مهم است و هم برای چارچوب کلان داده ها. برای WSN, تکنیک های پیش پردازشی درون شبکه ای می تواند به منزله ی راهی برای صرفه جوی در منابع محدودشان باشد. واز دیدگاه کلان داده ها, دریافت داده های تمیز(پالایش شده), بدون افزونگی و داده های مرتبط باعث کاهش حجم داده های اجرایی شود و از این رو در پلت فرم های پردازش کلان داده ها کاهش سرباری به وجود می آید و در کشف و یافتن[4] مقادیر در این داده ها, شتاب به وجود می آید.

کلمات کلیدی: شبکه های حسگر بی سیم؛ اطلاعات بزرگ؛ داده کاوی؛ داده های تلفیقی، یادگیری ماشین


[1] WSNs

[2] Big data

[3] Frame work

[4]  Discovery


دانلود با لینک مستقیم


ترجمه مقاله : Data Mining and Fusion Techniques for WSNs as a Source of the Big Data

دانلودمقاله Data mining

اختصاصی از سورنا فایل دانلودمقاله Data mining دانلود با لینک مستقیم و پر سرعت .

 

 

 

 

 

چکیده :
داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای.
این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها , الگوها و روابط مخفی را کشف کند. ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربراتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند. این تکنولوژی نوظهور، اخیرًا به طورفزایند های در تحلیل ها مورد استفاده قرار می گیرد.

 

کلمات کلیدی :
Data mining, Predictive data mining, Exploration data analysis,
Data warehousing, Olap, neural network, Deployment , machine
Learning, Meta-learning, Bagging , Boosting , clustering , Eda
Drill-down analysis, Stacket generalization , classification

 


مقدمه :
امروزه با حجم عظیمی از داده ها روبرو هستیم. برای استفاده از آنها به ابزارهای کشف دانش نیاز داریم. داده کاوی به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار می گیرد. داده کاوی در علوم (ستاره شناسی،...)‌در تجارت (تبلیغات، مدیریت ارتباط با مشتری،...) در وب (موتورهای جستجو،...) در مسایل دولتی (فعالیتهای ضد تروریستی،...) کاربرد دارد. عبارت داده کاوی شباهت به استخراج زغال سنگ و طلا دارد. داده کاوی نیز اطلاعات را که در انبارهای داده مدفون شده است، استخراج می کند.
در واقع هـــــدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است. این مدلها رفتارهای آینده را براساس تحلیلهای گذشته پیش بینی می کنند. به کاربردن داده کاوی به عنوان اهرمی برای آماده سازی داده ها و تکمیل قابلیتهای انباره داده ، بهترین موقعیت را برای به دست آوردن برتریهای رقابتی ایجاد می کند.

 

 

 

 

 


داده کاوی (Data mining) :

 

داده کاوی (Data mining) یک فرایند تحلیلی است که جهت کاوش داده ها (معمولاً حجم بالای داده ها و یا داده های تجاری و مربوط به بازار) و جستجوی الگوهای پایدار یا روابط سیستماتیک مابین متغیرها بکار میرود وسپس با اعمال الکو های شناسایی شده به زیر مجمو عه های جدید صحت داده های بدست آمده بررسی میگردد. هدف نهایی داده کاوی پیشگویی است.
سازما نها معمو ً لا روزانه مقدار زیادی داده را در انجام عملیات تجاری خود تولید و جمع آوری می کنند.
امروزه برای این پایگاه های داده شرکتی عجیب نیست که مقدار داده های آن در حد ترابایت باشد. با این حال علی رغم ثروت اطلاعاتی عظیم ذخیره شده حدس زده می شود که فقط ٪ ٧کل داد ه هایی که جمع آوری می شود مورد استفاده قرار می گیرد. بدین ترتیب مقدار قابل توجهی داده که بدون شک حاوی اطلاعات ارزشمند سازمانی است تا حد زیادی دست نخورده باقی می ماند. در محیط تجاری عصر اطلاعات، که هر روز رقابتی تر می شود می توان با استخراج اطلاعات از داد ه های استفاده نشده به تصمیم گیری های استراتژیک دست یافت. در طول تاریخ تحلیل داده ها از طریق رگرسیون و دیگر تکنیک های آماری انجام شده است. برای استفاده از این تکنیکها ، لازم است که تحلیل گر مدلی خلق کند و فرآیند گر دآوری دانش را سازمان دهد.
اما امروزه این روش ها به تنهایی کافی نیستند و باید از روش ها ی خود کار استفاده کرد.
داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای.
این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها ، الگوها و روابط مخفی را کشف کند. ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربر اتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند. این تکنولوژی نوظهور، اخیرًا به طور
فرایند های در تحلیل ها مورد استفاده قرار می گیرد

داده کاوی پیشگویانه رایج ترین نوع داده کاوی است و با برنامه های کاربردی تجاری در ارتباط مستقیم است . فرایند داده کاوی از سه مرحله تشکیل شده است.
ا- کاوش اولیه (initial exploration )
2-ساختن مدل یا شناسایی الگو بوسیلة سنجیدن اعتبار وصحت داده ها
3-گسترش

 

1- مرحله کاوش(Exploration) :
این مرحله معمولاً با آماده سازی داده ها آغاز می شود که تشکیل شده است از پاکسازی داده ها (cleaning data) ،تغیر شکل داده ها، انتخاب زیر مجموعه ای از رکورد ها (در زمانی که مجموعه ای از داده ها با حجم بالایی از فیلد ها موجود است) و انجام دادن برخی عملیات اولیه جهت قرار دادن متغیر ها در یک بازة قابل مدیریت،که بستگی به روش آماری ای که مورد نظراست دارد و پس ازآن به طبیعت مسئله تحت بررسی مربوط می شود.
مرحلهُ اول فرآیند داده کاوی می تواند در هر جایی از گسترة ، انتحاب یک روش مستقیم پیشگویی تا یک روش تجزیه و تحلیل با جزئیات وزحمت بالا قرار داشته باشد .(جهت کسب اطلاعات وسیع تر به قسمت EDA مراجعه کنید).
این مدل جهت شناسایی متغییر هایی که بیشتر از همه با موضوع مرتبط هستند و جهت مشخص کردن پیچیدگی و طبیعت کلی مسئله در مراحل بعدی مورد استفاده قرار میگیرد .

 

مرحله 2- ساختن مدل و معتبر سازی (model building and validation):
این مرحله در گیر در نظر گرفتن مدل های مختلف،و انتخاب بهترین آنها بر اساس کارایی در پیشگویی ، می باشد.(برای مثال تعییرات سوُالات را تشریح کندونتایج ثابتی در مقابل نمونه ها تولید کند.) شاید این به نظر عملیات ساده ای بیاید. ولی در واقع بعضی از مواقع در گیر یکسری فرآیند های پیچیده می شود.روشهای مختلفی جهت رسیدن به این هدف وجود دارد که آنها را روشهای ارزیابی رقابتی مدل ها (competitive evaluation of models ) می نامند که مدلهای مختلفی را بر روی یک دادهُ ثابت اعمال می کند و سپس کارایی آنها بررسی می شود تا بهترین آنها انتخاب گردد. این روش ها که در خیلی از مواقع به عنوان هستهُ داده کاوی پیشگویانه تلقی می گردند و شامل طبقه بندی کردن(bagging،)، ترقی دادن (boosting ) ،انباشتن (stacking )و یادگیری غیر نمادین(meta learning )میباشند.

 

مرحلة3- مرحلهُ گسترش Deployment):( :
در آخرین مرحله مدلی که به عنوای بهترین مدل در مرحلة قبلی انتخاب شده بود بر روی داده های جدید به منظور تولید پیشگویی یا بر آورد خروجی مورد انتظار اعمال میگردد.
شهرت داده کاوی به طور روز افزونی به عنوان یک ا بزار مدیریت تجاری داده ها شهرت یافته است و انتظار می رود بتواند ساختار های دانشی را نمایان سازد که در شرایط عدم قطعیت تصمیمات گرفته شده را هدایت کند.
روشهای تحلیلی جدید خصوصاً جهت نشان دادن مسائل مرتبط با داده کاوی تجاری ،اخیراًبسیار مورد توجه بوده اند (به عنوان مثال درخت های رده بندی) ، با این حال داده کاوی هنوز مبتنی بر قواعد مفهومی روشهای دستیابی قدیمی نظیر آنالیز اکتشافی داده ها (EDA) و مدلساری میباشد. وقسمت هایی از دست آورد های عمومی و بعضی از تکنیک های خاص خود را با آنها به اشتراک می گذارد.
بهرحال تفاوت زیادی در نفطه نظرات و اهداف داده کاوی و روش آنالیز اکتشافی داده ها (EDA) وجود دارد . داده کاوی بیشتر متمایل به کاربردها است تا طبیعت اصلی پدیدة مورد بررسی.به عبارت دیگر داده کاوی کمتر به شناسایی روابط خاص موجود بین متغیرها می پردازد.برای مثال آشکار کردن توابع و انواع داده ای خاصی که بر روابط تعاملی و چند متغیری که بین متغیرها وجود دارد هدف اصلی داده کاوی نمی باشد. در عوض توجه خود را به ایجاد روشی که بتواند پیشگویی قابل استفاده ای تولید کند معطوف می سازد. و به همین دلیل است که داده کاوی از بین دست آوردهای جعبه سیاه(black box ) در کاوش داده ها یا اکتشاف دانش مقبولیت بیشتری دارد. و نه تنها از روش های سنتی آنالیز اکتشافی داده ها (exploratory data analysis (استفاده می کند بلکه از روشهایی مانند شبکه های عصبی ( Neural network ) که می تواند پیشگویی های معتبری تولید کند ولی قادر به شناسایی طبیعت خاص روابط داخلی بین متغیرهایی که پیشگویی ها بر اساس آنها صورت گرفته است نمیباشد سود می جوید.
مفاهیم تعیین کننده در داده کاوی:
1-هم پیوندی (Bagging) :
هم پیوندی قابلیتی برای یافتن روابط ناشناخته موجود در اطلاعات است. این روابط مواردی از قبیل اینکه
حضور مجموعه ای از مقولات اشاره به این دارند که مجموعه مقولات دیگری نیز احتمالا وجود دارند را
شامل می شود. این قابلیت اساسًا روشی است برای اینکه کشف کنیم چه مقولاتی به هم می خورند. از آن با عنوان تحلیل سبد بازار یا گروه بندی خویشاوندی نیز یاد می شود.
برای مثال، گزار شهای هم پیوندی چنین شکلی دارند:"٪ ٨٠ مشتریانی که کالای A را خریداری نموده اند، کالای Bرا نیز خریده اند." درصد خاص وقوع وقایع) مثلا ٪ ٨٠ این نمونه ( را فاکتور اطمینان هم پیوندی B و A می نامند. همچنین ممکن است هم پیوندی های چند گانه وجود داشته باشد: "٪ ٧٥ مشتریانی که کالای D را خریداری نموده اند، کالای Cرا نیز خریده اند."
کاربرد های هم پیوندی عبارتند از برنامه ریزی موجودی، برنامه ریزی تبلیغاتی برای فروش و مراسلات بازاریابی مستقیم.
مفهوم Bagging (راُی دادن به رده بندی و بدست آوردن متوسط مسائلی که دارای متغیر هایی با مقادیر متوسط وابسته میباشند)و در گسترة داده کاوی اعمال می گردد تا طبقه بندی های پیشگویانه را از مدل های چندگانه یا از یک نوع مدل ، برای درک اطلاعات ترکیب کند . و همچنین جهت نشان دادن بی ثبا تی ماندگار نتایج در زمانی که مدل های پیچیده به مجموعه های کوچک داده ها اعمال می شوند به کار می رود. فرض کنید که عمل داده کاوی شما می خواهد یک مدل جهت طبقه بندی پیشگویا نه بسازد و مجموعة داده های آن نسبتاً کوچک است . شما می توانید به صورت متوالی مجموعه داده ها را به نمونه های کوجکتر تقسیم کنید و اعمال کنید همانند رده بندی درختی تا به نمونه مورد نظر برسید.در عمل درخت های متفاوتی برای نمونه های منقاوت بسط داده میشوند.یکی از روش های استنتاج یک پیشگویی استفاده از قالب درختی در نمونه های مختلف است و پس از آن برخی نظریات بر روی آن اعمال می گردد.
طبقه بندی نهایی طبقه بندی است که عموماً توسط درخت های متفاوت پیشگویی می شود. توجه داشته باشید که برخی از ترکیب های وزن دار از پیشگویی ها نیز محتمل است و عموماً مورد استفاده قرار می گیرد. یک الگوریتم پیشرفته جهت ایجاد وزن برای پیشگویی های وزن دار یا voting رویه های Boosting هستند.

 

2-طبقه بندی) Boosting ( :
طبقه بندی در واقع ارزشیابی ویژگیهای مجموعه ای از داد ه ها و سپس اختصاص دادن آ نها به مجموعه ای از گرو ههای از پیش تعریف شده است. این متداولترین قابلیت داده کاوی می باشد. داده کاوی را می توان با استفاده از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی های داده ها به کار برد. سپس می توان از این مدل تعریف شده برای طبقه بندی مجموعه داده های جدید استفاده کرد. همچنین می توان با تعیین نمایی که با آن سازگار است برای پیش بینی های آتی از آن بهره گرفت.
برای مثال، برای طبقه بندی تخلفات و کلاهبرداری ها در صنعت و اعتبارات، با استفاده از قابلیت طبقه بندی داده کاوی، سیستم با استفاده از مجموعه ای از پیش تعریف شده از داده ها، تعلیم می بیند. مجموعه داد ه های مورد استفاده در این نمونه باید هم شامل مجموعه هایی از داد ه های معتبر باشند و هم شامل مجموعه هایی از داد ه های جعلی. از آن جا که این داده ها از پیش تعریف شده هستند، سیستم پارامترهایی را می یابد که می توان از آ نها برای تشخیص طبقه بندی های متمایز استفاده کرد. بعد از تعیین پارامترها سیستم از آ نها برای طبقه بندی های بعدی بهره خواهد گرفت.
در واقع سیستم هایی که بر اساس طبقه بندی داده کاوی می کنند، دو مجموعه ورودی دارند: یک مجموعه آموزشی که در آن داده هایی که به طور پیش فرض در دسته های مختلفی قرار دارند، همراه با ساختار دسته بندی خود وارد سیستم می شوند و سیستم بر اساس آ نها به خود آموزش می دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می کند. دسته دیگر از ورودی هایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم می شوند.
تکنیک های داده کاوی که برای دسته بندی به کار می آیند عمومًا شامل تکنیک های شبکه عصبی و درخت تصمیم گیری هستند.
یکی از متغیرهای مهم در قابلیت دسته بندی برآورد یا امتیاز دهی است. هر جا طبقه بندی یک پاسخ دو تایی مثل بله و خیر ارائه کند، برآورد یک درجه بندی مثل پایین بالا و یا متوسط ارائه می کند. در اصل برآورد، چندین نما در امتداد مجموعه ای از داده ها فراهم می آورد که نشان دهنده درجه تعلق یک نما به یک مجموعه است.
کاربرد قابلیت طبقه بندی در بازاریابی هدف، تصویب اعتبار و بررسی تقلب، است
مفهوم Boosting در گسترة داده کاوی پیشگویانه مطرح می شود و جهت ایجاد مدل ها و طبقه بندی های چند گانه مورد استفاده قرار می گیرد و همچنین برای استنتاج وزن ها برای ترکیب پیشگویی ها از آن مدل ها در یک پیشگویی واحد یا یک ردة پیشگویی به کار می رود.
یک الگوریتم ساده جهت Boosting به صورت این صورت عمل می کند که ابتدا کار را با اعمال کردن روش هایی بر روی learning data آغاز می کنیم (مانند طبقه بندی کننده های درختی )و به هر مشاهده وزن یکسانی نسبت می دهیم. طبقه بندی های پیشگویی شده را محاسبه کنید و وزن های تعیین شده را بر روی مشاهدات نمونه مورد بررسی که نسبت معکوس با دقت طبقه بندی دارند اعمال کنید .به عبارت ساده تر به مشاهداتی که طبقه بندی آنها دشوار تر است وزن بیشتری را اختصاص بدهید .(یعنی نرخ عدم طبقه بندی آنها بالا بوده است) و وزن کمتری را به آنهایی که طبقه بندی آنها ساده تر بوده است نسبت بدهید.(نرخ عدم طبقه بندی پایین بوده است )،سپس طبقه بندی را دوباره به داده های وزن دار اعمال کنیدو در طی چرخه بعدی این عملیات را ادامه دهید.
Boosting یک توالی از طبقه بندی ها ایجاد می کند .که هر توالی طبقه بندی در این روندیک متخصص در امر طبقه بندی مشاهداتی که پیش بینی آنها ساده نبوده است خواهد بود ، وسپس پیشگویی های انجام شده توسط طبقه بندی کننده های مختلف با یکدیگر ترکیب می شوند تا یک پیشگویی یا طبقه بندی بهینه ارائه دهند.
٣.الگوهای ترتیبی :
قابلیتهای ترتیبی هم مانند قابلیتهای هم پیوندی این خاصیت را دارند که می توانند وقایع را با هم مرتبط
کنند. این کار در هم پیوندی سنتی یا تحلیل سبد بازار مجموعه ای از مقولات را به عنوان مقولات پشت سر هم ارزیابی می کنند و از ابزارهایی مثل سر یهای زمانی هم برای تعیین ترتیب بهره می برند. الگوهای ترتیبی علاوه بر آن، این قابلیت جدید را هم دارند که می توانند فاصله زمانی بین دو واقعه را تخمین بزنند. برای مثال این قابلیت امکان نتیجه گیری هایی از قبیل اینکه " ٪ ٨٠ افرادی که کامپیوتر می خرند ظرف مدت ١ سال چاپگر هم خواهند خرید." را مهیا می نماید. به این ترتیب شناسایی نوعی از خریدهای مقدماتی که پتانسیل خریدهای بعدی را در آینده تعیین می کنند، عملی می شود. در نتیجه از چنین تحلیل هایی به شدت در تبلیغات فروش استفاده می گردد.

 

٤.خوشه بندی(clustering) :
قابلیت خوشه بندی وظیفه تقسیم یک گروه ناهمجنس را در چندین زیر گروه بر عهده دارد. این فرایند یک تفاوت اساسی با طبقه بندی دارد. زیرا در این مدل هیچ گونه الگوی آموزشی نداریم. خوشه بندی به طور خودکار ویژگی های متمایز کننده زیر گروه ها را تعریف می کند و زیر گرو هها را سازماندهی می نماید. و به عنوان نوعی قابلیت داده کاوی غیر مستقیم مطرح است.
این ابزارها پایگاه داده را بر اساس ویژگی های داده ها به چندین بخش تقسیم می کنند و گروه هایی از رکوردها را به وجود می آورند که نمایانگر یا صاحب صفت خاصی هستند. الگوهای به دست آمده در ذات پایگاه داده نهادینه هستند و نشانگر بعضی اطلاعات غیر منتظره و در عین حال ارزشمند شرکتی باشند.
مثالی از کاربردهای خوشه بندی در تقسیم بندی افرادی است که به پرسش نامه ای پاسخ داده اند. از این کار می توان در تقسیم بندی مشتریانی که به پرسش نامه ها پاسخ داده اند در گروه هایی که اعضای آن بیشترین شباهت را با یکدیگر و بیشترین تفاوت را با اعضای سایر گروه ها دارند، استفاده کرد. بعد از بخش بندی جمعیتی با استفاده از قابلیت خوشه بندی می توان بر روی خوشه های مشخص شده تحلیل هم پیوندی انجام داد تا خریدهای به هم مرتبط یک گروه جمعیتی خاص شناخته شوند.
کاربرد خوشه بندی برای تعیین بهترین گروه های جامعه شناختی برای اهداف خاص بازاریابی است.
اغلب از خوشه بندی به عنوان اولین گام فراین دهای داده کاوی یاد می شود که قبل از سایر فرایند ها برای شناسایی گروهی از رکوردهای مرتبط با هم که بعدًا بتوانند نقطه آغاز تحلیلها باشند بر روی رکوردها اعمال می شود.

 

تهیه مقدمات جهت داده کاوی :
تهیه مقدمات لازم و انجام پاکسازی از جمله مراحل بسیار مهّم ولی عموماً غفلت شده در فرایند داده کاوی می باشد. مصداق آن در بسیاری از پروژه های داده کاوی است که در آنها مجموعه ای از داده ها بوسیلة برخی روشهای اتوماتیک بدست می آیند. عموماً روشهایی که توسط آنها داده هاحمع آوری می شوند بدرستی کنترل نشده است ( مثل web )و مثلاً داده ها ممکن است شامل مقادیر خارج از محدوده باشند
(مثل 100- = درآمد) و ترکیبات غیر ممکن داده ها و آنالیز داده هایی که با دقت انتخاب نشده اند در چنین مسائلی منجر به تولید نتایج منحرف کننده ای می گردد. خصوصاً در داده کاوی پیشگویانه این مشکل بسیار محسوس است.

 

فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد

تعداد صفحات این مقاله   47 صفحه

پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید


دانلود با لینک مستقیم


دانلودمقاله Data mining

پایان نامه در مورد Data mining

اختصاصی از سورنا فایل پایان نامه در مورد Data mining دانلود با لینک مستقیم و پر سرعت .

پایان نامه در مورد Data mining


پایان نامه در مورد Data mining

لینک پرداخت و دانلود *پایین مطلب*

 

فرمت فایل:Word (قابل ویرایش و آماده پرینت)

  

تعداد صفحه46

 

فهرست مطالب

 

 

   داده کاوی (Data mining)    :                    

1- مرحله کاوش(Exploration)  :

مرحله 2- ساختن مدل و معتبر سازی (model

building and validation):

مرحلة3- مرحلهُ گسترش Deployment):( :

مفاهیم تعیین کننده در داده کاوی:

1-هم پیوندی (Bagging) :

2-طبقه بندی) Boosting  (  :

٤.خوشه بندی(clustering) :

٣.الگوهای ترتیبی :

       داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای.

این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها , الگوها و روابط مخفی را کشف کند. ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربراتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند. این تکنولوژی نوظهور، اخیرًا به طورفزایند های در تحلیل ها مورد استفاده قرار می گیرد.

 

    کلمات کلیدی :

          Data mining, Predictive data mining, Exploration data analysis,

         Data warehousing, Olap, neural network, Deployment , machine

         Learning, Meta-learning, Bagging , Boosting , clustering , Eda

         Drill-down analysis, Stacket generalization , classification       

 

 

مقدمه :

          امروزه با حجم عظیمی از داده ها روبرو هستیم. برای استفاده از آنها به ابزارهای کشف دانش نیاز داریم. داده کاوی به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار می گیرد. داده کاوی در علوم (ستاره شناسی،...)‌در تجارت (تبلیغات، مدیریت ارتباط با مشتری،...) در وب (موتورهای جستجو،...) در مسایل دولتی (فعالیتهای ضد تروریستی،...) کاربرد دارد.  عبارت داده کاوی شباهت به استخراج زغال سنگ و طلا دارد. داده کاوی نیز اطلاعات را که در انبارهای داده مدفون شده است، استخراج می کند.

در واقع هـــــدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است. این مدلها رفتارهای آینده را براساس تحلیلهای گذشته پیش بینی می کنند. به کاربردن داده کاوی به عنوان اهرمی برای آماده سازی داده ها و تکمیل قابلیتهای انباره داده ، بهترین موقعیت را برای به دست آوردن برتریهای رقابتی ایجاد می کند.


دانلود با لینک مستقیم


پایان نامه در مورد Data mining