چکیده
حجم بزرگ داده ها به تنهایی به مدیران سازمان ها در تصمیم سازی و تصمیم گیری هیچ کمکی نمی کند، بلکه باعث سردرگمی مدیران سازمان ها نیز می شود.بنابراین مدیریت داده های خام و تبدیل داده های خارجی و داخلی سازمان به اطلاعات و دانش با استفاده از تکنیک های گوناگون،نقش اساسی و محوری دارد.از تکنیک های معروف در این زمینه داده کاوی است،که می تواند بر روی بانک اطلاعاتی انجام شود و دانش مورد نیاز را بدست آورد.در فصل اول به بررسی این مفهوم پرداختیم. کاوش خوشه ها نیز یکی از تکنیک های حائز اهمیت در زمینه رو به رشد،معروف به داده کاوی اکتشافی می باشد که در رشته های گوناگون مهندسی و علمی از قبیل زیست شناسی،روان شناسی،پزشکی،بازاریابی،کامپیوتر و نقشه برداری ماهواره ای به کار گرفته شده است. این مفهوم در فصل های سوم و چهارم دنبال شده است.در فصل سوم به یکی از الگوریتم های خوشه بندی به نام CStree پرداخته شده و نقاط ضعف این الگوریتم نیز مطرح شده است .تحلیل خوشه ها،اطلاعات را بوسیله یک ساختار اساسی مختصر بدو شکل گروه بندی تنها یا گروه بندی سلسله مراتبی سازماندهی می نماید.خوشه بندی ،ابزاری برای اکتشاف ساختارهایی از درون داده هاست که نیاز به هیچ فرضی از آنها نیست.این روش در هوش مصنوعی و شناسایی الگو،یادگیری بدون ناظر نامیده می شود.الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون مجموعه اطلاعات مختلف وجود دارد.اما عموما این الگوریتم ها حساس به داده های مورد آزمایش و برخی پارامترهای اولیه می باشند،لذا نتایج حاصل از آنها وابسته به ساختار داده ها می باشد.تاکنون الگوریتمی ارائه نشده است که بتواند هر گونه ساختار داده ای را استخراج نماید. یکی دیگر از پدیده های نوظهور در دنیای اطلاعات،داده های جریانی می باشند.این پدیده که در فصل چهارم مطرح شده است،اشاره به حجم وسیعی از اطلاعات انباشته شده دارد که محدودیت های فراوانی برای پردازش ایجاد کرده اند.اندازه این داده ها بیش از حافظه اصلی،یکی از این موانع می باشد.لذا می بایست الگوریتم های جدیدی برای برخورد با این گونه داده ها توسعه یابند.
کلمات کلیدی: داده کاوی، دسته بندی، خوشه بندی، جریان داده
فهرست مطالب
فصل اول مقدمه ای بر داده کاوی. 1
1-2عامل مسبب پیدایش داده کاوی. 2
1-3داده کاوی و مفهوم اکتشاف دانش (K.D.D) 3
4-3-1 چه نوع دادههایی مورد کاوش قرار می گیرند؟ 8
2-4-1 مراحل یک الگوریتم کلاسبندی. 11
3-4-1 انواع روشهای کلاسبندی. 11
2-1-3-4-1 دسته بندی با درخت تصمیم. 15
3-1-3-4-1 انواع درختهای تصمیم. 17
4-1-3-4-1 نحوهی هرس کردن درخت.. 17
2-2-3-4-1 دسته بندی ساده بیزی. 22
4-4-1 ارزیابی روشهای کلاسبندی. 28
4-1-6 انواع روشهای پیش بینی. 29
2 1-تعریف فرایند خوشهبندی. 35
2-2 روش ها و الگوریتمهای خوشهبندی. 36
2-3 روش و الگوریتم سلسله مراتبی. 37
2 3-1-روش های سلسلهمراتبی. 37
2 3-2-الگوریتم های سلسله مراتبی. 38
2-3-3- الگوریتم خوشه بندی single-linkage. 39
2 3-4-الگوریتمهای تفکیک... 45
3-7-2 روشهای متکی بر مدل. 47
3-2 مروری بر روش های خوشه بندی جریان داده 50
3-3 خوشه بندی توری جریان داده 52
3-1-3 مروری بر روش خوشه بندی توری CS tree. 53
3-2- 3 بررسی نقاط ضعف الگوریتم CS tree. 56
3-1-4 بازتعریف مفهوم همسایگی و رفع مشکل تقسیم بی معنی خوشه ها 63
3-5 اصلاح روند بروز رسانی خوشه ها 66
3-6 اصلاح ساختار نمایش خوشه ها 67
فصل چهارم جریان داده و مدل های ان. 69
4-2 کاربردهای داده های جریانی. 71
4-4-1 تکنیک های مبتنی بر داده 76
4-4-2 تکنیک های مبتنی بر وظیفه 78
4-4-2-1 الگوریتم های تخمین. 79
4-4-2-2 الگوریتم های مبتنی بر پنجره 79
4-4-2-3 الگوریتم های دانه دانه سازی نتایج. 80
4-5 خوشه بندی داده های جریانی. 80
4-5-2-1 الگوریتم مبتنی بر چگالی DBSCAN.. 87
4-5-2-2 الگوریتم مبتنی بر گریدSTING.. 90
4-6 بحث در مورد الگوریتم ها 93
4-6-1 ایا توسعه روش های سنتی درست است؟ 93
4-6-2 روش های جدید چه پیشنهاداتی دارند؟ 94
فهرست اشکال
شکل1-2 نمونه یک درخت تصمیم.. 13
شکل 1-3 یک تقسیم بندی خوب ، درجه خلوص را برای فرزندان افزایش می دهد. 15
شکل 3-1 تقسیم خوشه های با معنی به زیر خوشه های بی معنی.. 58
شکل3 -3 روی هم افتادگی خوشه ها در بروز رسانی به روش Cs tree. 60
شکل 4-2 الگوریتم خوشه بندی CLARA.. 82
شکل 4-3 الگوریتم خوشه بندی CLARANS . 84
شکل 4-4 الگوریتم خوشه بندی BIRCH.. 86
شکل 4-6 الگوریتم خوشه بندی.STING.. 92
فصل اول مقدمه ای بر داده کاوی
1-1 مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده های ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .با استفاده از ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان انها بپردازند اما وقتی که حجم داده ها خیلی بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شوند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی یکی از مهمترین این روشها است که به وسیله ان الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس انها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
1-2عامل مسبب پیدایش داده کاوی
اصلی ترین دلیلی که باعث شده داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها,اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست امده در کاربردهای وسیعی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات جمع اوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها.
تکامل تکنولوژی پایگاه داده و استفاده فراوان ان در کاربردهای مختلف سبب جمع اوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.
ابزارهای داده کاوی داده ها را انالیز می کنند و الگوهای داده ها را کشف می کنند که می توان از ان در کاربردهایی نظیر تعیین استراتژی برای کسب و کار، پایگاه دانش و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم
پـــایــان نــامه روش های خوشه بندی جریان داده