مصور سازی
- توضیحات
- دسته: مفاهیم و تئوری ها
- منتشر شده در 21 مهر 1392
- نوشته شده توسط Taha Mokfi
- بازدید: 25547
مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد (Florin Gorunescu,2011). مصورسازی هر روشی برای درست کردن عکسها، دیاگرام ها برای انتقال یک پیام می باشد(Wikipedia).
مصورسازی یکی از بهترین روشها برای بیان و ارائه نتایج و تحلیل های داده کاوی می باشد. با استفاده از روشهای مصورسازی داده ها علاوه بر اینکه می توان نتایج بدست آمده را ارائه داد، همچنین می توان به کشف دانش از نمودارها و دیاگرام ها پرداخت.
به طور مثال شکل 1 نمایانگر نمودار پراکندگی سن و کلسترول عده ای از بیماران یک بیمارستان می باشد. دایره قرمز در شکل 1 بیمارانی را شامل می شود که بیش از 50 سال سن دارند و کلسترول آنها نسبت به سایر بیماران بیشتر می باشد. این موضوع در حقیقت به منزله دانشی است که ما توانستیم از این نمودار کسب کنیم. هرچند این دانش خیلی ابتدایی می باشد.
شکل 1- نمودار پراکندگی سن و کلسترول بیماران
نمودارها و چارت ها تنوع، اشکال و کاربردهای بسیار زیادی دارند. چهره های کرنوف توسط هرمن کرنوف ابداع شده اند. این نوع از نمودارها داده های چند متغیره را توسط چهره های ساده ای از انسان نمایش می دهند. هر جزء از صورت مانند، چشم ها، گوش ها، دهان و بینی مقادیری از متغیرها را با توجه به اندازه و شکل خود نمایان می سازند. ایده استفاده از صورت انسان به این منظور این است که انسان هر تغییر کوچکی را در این شکل ها به راحتی می تواند تشخیص دهد (Wikipedia).
اگر نمونه های موجود در شکل 1 را بخواهیم یا نمودار چهره کرنوف رسم کنیم شکل شماره 2 حاصل می گردد.
شکل 2
{jcomments on}
قواعد انجمنی
- توضیحات
- دسته: مفاهیم و تئوری ها
- منتشر شده در 21 مهر 1392
- نوشته شده توسط Taha Mokfi
- بازدید: 5062
تحلیل انجمنی (وابستگی)، مطالعه صفات یا ویژگی هایی می باشد که با همدیگر می آیند. روش های تحلیل وابستگی، وابستگی بین مشخصه ها را کشف می کنند به این معنی که آنها قواعدی را پیدا میکنند که با استفاده از آنها بتوان روابط بین یک یا چند مشخصه را کمی سازی نمود(larose 2005).
قواعد انجمنی (قواعد وابستگی) به شکل "اگر قسمت مقدم قاعده آنگاه قسمت تالی قاعده" به طور مثال "اگر شخصی چیپس بخرد آنگاه ماست هم می خرد". از جمله کاربردهای این نوع قواعد استفاده از قواعد وابستگی در تحلیل سبد خرید مشتریان یک فروشگاه می باشد.
به طور مثال فرض کنید اطلاعات مربوط به سبد خرید پنج مشتری یک فروشگاه را در اختیار داریم. جدول شماره 1 اطلاعات سبد خرید این مشتریان را نمایش میدهد.
جدول 1- دادههای مربوط به سبد خرید مشتریان یک فروشگاه
در جدول 1 همانطور که ملاحظه می کنید، هر ردیف نمایانگر یک تراکنش (هربار خرید) میباشد. در این جدول 1 ها به معنی این هستند که مشتری آن جنس را خریده و 0 ها به این معنی هستند که مشتری آن جنس را نخریده است.
با توحه به داده های موجود در جدول 1برای مشتری 1 به طور ساده می توان گفت اگر مشتری 1 شیر خریده باشد آنگاه چیپس هم خریده یا می توان گفت اگر مشتری 1 چیپس خریده آنگاه ماست هم خریده.
حال برای پیدا کردن قواعد اگر و آنگاهی که برای همه این رکوردها صادق باشند می توان این قواعد را بر اساس داده های موجود در جدول 1 استخراج نمود به طور مثال قاعده الف می تواند این باشد، "اگر هر مشتری چیپس بخرد آنگاه ماست هم می خرد" البته با پشتیبانی 60% از رکوردها و اطمینان 75%.
در قاعده الف، پشتیبانی 60% به این معنی است که این قاعده فقط بر روی 3 مشتری (مشتری 1و3و4) از 5 مشتری صادق می باشد. یعنی فقط این مشتریان هستند که هم چیپس خریدهاند و هم ماست. منظور از اطمینان این است که فقط 3 مشتری (مشتری 1و3و4) از 4 مشتری (مشتری 1و3و4و5) که چیپس خریده اند، ماست هم خریده اند. مشتری 5 چیپس خریده اما ماست نخریده است.
شاخص های پشتیبانی و اطمینان اغلب با قواعد وابستگی ذکر می شوند. هرچقدر میزان این دو شاخص به عدد 1 (100%) نزدیک تر باشد، قاعده بدست آمده مورد اطمینانتر، محکمتر و قابل اعمال کردن میباشد.
البته باید توجه داشته باشیم در دنیای واقعی اطلاعات مربوط به هزاران مشتری وجود دارد که باید آنالیز شوند و با تحلیلهای چشمی و شمارشی نمی توان آنها را تحلیل نمود. روشهای کشف قواعد وابستگی به ما کمک می کنند تا بتوانیم رکوردهای بسیار زیادی را هم زمان تحلیل نماییم.
برخی از روشهای قواعد انجمنی عبارتند از:
1) روش Apriori
2) روش Eclat
3) روش FP-growth
برخی از کاربردهای روش های قواعد انجمنی در دنیای واقعی عبارتند از:
1) آنالیز سبد خرید مشتریان
2) تهیه نرم افزارهای پیشنهاد دهی در سایت ها
3) پیدا کردن روابط بین دلیل خرابی و نوع خرابی دستگاه ها
{jcomments on}