مصور سازی

1 1 1 1 1 1 1 1 1 1 میانگین امتیاز 5.00 (1 رای)
امتیاز کاربران

مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد (Florin Gorunescu,2011). مصورسازی هر روشی برای درست کردن عکس‌ها، دیاگرام ها برای انتقال یک پیام می باشد(Wikipedia).
 
مصورسازی یکی از بهترین روش‌ها برای بیان و ارائه نتایج و تحلیل های داده کاوی می باشد. با استفاده از روش‌های مصورسازی داده ها علاوه بر اینکه می توان نتایج بدست آمده را ارائه داد، همچنین می توان به کشف دانش از نمودارها و دیاگرام ها پرداخت.
به طور مثال شکل 1 نمایانگر نمودار پراکندگی سن و کلسترول عده ای از بیماران یک بیمارستان می باشد. دایره قرمز در شکل 1 بیمارانی را شامل می شود که بیش از 50 سال سن دارند و کلسترول آنها نسبت به سایر بیماران بیشتر می باشد. این موضوع در حقیقت به منزله دانشی است که ما توانستیم از این نمودار کسب کنیم. هرچند این دانش خیلی ابتدایی می باشد.
 Visualization-intro-1

شکل 1- نمودار پراکندگی سن و کلسترول بیماران


نمودارها و چارت ها تنوع، اشکال و کاربردهای بسیار زیادی دارند. چهره های کرنوف توسط هرمن کرنوف ابداع شده اند. این نوع از نمودارها داده های چند متغیره را توسط چهره های ساده ای از انسان نمایش می دهند. هر جزء از صورت مانند، چشم ها، گوش ها، دهان و بینی مقادیری از متغیرها را با توجه به اندازه و شکل خود نمایان می سازند. ایده استفاده از صورت انسان به این منظور این است که انسان هر تغییر کوچکی را در این شکل ها به راحتی می تواند تشخیص دهد (Wikipedia).
اگر نمونه های موجود در شکل 1 را بخواهیم یا نمودار چهره کرنوف رسم کنیم شکل شماره 2 حاصل می گردد.
 Visualization-intro-2

شکل 2

 

{jcomments on}

 

این صفحه را به اشتراک بگذارید

 

قواعد انجمنی

1 1 1 1 1 1 1 1 1 1 میانگین امتیاز 3.92 (6 رای)
امتیاز کاربران

تحلیل انجمنی (وابستگی)، مطالعه صفات یا ویژگی هایی می باشد که با همدیگر می آیند. روش های تحلیل وابستگی، وابستگی بین مشخصه ها را  کشف می کنند به این معنی که آنها قواعدی را پیدا می‌کنند که با استفاده از آنها بتوان روابط بین یک یا چند مشخصه را کمی سازی نمود(larose 2005).
 
قواعد انجمنی (قواعد وابستگی) به شکل "اگر قسمت مقدم قاعده آنگاه قسمت تالی قاعده" به طور مثال "اگر شخصی چیپس بخرد آنگاه ماست هم می خرد". از جمله کاربردهای این نوع قواعد استفاده از قواعد وابستگی در تحلیل سبد خرید مشتریان یک فروشگاه می باشد.
به طور مثال فرض کنید اطلاعات مربوط به سبد خرید پنج مشتری یک فروشگاه را در اختیار داریم. جدول شماره 1 اطلاعات سبد خرید این مشتریان را نمایش می‌دهد.

جدول 1- داده‌های مربوط به سبد خرید مشتریان یک فروشگاه
ASRM-intro-1 

در جدول 1 همانطور که ملاحظه می کنید، هر ردیف نمایانگر یک تراکنش (هربار خرید) می‌باشد. در این جدول 1 ها به معنی این هستند که مشتری آن جنس را خریده و 0 ها به این معنی هستند که مشتری آن جنس را نخریده است.
با توحه به داده های موجود در جدول 1برای مشتری 1 به طور ساده می توان گفت اگر مشتری 1 شیر خریده باشد آنگاه چیپس هم خریده یا می توان گفت اگر مشتری 1 چیپس خریده آنگاه ماست هم خریده.
حال برای پیدا کردن قواعد اگر و آنگاهی که برای همه این رکوردها صادق باشند می توان این قواعد را بر اساس داده های موجود در جدول 1 استخراج نمود به طور مثال قاعده الف می تواند این باشد، "اگر هر مشتری چیپس بخرد آنگاه ماست هم می خرد" البته با پشتیبانی 60% از رکوردها و اطمینان 75%.
در قاعده الف، پشتیبانی 60% به این معنی است که این قاعده فقط بر روی 3 مشتری (مشتری 1و3و4)  از 5 مشتری صادق می باشد. یعنی فقط این مشتریان هستند که هم چیپس خریده‌اند و هم ماست. منظور از اطمینان این است که فقط 3 مشتری (مشتری 1و3و4) از 4 مشتری (مشتری 1و3و4و5) که چیپس خریده اند، ماست هم خریده اند. مشتری 5 چیپس خریده اما ماست نخریده است.
شاخص های پشتیبانی و اطمینان اغلب با قواعد وابستگی ذکر می شوند. هرچقدر میزان این دو شاخص به عدد 1 (100%) نزدیک تر باشد، قاعده بدست آمده مورد اطمینان‌تر، محکم‌تر و قابل اعمال کردن می‌باشد.
البته باید توجه داشته باشیم در دنیای واقعی اطلاعات مربوط به هزاران مشتری وجود دارد که باید آنالیز شوند و با تحلیل‌های چشمی و شمارشی نمی توان آنها را تحلیل نمود. روش‌های کشف قواعد وابستگی به ما کمک می کنند تا بتوانیم رکوردهای بسیار زیادی را هم زمان تحلیل نماییم.
برخی از روش‌های قواعد انجمنی عبارتند از:
1)    روش Apriori
2)    روش Eclat
3)    روش FP-growth
برخی از کاربردهای روش های قواعد انجمنی در دنیای واقعی عبارتند از:
1)    آنالیز سبد خرید مشتریان
2)    تهیه نرم افزارهای پیشنهاد دهی در سایت ها
3)    پیدا کردن روابط بین دلیل خرابی و نوع خرابی دستگاه ها

{jcomments on}

 

این صفحه را به اشتراک بگذارید

 

شما اینجا هستید: خانه مقالات مفاهیم و تئوری ها

مایل به شرکت در کدامیک از دوره های زیر هستید؟

داده کاوی - 60.7%
متن کاوی - 19.7%
وب کاوی - 9.8%
آموزش پروپزال نویسی - 3.3%
عقیده کاوی و تحلیل احساسات - 6.6%

كل آرا: 61
اين نظرسنجي به پايان رسيده است on: 19 سپتامبر 2014 - 00:00

جملات طلایی

نظر BBC در مورد داده کاوی

درمستندی از سوی شبکه BBC که در آن علم داده های بزرگ بررسی شد

ادامه مطلب...

فرضیه سازی قبل از وجود داده

اشتباه خیلی بزرگی است که قبل از وجود داده به فرضیه پردازی روی بیاوریم.

از: Arthur Conan Doyle

ادامه مطلب...