
عبور از اصطلاح داده کاوی به اصطلاح کلان

این مقاله به تغییرات روند در آنالیز داده و معروفیت اصطلاحات مختلف، مانند آمار، داده کاوی، کشف دانش از داده، آنالیزهای پیش بینی کننده، علم داده و کلان داده و همچنین به بررسی شکاف بین بازاریابی و درک این اصطلاحات می پردازد.
بیشتر روشهای معمول یادگیری از داده در قرن 17 کشف شده اند. سر رولند فیشر (Sir Ronald Fisher (1890-1962 به عنوان پدر آمار نوین شناخته شده است. برخی از تحقیقات وی شامل طراحی آزمایشات، تحلیل واریانس و آزمون ایجاد اعداد تصادفی (که یک روش خوب برای اجتناب از یافتن الگوهای شانسی است) یکی از مشکلات خیلی رایج در داده کاوی می باشند.
در سال 1960 آماردانان از اصطلاحات “data fishing” یا “data dredging” به منظور اشاره به آنچه که فکر میکردند تمرین نه چندان جالبی برای تحلیل دادهها، بدون در نظر گرفتن فرضیات صفر میباشد، استفاده میکردند.
اصطلاح داده کاوی تقریبا در سال 1990 در انجمن پایگاه داده به وجود آمد. بعضی افراد از اصطلاح "پایگاه داده کاوی" “database mining” استفاده کردند. اصطلاحات دیگری نیز در آن زمان استفاده می شد که شامل باستان شناسی داده، درو کردن اطلاعات، کشف اطلاعات و استخراج دانش میشد.
شکل 1. آمارها و تحلیلها در قرن 20
در سال 2003، اصطلاح "داده کاوی" به دلیل وابستگی با برنامهی دولت آمریکا که (Total information Awareness(TIA ذهنیت بدی در بین اذهان ایجاد کرد. تیترهای خبری مانند "سنا برنامه داده کاوی را از بین میبرد"، مربوط به تصمیم سنا در ارتباط با بستن TIA، کمک زیادی به افزایش تصویر منفی ایجاد شده از داده کاوی کرد.
در سال 2006، اصطلاح علم تجزیه و تحلیل (Analytics) یا علم تجزیه و تحلیل کسب و کار، شهرت فراوانی یافت، این اصطلاح با معرفی تحلیلهای گوگل Google Analytics در دسامبر 2005 و بعد در کتابی با نام Competing on Analytics: The New Science of Winning نوشته شده توسط (Thomas H. Davenport and Jeanne G. Harris (March 2007 استخراج شده بود.
شکل2. جستجوی عبارات داده کاوی، تحلیلها، کشف دانش
همانطور که از نمودار فوق پیداست عبارت analytics (یا تجزیه و تحلیل) از سال 1980 استفاده شده است، اما از سال 2005 روند صعودی آغاز کرده است. استفاده از اصطلاح داده کاوی حدود سال 1996 (بلافاصله بعد از اولین کنفرانس KDD-95) جهش داشته است اما بعد از سال 2003 استفاده از این اصطلاح با توجه به بحث TIA نزول کرد. کشف دانش در سال 1989 ظهور کرد، در سال 1996 بعد از اولین کنفرانس KDD در سال 1995و با انتشار کتاب "پیشرفتهایی در کشف دانش و داده کاوی (Fayyad, Piatetsky-Shapiro, Smyth, eds., 1996) " استفاده از اصطلاح کشف دانش جهش نموده و بعد از سال 2000 روند ثابتی را داشته است.
از اصطلاحات جدید که هم اکنون استفاده میشوند میتوان به "علم داده" و دادههای عظیم" اشاره کرد. با وجودی که عبارت علم داده از سال 1996 در پستری که در شکل زیر مشاهده میکنید نیز به کار گرفته شده است، اما در دو سال اخیر این اصطلاح دوباره بر سر زبانها افتاده است.
شکل 3. پوستر مربوط به سال 1996عطف به علم داده
اما اصطلاح کلان داده یا Big Data در سال 2011 به طور ناگهانی شروع به رشد کرد. همانطور که در نمودار قبل مشاهده نمودید، حجم جستجوها برای عبارت داده کاوی هنوز هم زیاد میباشد، حتی در 12 ماه گذشته، اما رشد اصطلاح کلان داده به خصوص در گردشهای خبری 2012، دارای شیب زیادتری است (نمودار زیر).
شکل 4. افزایش استفاده از عبارت کلان داده
در این نمودارها تفاوت بین شهرت این اصطلاحات را در خبرها و جستجوهای گوگل مشاهده نمودید، رشد کلان داده در سال 2012 در حجم خبرها بسیار قویتر از حجم جستجوها میباشد. این احتمالا نشان دهندهی این موضوع میباشد که بازاریابی و برندینگ برای این عبارت جلوتر از درک عام است. برعکس این موضوع برای اصطلاح داده کاوی به وقوع پیوسته است، سطح جستجوها در مورد این اصطلاح بسیار زیاد است در حالی که این اصطلاح به طور مکرر در خبرها مشاهده نمیشود.
چه کسانی بیشتر این جستجوها را انجام میدهند؟
پیدا کردن اطلاعات منطقهای از روندهای جستجوی اصطلاحات گوناگون در سایت گوگل بسیار جالب و جذاب است و بهترین منبع برای کسب این نوع اطلاعات Google insight می باشد. اصطلاح داده کاوی بیشترین جذابیت منطقهای را در کشور هند دارد، این موضوع اصلا شگفت آور نیست، کمپانیهای برون سپرده شده مانند اُپرا و موسیگما که موفقیت های زیادی را کسب کرده اند و دارندهی بیشترین استعدادهای تحلیلی هستند، در هند قرار دارند.
اگرچه، چیزی که باعث شگفتی میباشد کشورهایی هستند که در علاقه به دادهکاوی در ردههای بعدی هند قرار دارند: کنیا، سریلانکا، ایران و تایوان. اصطلاح تحلیلهای کسب و کار بیشترین جذابیت منطقهای را در هند، سنگاپور، بلغارستان، آمریکا، استرالیا و انگلیس داشته است. اصطلاح کلان داده نیز در هند، کره جنوبی، سنگاپور، بلغارستان و آمریکا دارای جذابیت بوده است.
10 شهر برتر با بیشترین علاقهی منطقهای به عبارت کلان داده شهرهای؛ بنگلار، سن فرانسیسکو، بمبئی، سنگاپور، دهلی نو، نیویورک، سیدنی، لوس آنجلس، تورنتو و لندن بوده اند.
شکل 5. علاقه به اصطلاح کلان داده در مناطق گوناگون
همانطور که مشاهده کردید فرآیند تحلیل داده، بسته به روندهای گوناگون در کسب و کار و بازاریابی، با عبارات گوناگونی خوانده میشود. روندهای جدیدی پدیدار خواهند شد، و ما میتوانیم انتظار داشته باشیم که عبارتهای شیک و در حال استفاده "علم داده" و "کلان داده" هم در سالهای آینده جایگزین عبارات و اصطلاحاتی مانند داده کاوی خواهند شد.