از فرآیندهای داده کاوی تا حل مشکلات کسب و کارها

هر صورت مساله در هر کسب و کار برای تصمیم گیری داده محور ویژگی های خاص خود را دارد، که از ترکیب اهداف، تمایلات، مشکلات و ویژگی های خاص آن مساله تشکیل شده است. همانطور که اغلب مهندسان فکر میکنند فعالیتهای مشترکی در جریان حل هر مساله برای کسب و کارها به صورت رایج وجود دارد.

با هم کاری صاحبان کسب و کار محققان داده صورت مساله موجود در کسب و کار را به چندین ریز مساله تقسیم میکنند. راه حل این ریز مساله ها بعدا می توانند ترکیب شده و مساله بزرگتر را حل نمایند.  برخی از این ریز مساله ها مختص آن کسب و کار مشخص هستند اما بقیه اغلب در بین مساله های  کسب و کارهای مختلف مشترک می باشند.

با وجود اینکه در طول سالهای بسیار الگوریتمهای داده کاوی مشخص بسیاری توسعه داده شده اند، اما اغلب این الگوریتمها کارهای مشخصی را انجام میدهند. در اغلب پروژه های تحلیل داده، هدف پیدا کردن یک ارتباط بین متغییرهای یک موجودیت و همچنین ارتباط بین متغییرهای دیگر است. به طور مثال، یک شرکت مخابراتی را فرض کنید که تمایل دارد پیش بینی کند چند درصد از مشتریانش قصد دارند قرارداد خود را تمدید کنند. با مراجعه به تاریخچه قرارداد های میتوان به اطلاعات لازم برای اینکه چه میزان از مشتریان شرکت را بعد از انقضا قرار دادشن ترک کردند دست یافت. و با کاوش در آن ها متغییرهای که در بین آن ها مشترک است را پیدا کرد. پیدا کردن این وابستگی ها و نقط مشترک نمونه اولیه از یک فعالیت از نوع classification  و regression  است.

  1. Classification (دسته بندی)

Classification و “تخمین احتمال دسته” سعی دارند تا پیشبینی کنند که هر عضو از یک جامعه که دارای دسته های کوچک مشخص هستند، به کدام دسته تعلق دارند. این دسته ها اغلب دو به دو از هم مجزا هستند. نمونه مساله Classification میتواند به این شکل باشد :

در بین تمامی مشتریان یک شرکت مخابراتی، کدامیک به پیشنهاد ارایه شده پاسخ میدهند؟ در این مثال دو دسته یکی با عنوان “پاسخ میدهد” و دیگری با  عنوان “پاسخ نمیدهد” قابل پیش بینی است. برای یک فرایند دسته بندی (classification) روال داده کاوی مدلی ایجاد میکند که با دادن اطلاعات یک مشتری جدید مشخص مینماید آن مشتری به کدام دسته تعلق دارد مفهوم نزدیک به این فرآیند امتیاز دهی (scoring) و یا تخمین احتمال در کلاس نام دارد. در فرایند امتیاز دهی مدل مربوطه با دادن اطلاعات مشتری امتیازی را محاسبه مینماید که احتمال تعلق ان مشتری، به دسته ها را مشخص میکند. در نمونه پاسخ مشتریان به پیشنهاد ارایه شده مدل امتیاز دهی می تواند امتیازی تولید کند که نشان دهنده نحوه پاسخگویی آن مشتری به پیشنهاد می باشد. دسته بندی و امتیاز دهی مفاهیم نزدیک به هم هستند و اغلب مدلی که  در یکی از این دو فرایند استفاده می شود در دیگری نیز کاربرد دارد.

  1. Regression (رگراسیون)

Regression برای پیش بینی یا تخمین یک میزان عددی برای یک موجودیت در جامعه مورد بررسی کاربرد دارد. نمونه ای از یک مساله با این فرایند به این شکل است: “کاربر مورد نظر چه مقدار از سرویس استفاده خواهد کرد؟” متغییری که قصد پیشبینی آن را داریم میزان مصرف خدمات است، و یک مدل برای پیش بینی این مقدار بر اساس دیگر اعضای جامعه که شباهت هایی با این عضو دارند قابل استخراج است. در واقعا یک فرایند از نوع رگراسیون مدلی تولید میکند که با دادن یک نمونه مشخص از جامعه میتواند مقدار یک متغییر مشخص مربوط به آن نمونه را محاسبه کند.

رگراسیون و دسته بندی نیز به یکدیگر مرتبط هستند، اما از یکدیگر تفاوت دارند. به صورت غیر رسمی می توان گفت دسته بندی پیش بینی می نماید که آیا اتفاقی رخ میدهد، در حالی که رگراسیون پیشبینی میکند آن اتفاق چه مقدار رخ می دهد.

  1. Similarity matching (شبیه یابی)

Similarity matching سعی دارد تا نمونه های مشابه را بر اساس داده های شناخته شده بیابد. به طور مثال IBM علاقه مند است تا شرکت هایی که شبیه به مشتریان بزرگ خود هستند را بیابد تا نیروهای فروش خود را روی آن شرکت ها متمرکز کند. آنها از روش شبیه یابی بر روی داده های مربوط به ویژگی های شرکت ها استفاده میکنند. این روش در واقعه پایه یکی از راه حل های شناخته شده و محبوب یعنی “پیشنهاد محصول” می باشد. این کار با یافتن مشتریانی که خریدها و محصول های مورد علاقه آنها شبیه شماست صورت میگیرد. این فراید در واقع ترکیبی از روش های دیگر داده کاوی هم چون دسته بندی، رگراسیون و خوشه بندی (clustering) می باشد.

  1. Clustering (خوشه بندی)

Clustering قصد دارد تا نمونه های یک جامعه را بر اساس ویژگی هایی که دارند ولی بدون هدف خاصی دسته بندی نماید. نمونه ای از یک مساله خوشه بندی بدین شکل می تواند باشد: “آیا مشتریان ما به صورتی طبیعی عضو گروه یا دسته خواصی هستند؟” خوشه بندی در زمینه اکتشافات مقدماتی برای کشف گروه های طبیعی موجود در جامعه مورد بررسی کاربرد دارد، خروجی این فرایند گاه برای انتخاب فرایند بعدی داده کاوی مورد استفاده قرار میگیرد. خوشه بندی همچنان به عنوان ورودی جریان های تصمیم گیری که بر مواردی همچون سوال زیر تمرکز دارند استفاده می شود.

چه محصولی باید تولید و توسعه دهیم؟ تیم مشتری مداری چگونه باید ساختار دهی شود؟ و…

  1. Co-occurrence grouping

این فرآیند که از آن با عنوان  itemset mining هم یاد می شود سعی دارد تا ارتباط بین موجودیت های مشارکت کننده در یک تراکنش را کشف کند. یک سوال رایج در این نوع فرآیند این است که کدام محصولات اغلب با یکدیگر خرید می شوند. در حالی که خوشه بندی شباهت بین موجودیت ها را بر اساس ویژگی های موجودیت ها می یابد، اما co-occurrence شباهت موجودیت ها بر اساس حضورشان در یک تراکنش خاص را مورد نظر قرار می دهد.

به عنوان مثال، تحلیل داده های سبد خرید مشتریان در یک سوپرمارکت نشان میدهد سس تند بیشتر از آن چه انتظار میرود در کنار گوشت خریداری میشود. تصمیم گیری در رابطه با این نتیجه گیری به خلاقیت نیاز دارد اما میتوان از این اطلاعات در نوع نمایش محصولات در کنار یکدیگر یا فروش ترکیبی محصولات موجود در یک گروه استفاده کرد. رخداد همزمان در خرید محصولات نوعی از یافتن وابستگی دسته ها می باشد که از آن به عنوان تحلیل سبد خرید یاد میشود. بعضی از سیستم های پیشنهاد دهی هم از روش “یافتن وابستگی در دسته ها” برای موارد مختلف استفاده میکنند، به طور مثال کتابهایی که به صورت مستمر در کنار یکدیگر خریداری میشوند. محصول فرایند co-occurrence تفسیری از رخدادهایست که با همدیگر اتفاق می افتند. این تفسیرها شامل آمار مربوط به میزان تکرار آن اتفاق و تخمینی از میزان غیر محتمل بودن آن است.

 


کتاب Data Science For Business 

این مطلب بخشی از کتاب Data Science For Business می باشد. شما میتوانید این کتاب را از بخش دانلود ها و زیر منو کتاب دریافت و مطالعه فرمایید.

دریافت کتاب


 

  1. Profiling (رفتارشناسی)

Profiling که از ان با عنوان تفسیر رفتار نیز یاد میشود تلاش دارد تا ویژگی های یک نمونه مشخص، گروهی از آنها و یا کل جامعه را ارزیابی نمیاد. یک مثال از مساله ای از این نوع را می توان به این صورت بیان کرد : “میزان مصرف تلفن همراه این گروه از مشتریان چقدر است؟” شاید رفتار را نتوان به سادگی تفسیر کرد. احتمالا رفتار مصرف تلفن همراه شامل تفسیر پیچیده ای از میزان مصرف شبانه و آخر هفته، تماس های بین المللی، هزینه های رومینگ، پیامک های ارسالی و… باشد. رفتار را میتوان برای کل یک جامعه و یا گروه های کوچک و حتی یک نمونه مشخص تفسیر کرد.

Profiling اغلب برای شناسایی رفتار استفاده میگردد تا بتوان از آنها برای تشخیص پدیده های های نامتعارف همچون تشخیص تقلب در سیستمهای بانکی و یا تشخیص نفوذ در سیستمهای نظارتی و امنیتی بهره برد. به طور مثال اگر بدانیم یک نفر از کارت اعتباری خود برای چه خریدهایی استفاده می نماید، میتوانیم خرید های جدید یک مشتری را با پروفایل ان مشتری تطبیق داده و میزان مشکوک بودن اقدام جدید را بر اساس این اطلاعات امتیاز بندی کنیم و در صورت غیرعادی بودن آن را به مشتری اطلاع دهیم.

  1. Link predication (پیشبینی ارتباط)

پیش بینی ارتباط  سعی دارد تا ارتباط بین داده ها را پیش بینی نماید، و این کار را اغلب با پیشنهاد وجود یک ارتباط و میزان قدرت آن ارتباط اعلام می نماید.  این فرایند در شبکه های اجتماعی به وفور یافت می شود : “از آنجایی که شما و علی 10 دوست مشترک دارید، احتمالا شما و علی هم می توانید دوست باشید”. پیشبینی ارتباط همچنین میتواند قدرت ارتباط را نیز تشخیص دهد. به طور مثال برای پیشنهاد فیلم به مشتریان میتوان یک گراف بین فیلمها و مشتریان را متصور شد و چیزی که ما دنبال آن هستیم یافتن ارتباط هایی است که بین مشتریان و فیلم ها وجود ندارد و باید وجود داشته باشد و قدرتمند باشد.

  1. Data reduction (کاهش داده ها)

کاهش داده ها سعی دارد تا حجم بالای اطلاعات را به مقدارم کم به نحوی کاهش دهد که همچنان اطلاعات مهم مورد نظر در این داده ها باقی بمانند. حجم کم اطلاعات کار کردن با آنها و پردازش اطلاعات را ساده تر مینماید. همچنین حجم کمتر اطلاعات استخراج اطلاعات از داده ها را نیز راحتر می نماید. به طور مثال حجم بالای داده ها مربوطه به مشتریان و فیلم هایی که دیده اند را میتوان به مجموعه داده های کمتر با اطلاعات مورد نظر مثلا همان مشتریان و ژانر مورد علاقه آنها کاهش داد. این فرایند همواره با حذف اطلاعات همراه است و این انتخابی است که باید صورت بگیرد.