محاسبه Entropy و Information Gain در پیروزی تیمها در مجموعه های باشگاهی اسپانیا

دیتاست مورد بررسی شامل 2600 موجودیت از بازی های مختلف تیم های باشگاهی اسپانیا می باشد. برای بررسی در  مراحل مختلف تعداد 2000 نمونه از این دیتاست را به عنوان داده های یادگیری و 600 داده برای تست و ارزیابی مدل های تولید شده با استفاده از الگوریتم های مختلف.

Entropy (آنتروپی) معیاری است برای ارزیابی میزان بی نظمی که در یک مجموعه داده وجود دارد. هر مقدار احتمال رخداد های متفاوت در یک جامعه داده مورد بررسی به صورت متوازن توزیع شده باشد میزان بی نظمی در آن دیتاست نیز زیاد است. انتروپی از طریق فرمول زیر محاسبه می گردد.

در فرمول ارایه شده هر   شده احتمال رخداد i در دیتاست مورد نظر می باشد و n تعداد مقداری متغییر مورد بررسی است. در نمودار زیر میتوانید نسبت بی نظمی و توزیع موجودیت ها را در دیتاست مورد نظر مشاهده فرمایید. همونطور که در نمودار مشاهده می کنید هر چقدر دیتاست خلوص بیشتر داشته باشند بی نظمی در آن کمتر و هر چقدر در دیتاست دو دستگی وجود داشته باشد بی نظمی در آن بیشتر و به یک نزدیکتر می شود.

میزان بی نظمی در دیتاست بازی های به شکل زیر قابل محاسبه است. احتمال برد تیم میزبان ویا میهمان و یا مساوی کردن آنها به شکل زیر است:

 

میزان بی نظمی نزدیک به عدد یک می باشد که نشان میدهد این دیتاست دارای بی نظمی بسیاری است. اما بی نظمی تنها بخشی از ماجراست، اما بخش دیگیری که اهمنیت بسزایی دارد ارزیابی میزان اثر گذاری ویژگی ها (attributes) با توجه به هدف دسته بندی (classification) است و اینکه این ویژگی چه مقدار راجب مقدار هدف به ما اطلاعات میدهد. به این شاخصه information gain می گویند. برای محاسبه این شاخصه دیتاست را به زیر بخش های کوچکتر بر اساس مقدار ویژگی مورد بررسی تقسیم میکنیم و میزان خلوص زیر گروه های جدید را مورد توجه قرار میدهیم سپس با بهره گیری از فرمول زیر میتوان مقدار Information gain مربوط به آن ویژگی را محاسبه کرد.

به طور مثل با تقسیم میزان پیوسته مالکیت توپ توسط تیم میزبان به دو قسمت بالای 50 درصد و زیر 50 درصد میتوان میزان اثر گذاری این ویژگی در پیروزی و یا شکست تیم میزبان را مورد بررسی قرار داد.

IG = 0.966 – [ 0.555 x 0.990 + 0.445 x 0.917 ]

≈ 0.009

با توجه به محاسبات صورت گرفته می توان نتیجه گرفت که ویژگی مالکیت توپ در این دیتاست متغییری همسو با متغییر هدف ما نیست چون در مجموع در گروه های تقسیم شده میزان خلوص به صورت چشمگیری افزایش پیدا نکرده است.

اینبار سراغ یک متغییر دیگر به نام شوت درون چهار چوب می رویم تا اثر گزاری آن در متغییر هدف که پیشبینی نتیجه بازی می باشد را بررسی کنیم. برای این کار ویژگی جدیدی مرکب از شوت های در چهار چوب تیم میزبان و میهمان با کم کردن مقادیر میزبان از میهمان تولید می کنیم. و دو زیر گروه جدید را برای مقادیر مثبت و منفی تقسیم می کنیم.

IG = 0.966 – [ 0.6895 x 0.887 + 0.3015 x 0.939 ]

≈ 0.0715

نتیجه نشان میدهد که این ویژگی نسبت ویژگی قبلی اثر گزاری بهتر در پیشبینی نتیجه بازی دارد، اما هنوز ویژگی کارامدی برای استفاده پیشبنی متغییر هدف به تنهایی محسوب نمی شود.