متوسط التضمين يشوه العلاقات بين المتغيراتلكن يعني التضمين أيضًا يشوه العلاقات متعددة المتغيرات ويؤثر على الإحصائيات مثل الارتباط. على سبيل المثال ، الاستدعاء التالي لـ PROC CORR يحسب الارتباط بين متغير Orig_Height ومتغير الوزن والعمر.
لماذا يعد استخدام وسيلة للبيانات المفقودة فكرة سيئة؟
متوسط يقلل من تباين البيانات بالتعمق في الرياضيات ، يؤدي التباين الأصغر إلى فاصل الثقة الضيق في توزيع الاحتمالات [3]. هذا لا يؤدي إلا إلى إدخال تحيز في نموذجنا.
لماذا تعتبر القيم المفقودة مشكلة؟
البيانات المفقودة تمثل مشاكل مختلفة. أولاً ، يقلل غياب البيانات من القوة الإحصائية، مما يشير إلى احتمال أن يرفض الاختبار الفرضية الصفرية عندما تكون خاطئة. ثانيًا ، يمكن أن تسبب البيانات المفقودة تحيزًا في تقدير المعلمات. ثالثًا ، يمكن أن يقلل من تمثيل العينات.
لماذا يعني التضمين السيئ؟
المشكلة رقم 1: المتوسط التضمين لا يحافظ على العلاقات بين المتغيرات. صحيح أن احتساب المتوسط يحافظ على متوسط البيانات المرصودة. لذلك إذا كانت البيانات مفقودة تمامًا بشكل عشوائي ، فإن تقدير المتوسط يظل غير متحيز.
هل يجب استبدال البيانات المفقودة بالمتوسط؟
نقاط بيانات القيم المتطرفة سيكون لها تأثير كبير على المتوسط ، وبالتالي ، في مثل هذه الحالات ، لا يوصى باستخدام المتوسط لاستبدال القيم المفقودة. قد لا يؤدي استخدام القيم المتوسطة لاستبدال القيم المفقودة إلى إنشاء نموذج رائع وبالتالي يتم استبعاده.