This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
13
معــــالجة مشكلة التداخل الخطي باستخدام تحليل المكونات الرئيسة
(بالتطبيق على استهالك الوقود بالسيارات)
آدم بريمه سليمان مستور * وامل السر الخضر عبدالرحيم
,Email:[email protected] قسم اإلحصاءالتطبيقي-كلية العلوم-معة السودان للعلوم والتكنولوجياجا م2017يناير تاريخ القبول: م2016سبتمبر اإلستالم: تاريخ
المستخلص
هدفت هذه الدراسة إلى معالجة مشكلة التداخل الخطي المتعدد بين المتغيرات التفسيرية عن طريق استخدام أسلوب مثل الخصائص الفيزيائية و الميكانيكية للسيارات يغيراً تفسيرياً المكونات الرئيسية ، و تم استخدام عدد إحدى عشر مت
.David J( :تم الحصول عليها من كتاب الدراسة هالبيانات في هذو ،آخر يمثل استهالك الوقود بالسيارات تابعمتغير Balding, Noel A. C and other, (2006) “regression Analysis by example Fourth Edition” Inc.
Hoboken, new Jersey Published Simultaneously in Canad ( : و كانت فرضيات الدراســة كاآلتيطريقة انحدار ، المتغيرات التفسيرية مستقلة عن بعضها (اي ال يوجد تداخل خطي بينها)،معنوي نموذج العام للبياناتال
تم اختبار مشكلة التداخل الخطي بين المتغيرات التفسيرية. المكونات الرئيسية تؤدي إلي إزالة التداخالت الخطية بينالمتغيرات التفسيرية حيث وجد أن المتغيرات تعاني من مشكلة التداخل الخطي المتعدد ، و قد تمت المعالجة عن طرق
سلوب فعال في انحدار المكونات الرئيسية. ومن أهم النتائج التي توصلت إليها الدراسة : طريقة المكونات الرئيسية أالمكونات الرئيسية دائما تكون ، وذلك الن ومعالجتها الكشف عن مشكلة التداخل الخطي بين المتغيرات التفسيرية
أسلوب المكونات الرئيسية أدى إلي معالجة مشكلة التداخل الخطي بين المتغيرات التفسيرية ، كما ادى الغرض ، متعامدةنموذج االنحدار الذي تم الحصول عليه عن طريق أسلوب المكونات ،تفسيرية منه أيضا وهو تخفيض المتغيرات ال
) أكثر كفاءة من طريقة PCRطريقة(، ) ذو توفيق جيد ويمتلك اقل تباين ويمكن االعتماد عليه في التنبؤPCRالرئيسية (OLS حيث تمتلك اقل قيمة لـ )MSE(كلة التداخل الخطي ناك عدة اختبارات ومعايير تستخدم للكشف عن وجود مش، ه
بين المتغيرات التفسيرية و أسلوب المكونات الرئيسية واحد من تلك المعايير ويعتبر أسلوب سهل االستيعاب والتطبيق.
الكلمات المفتاحية: التداخل الخطي، المكونات الرئيسية، انحدار المكونات الرئيسية، عامل تضخم التباين.
SUST
Journal of Natural and Medical Sciences
Journal homepage:
http://Scientific-journal.sustech.edu/
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
14
ABSTRACT
This study aimed at addressing the issues of Multicollinearity among explanatory variables
using principal components analysis, eleven variables representing the mechanical and
physical characteristics of the vehicles have been selected, in addition one more dependent
variable representing gasoline consumption, data in this study taken from:(David J. Balding,
Noel A. C and other, (200 )6 "Regression Analysis by Example Fourth Edition"Inc.,
Hoboken, New Jersey Published simultaneously in Canada).Hypotheses of the study are as
follows:
General model of the data can solve the problem of multicollinearity among the explanatory
variables.
The regression model provides better result than the result obtained through the other
estimations method.
Principal components regression method leads to removal of colllinearity among explanatory
variables.
The SPSS program has been use in this is study for the purpose of analyzing data, where the
explanatory variables have been found to be undergoing a problem of multicollinearity, and
the problem has been solved through the principal component analysis.
Most important outcomes of the study include:
The principal component analysis is an effective method for detection of multicollinearity,
for the reason of that the principal component at always orthogonal.
The regression model obtained through the principal component is somewhat successful, has
less variance and can be relayed on when it comes to prediction.
The PCR is more effective than the OLS since has less MSE value. There are several criteria standards for detecting multicollinearity and problem solution, the principal
component regression one of those standards, in where of that it can be easily understood and applied.
KEYWORDS: Multicollinearity, Principal components, Principal components regression, variance
inflation factor (vif). 2016 Sudan University of Science and Technology, All rights reserved
المقدمةإن تحليل اإلنحدار من الطرق اإلحصائية الواسعة
اإلستخدام ، والذي يوضح العالقة بين متغير تفسيري واحد ( او اكثر من متغير تفسيري ) ومتغير تابع على هيئة نموذج والذي يسمى بنموذج اإلنحدار، من أجل
التنبؤ والتخطيط وإتخاذ القرارات.لنموذج حتى يكون حيث وضعت شروط وفروض لهذا ا
معتمد عليه في نتائج التنبؤ، ولكن عند تطبيق نموذج اإلنحدار الخطي المتعدد قد تختل احد فروض النموذج والتي يشترط فيها عدم وجود إرتباط خطي تام أو
جزئي بين اثنين أو اكثر من المتغيرات التفسيرية مما يؤدي الي ظهور مشكلة تسمى بمشكلة التداخل الخطي
)multicollinearity( وأن اول من أشار الي ،خطورة هذه المشكلة وتأثيرها في نتائج تحليل اإلنحدار
.)1(م1934وكان ذلك في العام Fisherهو العالم
في ان طريقة المربعات و تتلخص مشكلة الدراسةالصغرى اإلعتيادية تعطي افضل تقدير خطي غير
ومن المشكالت متحيز وبأقل تباين لمعالم النموذج ، التي قد تظهر عند إستخدام هذه الطريقة هي غياب احد فروض النموذج الخطي وهي التي يشترط فيها عدم
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
15
توافر إرتباط خطي تام او جزئي بين إثنين او اكثر من المتغيرات التفسيرية مما يؤدي الي ظهور مشكلة تدعى بمشكلة التداخل الخطي والتي تتسبب في إعطاء
يفة للمعالم وذات تباينات متضخمة . تقديرات ضعوبالتالي نتائج إلختبارات الفرضيات ال يعتمد عليها ،كذلك ايجاد دالة تكون معيار إلستهالك الوقود بالسيارات. اما اهمية الدراسة فتنبع من المعالجة لهذه المشكلة وهي مشكلة التداخل الخطي بين المتغيرات
السليمة لها ، ومن لجة التفسيرية وإيجاد الحلول والمعااهم هذه الطرق لمعالجتها هي طريقة إنحدار المكونات
)، principal component regressionالرئيسية (كما تعتبر هذه الدراسة رفداً للمكتبة العلمية وللمعرفة
المتواترة.
أه�اف ا��را��:
تخفيض البيانات اوتبسيط هيكلل : وقد هدف البحث الييف البيانات، وإكتشاف مشكلة التداخل الظاهرة، تصن
الخطي بين المتغيرات التفسيرية عن طريق إسلوب المكونات الرئيسية، معالجة مشكلة التداخل الخطي (بين المتغيرات التفسيرية) عن طريق إستخدام انحدار المكونات الرئيسية، وتطوير مقياس للحكم على معدل
قة بين إستهالك الوقود للسيارات وتوضيح العال مؤشرات استهالك الوقود.
فروض الدراسة:و قد افترض البحث الفروض التالية: نموذج العام للبيانات يعطي نتائج أفضل من النتائج المتحصل عليها بواسطة طرق التقدير االخرى، المتغيرات التفسيرية مستقلة عن بعضها (اي ال يوجد تداخل خطي بينها)،
لرئيسية لها القدرة على حل طريقة إنحدار المكونات امشكلة التداخل الخطي الموجودة بين المتغيرات
التفسيرية.
ت ا��را��: � ��
ا�����ت �� ه�ا ا���� �� ا��� ل ��� �� آ��ب )Regression Analysis by Example, 4th Ed
(Wiley Series in Pro~1)( ) متغيراً 11تمثلت بـ () نوعا 30لميكانيكية لـ(تمثل الخصائص الفيزيائية وا
من السيارات لتحديد العوامل التي تؤثر في استهالك ، والذي يمثل المتغير المعتمد. )yالوقود (
الدراسات السابقة:م قام الباحثان مروان عبد العزيز 2006في العـام
دبدوب واسوان محمد طيب النعيمي بدراسة بعنوان استخدما طرائق مقترحة في إنحدار الحرف ، وقد
أسلوب اإنحدار الحرف ، واهم ما توصال إليه الباحثان في هذه الدراسة، تكوين مجاميع ألثر الحرف حسب التقارب النسبي للقيم المطلقة للمعالم المقدرة أدى الي سهولة إختيار معلمة التحيز ووضوحها والتوصل إلى افضل المتغيرات إلدخالها الي معادلة إنحدار الحرف
رية .التقدي
م قام الباحث حمزة إبراهيم 2006وكذلك في العام حمزة بدراسة بعنوان تقدير وتحليل دوال اإلقتصاد السوداني بإستخدام المكونات الرئيسية ، وقد استخدم المكونات الرئيسية في التقدير والتحليل وأهم ما توصلت اليه الدراسة: يصبح تحليل المكونات الرئيسية ذات قيمة
يكون للمكون الرئيسي معنى حقيقي في النظام عندما ،كما أنه تبين من خالل النتــائج تحقيق الهدف العملي
األساسي من تحليل المكونات الرئيسية والمتمثل في تخفيض البيانات أو تبسيط هيكل الظاهرة دون المساس بالمعلومات الهامة والذي ادى لتسهيل فهم الظاهرة،
) ، خصوصا OLSسية أفضل من (تحليل المكونات الرئيعندما تكــون هنالك متغيرات توضيحية كثيرة أو أن تكون هناك حوجة للتأكد من كفاية حجم العينة
م قام الباحث اسوان محمد طيب 2009في العام .للتحليلالنعيمي بدراسة بعنوان معالجة البيانات غير التامة
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
16
وقد وتقديرها بطريقة إنحدار المكونات الرئيسية ، استخدم اسلوب إنحدار المكونات الرئيسية في التقدير ومن أهم النتائج التي توصلت اليها الدراسة : البيانات غير التامة بعد معالجتها باإلسلوب المناسب لنوع الفقدان يمكن ان تظهر مشكلة التعدد الخطي وقد تم اكتشاف المشكلة في هذه الدراسة وتمت معالجتها
المكونات الرئيسية.بطريقة إنحدار م قام الباحث فرج عبد الغني يونس 2010وفي العام
الصالح بدراسة بعنوان مقارنة بين طريقة المكونات الرئيسية وطريقة المربعات الصغرى الجزيئية لمعالجة
مع التطبيق على معمل السمنت مشكلة التداخل الخطيوقد استخدم اسلوب المكونات الرئيسية وطريقة
ات الصغرى الجزيئية لمعالجة مشكلة التداخل المربعالخطي ومن أهم النتائج التي توصل اليها :أن طريقة المكونات الرئيسية أكثر كفاءة من طريقة المربعات
، كما MSEالصغرى الجزيئية حيث تمتلك أقل قيمة لـأن هنالك إختالفات معنوية بين المتغيرات التوضيحية
عالجة مشكلة التداخل وكما توصلت الدراسة إلي م الخطي التي كانت تعاني منها المتغيرات التفسيرية.
principal component : المكونات الرئيسية
تعريف تحليل المكونات الرئيسية :
يعرف تحليل المكونات الرئيسية بأنه اسلوب يهدف الي توليفات خطية تسمى )factorsايجاد عوامل (
شتقة من المتغيرات االصلية بالمكونات الرئيسية قليلة ملتحل محلها بحيث تكون مؤهلة لتفسير معظم التباين الكلي للقيم االصلية وتكون هذه المكونات الرئيسية
، أي ال يوجد إرتباط فيما بينها ويمكن كتابة )2(متعامدة المكونات الرئيسية حسب المعادلة التالية:
+ …… (1)
ان :أي
= ; i=1, 2, p …… (2)
حيث :
: تمثل المكون الرئيس .
للمصـفوفة المرافقة للجزور المميـزة الذي يمثل قيم المتجهات المميزة iالمكون الرئيسي j : يمثل معامل
المستخدمة .
ام إسلوب المصفوفات فإن وبإستخد
……. (3)
في الصيغة عاليه أعمـدتها تمثـل وأن المصفوفة
المتجهات المميزة المرافقـة للمصـفوفة المسـتخدمة
ــزة ــذور الممي ــادير الج ــا لمق ــة وفق والمرتب
وأن كل عمود من األعمـدة
ــفوفة ــية للمص ــات الرئيس ــد المكون ــل اح يمث
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
تعتمد طريقة تحليل المكونات الرئيسـية كمـا اشـرنا إسلوب تحويل المتغيرات التوضـيحية األصـلية الـي متغيرات جديدة تسمى بالمكونات الرئيسية . حيـث ان
ــون (مركب) رئيسي هو عبارة عن تركيبـة كل مك .)1(خطية في المتغيرات المستقلة األصلية
ويتم تحويل المتغيرات المستقلة إلي المكونات الرئيسية بالشكل اآلتي :
…… )16(
:��
بكمية ثابتة لمتغيرات التوضيحية، فإذا عوضنا عنعبارة مصفوفة المتجهات المميزة لمصفوفة اإلرتباط بين ا : ) أعمدتها عبارة عن معامالت إنحدار النموذج المحور الذي يأخذ الشكل االتي:مصفوفة ذات بعد (
أن وعند تطبيق إسلوب المكونات الرئيسية يفضل تحويل المتغيرات الي متغيرات قياسية ، حيث
…… (17)
ــدد ــي المتع ــدار الخط Multiple Linear اإلنح
Regression
يعد اإلنحدار الخطي المتعدد من األساليب اإلحصـائية المتقدمة والتي تضمن دقة اإلستدالل من أجل تحسـين نتائج البحث عن طريق اإلستخدام األمثل للبيانات فـي
ضوع البحث . إيجاد عالقات سببية بين الظواهر مو
واإلنحدار الخطي المتعدد هو عبارة عن إيجاد معادلـة رياضية تعبر عن العالقة بين متغيرين وتستعمل لتقدير
قيم سابقة ولتنبؤ قيم مستقبلية ، وهو عبارة أيضاً عـن ) على العديد من المتغيـرات Yإنحدار للمتغير التابع (
التنبؤ لذا فهو يستخدم في المستقلة بتغيرات المتغير التابع الذي يؤثر فيه عـدة متغيـرات مستقلة أي تعتمد فكرته على العالقات الدالليـة التـي
.)3(تستخدم ما يعرف بشكل التشتت أو االنتشار
إن اإلنحدار الخطي المتعدد ليس مجرد أسلوب واحـد وإنما مجموعة من األساليب التـي يمكـن أسـتخدامها
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
22
.المتغيرات المستقلة التي عادةً ما تكون مستمرةين متغير تـابع مسـتمر وعـدد مـن لمعرفة العالقة ب
: والمعادلة الخطية في اإلنحدار الخطي المتعدد هي
…. (18)
) من k+1) يتضح أن النموذج يتضمن وجود(18ومن (المعلمات يتطلب تقـديرها . وأن كـل مشـاهدة مـن
)، اي أن هناك 14تحقق المعادلة () yمشاهدات المتغير(n ) 14من المعالدالت المشابهة للمعادلة.(
وبناءا على ذلك يمكن كتـــابة المنظومـة بالشـكل :اآلتي
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
27
…… (35)
وقيمة كل العناصر غير القطرية تساوي صفر وذلك متعامدة. )(ألن المكونات الرئيسية
هي تبـاين المكـون للعناصر المتعامد وقيمة ة .من المكونات الرئيسي لـ (
) تأتي مرتبـة بحيـث أن المكونات الرئيسية (هذا يعنـي أن المكـون
االول يمتلك أعلى تباين بينما آخر مكون يكون له اقل تباين من بين جميع المكونات .
تســمى بــالجزور المميــزة لمصــفوفة •
. اإلرتباطات للمتغيرات
الت حسابها معقد يمكن ان تحسب لــ( المعام
مرتبة عموديا :
pa
a
a
.
.
2
1
………… )36(
) واذا اي جزر من الجـزور المميـزة ( •ساوي بالضبط صفر ففي هذه الحالة تكـون هنالـك
عالقة خطية كاملة بين المتغيرات األصلية.
زور المميـزة واذا كانت هناك قيمة احد الج •
) صغيرا جدا (قريبا من الصفر) هذا يشير الـي ( وجود التداخل الخطي.
ومن المعايير المستخدمة ايضا لمعرفة وجـود مشـكلة التداخل الخطي عن طريق المكونات الرئيسـيىة مـا
يلي: )K )6 الرقم الشرطي لمصفوفة اإلرتباط - أ
التداخل الخطـي المعيار الذي يستخدم لمعرفة كل بين المتغيرات يمكن ان نتحصل عليه بحساب الـرقم الشرطي لمصفوفة اإلرتباط . والرقم الشرطي يعـرف
: )7( كاآلتي
=
والرقم الشرطي دائما قيمته اكبر من الواحد الصحيح ، والرقم الشرطي الكبير مؤشر علي وجود تداخال خطيا قويا بين لمتغيرات التفسيرية.ا
SUST Journal of Natural and Medical Sciences (SJNMS) June 2016 vol. 17 (2)
ISSN (Print): 1858-6805 e-ISSN (Online): 1858-681
28
ةالمميز الجذورمقلوب مجموع . ب
إذا كان هذا المجموع اكبر من خمسة مرات عدد المتغيرات التفسيرية هذا يعني وجود التداخل الخطي
بين المتغيرات التفسيرية ايضا . تحليل البيانات:
على المتغيرات التفسـيرية yتم تطبيق نموذج إنحدار ت هذه البيانات تعـاني مـن مشـكلة كان إلختبار ما إذا
التداخل الخطي ام ال.
) واسلوب المكونات VIFحيث تم تطبيق عامل التضخم (الرئيسية للكشف عن وجود مشكلة التداخل الخطي بين المتغيرات التفسيرية ، كما تم ايضـا تطبيـق إسـلوب إنحدار المكونات الرئيسية لمعالجـة مشـكلة التـداخل
.واستخالص النتائج’ ات التفسيريةالخطي بين المتغير
:)VIFالتباين ( معامالت نموذج اإلنحدار المتعدد وعامل اتضخم