إشعار: ستقوم مجموعة الاستشارات الإحصائية إدر بترحيل الموقع إلى نظام إدارة المحتوى في وردبريس في فبراير لتسهيل الصيانة وإنشاء محتوى جديد. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. مرحبا بكم في معهد للبحوث الرقمية والتعليم مساعدة مجموعة استشارات الدولة من خلال إعطاء هدية ستاتا وحدة التعلم البيانات المفقودة 1. مقدمة هذه الوحدة سوف استكشاف البيانات المفقودة في ستاتا، مع التركيز على البيانات المفقودة الرقمية. وسوف تصف كيفية الإشارة إلى البيانات المفقودة في ملفات البيانات الخام الخاصة بك، وكذلك كيفية معالجة البيانات المفقودة في أوامر منطقية ستاتا وبيانات التعيين. سوف نقوم بتوضيح بعض خصائص البيانات المفقودة في ستاتا باستخدام بيانات من دراسة وقت رد الفعل مع ثمانية مواضيع أشار إليها المتغير معرف. وقياس زمن التفاعلات في ثلاث نقاط زمنية (trial1 trial2 trial3). يتم عرض ملف بيانات الإدخال أدناه. قد تلاحظ أن بعض أوقات التفاعل مشفرة باستخدام واحد. كما هو الحال بالنسبة للموضوع 2. الشخص الذي يقيس الوقت لتلك المحاكمة لم يقيس وقت الاستجابة بشكل صحيح، وبالتالي فإن البيانات عن المحاكمة الثانية مفقودة. 2. كيف تعالج ستاتا البيانات المفقودة في إجراءات ستاتا كقاعدة عامة، أوامر ستاتا التي تقوم بإجراء حسابات من أي نوع التعامل مع البيانات المفقودة عن طريق حذف القيم المفقودة. ومع ذلك، فإن الطريقة التي يتم حذف القيم المفقودة ليست متسقة دائما عبر الأوامر، لذلك Let39s نلقي نظرة على بعض الأمثلة. أولا، يلخص Let39s متغيرات وقت رد الفعل ونرى كيف ستاتا يعالج القيم المفقودة. كما ترون في الإخراج أدناه، تلخيص وسائل محسوبة باستخدام 4 ملاحظات للمحاكمة 1 و trial2 و 6 ملاحظات للمحاكمة 3. وباختصار، أجرى الأمر تلخيص الحسابات على جميع البيانات المتاحة. مثال ثان، يوضح كيف يعالج الأمر تابولاتيون أو tab1 البيانات المفقودة. مثل تلخيص، tab1 يستخدم البيانات المتاحة فقط. ويلاحظ أن النسب المئوية تحسب استنادا إلى العدد الكلي للحالات غير المفقودة. من المحتمل أن تكون قد تم حساب النسب المئوية من إجمالي عدد المشاهدات، والنسبة المئوية مفقودة لكل متغير موضحة في الجدول. ويمكن تحقيق ذلك من خلال تضمين الخيار المفقود بعد الجدولة. الأمر، Let39s ننظر في كيفية معالجة الأمر ارتباط البيانات المفقودة. ونتوقع أن تؤدي الحسابات استنادا إلى البيانات المتاحة، وأن تحذف القيم المفقودة. هنا هو مثال الأمر. الإخراج هو عرض أدناه. لاحظ كيف تم استبعاد القيم المفقودة. سوف ستاتا تنفيذ حذف ليستويز وعرض فقط الارتباط للملاحظات التي لها قيم غير مفقودة على كافة المتغيرات المدرجة. ستاتا كما يسمح لحذف زوجي. يتم عرض الارتباطات للملاحظات التي لها قيم غير مفقودة لكل زوج من المتغيرات. يمكن القيام بذلك باستخدام الأمر بوكور. نحن نستخدم الخيار أوبس لعرض عدد من الملاحظات المستخدمة لكل زوج، كما ترون، فإنها تختلف اعتمادا على كمية المفقودين. 3. ملخص لكيفية معالجة القيم المفقودة في إجراءات ستاتا تلخيص لكل متغير، يتم استخدام عدد القيم غير المفقودة. الجدولة افتراضيا، يتم استبعاد القيم المفقودة وتستند النسب المئوية على عدد القيم غير المفقودة. إذا كنت تستخدم الخيار المفقود في أمر علامة التبويب، تستند النسب المئوية إلى إجمالي عدد المشاهدات (غير المفقودة والمفقودة) والنسبة المئوية للقيم المفقودة مذكورة في الجدول. كور افتراضيا، يتم حساب الارتباطات استنادا إلى عدد الأزواج مع البيانات غير المفقودة (حذف زوجي للبيانات المفقودة). يمكن استخدام الأمر بوكور لطلب أن يتم حساب الارتباطات فقط للملاحظات التي تحتوي على بيانات غير مفقودة لجميع المتغيرات المدرجة بعد أمر بوكور (حذف قائمة البيانات المفقودة). ريج إذا كان أي من المتغيرات المدرجة بعد أمر ريج مفقودا، فإن الملاحظات التي تفتقد تلك القيمة (القيم) مستبعدة من التحليل (أي حذف قائمة البيانات المفقودة). للحصول على إجراءات أخرى، راجع دليل ستاتا للحصول على معلومات حول كيفية معالجة البيانات المفقودة. 4. القيم المفقودة في بيانات التخصيص من المهم أن نفهم كيف يتم التعامل مع القيم المفقودة في بيانات التخصيص. فكر في المثال الموضح أدناه. يوضح أمر القائمة أدناه كيفية معالجة القيم المفقودة في عبارات التعيين. ويستند المتغير sum1 على المتغيرات trial1 trial2 و trial3. إذا كان أي من هذه المتغيرات مفقودة، فقد تم تعيين قيمة المجموع 1 على المفقودين. ولذلك فإن القيمة 1 مفقودة للملاحظات 2 و 3 و 4، كما هو الحال بالنسبة للملاحظة 7. وكقاعدة عامة، فإن الحسابات التي تنطوي على قيم مفقودة تعطي قيم مفقودة. على سبيل المثال، 2 2 ينتج 4 2. عائدات . 2 2 الغلة 1. 2 الغلة. 2 3 الغلة 6 2. عائدات . كلما قمت بإضافة، طرح، ضرب، تقسيم، الخ القيم التي تنطوي على البيانات المفقودة، والنتيجة مفقودة. في تجربة وقت رد الفعل لدينا، مجموع الوقت رد الفعل 1 مفقود لأربع من أصل سبع حالات. يمكننا محاولة تجميع البيانات للمحاكمات غير المفقودة باستخدام الدالة روتوتال كما هو موضح في المثال أدناه. تظهر النتائج أدناه أن المجموع 2 يحتوي الآن على مجموع التجارب غير المفقودة. لاحظ أن الدالة روتوتال يعامل مفقود كقيمة صفر. عند تجميع عدة متغيرات قد لا يكون من المعقول معالجة المفقودين على أنه صفر إذا كانت الملاحظات مفقودة على جميع المتغيرات التي سيتم تلخيصها. الدالة روتوتال مع الخيار المفقود سيعود قيمة مفقودة إذا كانت الملاحظة مفقودة على جميع المتغيرات. وهناك بيانات أخرى تعمل بالمثل. على سبيل المثال، لاحظ ما حدث عندما نحاول إنشاء متغير متوسط دون استخدام وظيفة (كما هو موضح في المثال أدناه). إذا كان أي من المتغيرات trial1، trial2 أو trial3 مفقودة، يتم تعيين قيمة avg1 إلى مفقودة. بدلا من ذلك، الدالة رومين متوسط البيانات للمحاكمات غير المفقودة في نفس طريقة الدالة روتوتال. ملاحظة: لو كان هناك عدد كبير من التجارب، ويقول 50 المحاكمات، ثم سيكون مزعج أن يكون لكتابة أفغرومان (المحاكمة 1 trial2 trial3 المحاكمة 4). هنا هو اختصار يمكنك استخدامه في هذا النوع من الوضع: وأخيرا، يمكنك استخدام روميس و رونوميس وظائف لتحديد عدد المفقودين وعدد من القيم غير المفقودة، على التوالي، في قائمة المتغيرات. وهذا موضح أدناه. للمتغير نوميس. كان للملاحظات 1 و 5 و 6 ثلاث قيم صحيحة، وكان للملاحظتين 2 و 3 قيمتان صحيحتان، وكانت الملاحظة 4 ذات قيمة صحيحة واحدة فقط ولم تكن للمراقبة 7 قيم صالحة. المتغير يغيب يظهر العكس، فإنه يوفر عدد من عدد من القيم المفقودة. 5. القيم المفقودة في البيانات المنطقية من المهم أن نفهم كيف يتم التعامل مع القيم المفقودة في التصريحات المنطقية. على سبيل المثال، قل أنك تريد إنشاء متغير 01 ل trial1 1 إذا كان 1.5 أو أقل و 0 إذا كان أكثر من 1.5. نعرض هذا أدناه (بشكل غير صحيح، كما سترى). يبدو أن شيئا ما حدث خطأ مع متغيرنا الجديد الذي أنشأ حديثا newvar1. تم تعيين الملاحظات مع القيم المفقودة ل trial2 صفر ل newvar1. Let39s استكشاف لماذا حدث هذا من خلال النظر في جدول التردد من trial2. كما ترون في الإخراج، والقيم المفقودة هي في المدرجة بعد أعلى قيمة 2.1 وذلك لأن ستاتا يعامل قيمة مفقودة كأكبر قيمة ممكنة (على سبيل المثال اللانهاية الإيجابية) وهذه القيمة أكبر من 2.1، وبالتالي فإن القيم ل newvar1 تصبح 0. الآن بعد أن نفهم كيف ستاتا يعامل القيم المفقودة، وسوف نستبعد صراحة القيم المفقودة للتأكد من أنها تعامل بشكل صحيح، كما هو مبين أدناه. كما ترون في الناتج ستاتا أدناه، متغير newvar2 الجديد لديه قيم مفقودة للملاحظات التي هي أيضا مفقودة ل trial2. 6. القيم المفقودة في البيانات المنطقية عند إنشاء أو إعادة ترميز المتغيرات التي تتضمن قيم مفقودة، يجب الانتباه دائما إلى ما إذا كان المتغير يتضمن قيم مفقودة أم لا. 7. لمزيد من المعلومات محتوى هذا الموقع لا ينبغي أن يفسر على أنه تأييد لأي موقع على شبكة الإنترنت، كتاب، أو منتج معين من قبل جامعة كاليفورنيا. ملاحظة: سوف إدر المجموعة الاستشارية الإحصائية ترحيل الموقع إلى وورد كمس في فبراير لتسهيل الصيانة وإنشاء محتوى جديد. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. مرحبا بكم في معهد للبحوث الرقمية والتعليم مساعدة المجموعة الاستشارية مجموعة من خلال إعطاء هدية ستاتا التعليمات: كيف يمكنني رؤية عدد من القيم والنماذج المفقودة من القيم المفقودة في ملف البيانات بلدي في بعض الأحيان، قد يكون مجموعة البيانات كوثولسكوت في ذلك، أي القيم المفقودة. بعض الإجراءات الإحصائية مثل تحليل الانحدار لن تعمل أيضا، أو على الإطلاق، على مجموعة بيانات ذات قيم مفقودة. ويجب حذف الملاحظات ذات القيم المفقودة أو استبدال القيم المفقودة لكي يتسنى إجراء إحصائي لإحداث نتائج ذات مغزى. ستزيل معظم البرامج الإحصائية (بما في ذلك ساس و سبس و ستاتا) هذه الحالات تلقائيا من أي تحليل تقوم بتشغيله (بدون حذف الحالات من مجموعة البيانات). هذا هو السبب في كوتنوت غالبا ما يختلف من تحليل إلى تحليل، حتى لو كانت مجموعة البيانات هي نفسها. متغيرات مختلفة لها كميات مختلفة من البيانات الناقصة، وبالتالي تغيير المتغيرات في نموذج يغير عدد الحالات مع بيانات كاملة عن جميع المتغيرات في النموذج. لأن البرنامج قطرات الحالات مع القيم المفقودة بالنسبة لنا، فمن السهل جدا ل كوتفورجيتكوت حول البيانات المفقودة تماما. ومع ذلك، فإن وجود البيانات المفقودة يمكن أن يؤثر على نتائجنا، وخصوصا عندما تكون مجموعة البيانات أو حتى متغير واحد، لديه نسبة عالية من القيم مفقودة. وبالتالي فمن الأفضل دائما التحقق من مجموعة بيانات للبيانات المفقودة، والتفكير في كيفية تأثير البيانات المفقودة على تحليلاتنا. تعرض هذه الصفحة بعض طرق النظر إلى القيم المفقودة في مجموعة بيانات، ويمكن استخدام هذه المعلومات لاتخاذ قرارات مستنيرة حول كيفية التعامل مع القيم المفقودة. قبل أن نبدأ، نحن بحاجة إلى بعض البيانات مع القيم المفقودة، التعليمات البرمجية أدناه إدخال مجموعة بيانات صغيرة في ستاتا، ثم يعرض تلك البيانات. في مجموعة بيانات صغيرة، مثل واحد أدناه، فمن السهل جدا أن ننظر إلى البيانات الخام ونرى فيها القيم مفقودة. ومع ذلك، عندما تكون مجموعات البيانات كبيرة، نحتاج إلى طريقة أكثر منهجية لفحص مجموعة البيانات الخاصة بنا للقيم المفقودة. نعرض لك أدناه بعض الطرق للقيام بذلك، باستخدام البيانات أدناه كمثال. 1. عدد القيم المفقودة مقابل عدد القيم غير المفقودة الشيء الأول الذي سنفعله هو تحديد المتغيرات التي تحتوي على الكثير من القيم المفقودة. لقد أنشأنا برنامج ستاتا صغير يسمى مديسك الذي يحسب عدد القيم المفقودة في كل من المتغيرات العددية والحرف. يمكنك تحميل مديسك من داخل ستاتا عن طريق كتابة فينديت مديسك (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينيديت). ثم يمكنك تشغيل مديسك لمتغير واحد أو أكثر كما هو موضح أدناه. الآن نعرف عدد القيم المفقودة في كل متغير. على سبيل المثال، متغير سالبريك له أربعة قيم مفقودة و سالتوابر له قيمتين مفقودتين. 2. الحصول على عدد من القيم المفقودة لكل مراقبة يمكننا أيضا أن ننظر في توزيع القيم الناقصة عبر الملاحظات. الكود أدناه يخلق متغير يسمى نميس الذي يعطي عدد من القيم المفقودة لكل مراقبة. الدالة rmiss2 () المستخدمة هنا هي امتداد لدالة إغن رميس (). وهو يحسب عدد القيم المفقودة في فارليست. rmiss2 () يقبل كل من المتغيرات العددية و الرقمية. (ستاتاس رميس) (فقط يقبل المتغيرات الرقمية.) يمكنك تحميل rmiss2 () عبر الإنترنت من داخل ستاتا عن طريق كتابة فينديت rmiss2 (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت ). نحدد أدناه المتغير الذي أنشأناه للتو. وبالنظر إلى جدول الترددات نعلم أن هناك أربع ملاحظات بدون قيم مفقودة، وتسعة ملاحظات مع قيم مفقودة واحدة، وملاحظة واحدة مع قيمتين مفقودتين، وملاحظة واحدة مع ثلاثة قيم مفقودة. 3. أنماط القيم المفقودة يمكننا أيضا أن ننظر في أنماط القيم المفقودة. يمكنك تحميل مفباترنس عبر الإنترنت من داخل ستاتا عن طريق كتابة فيفيت مفباترنس (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت). الأمر مفباترنس تنتج الإخراج لجميع المتغيرات في مجموعة البيانات، لأنماط البيانات المفقودة عبر مجموعة فرعية من المتغيرات، قائمة متغيرة يمكن تضمينها، على سبيل المثال، مفباترنس لاندفال التحسن توتفال. ويظهر الناتج التي تنتجها مفباترنس أدناه. يسرد الجدول الأول المتغيرات ونوع التخزين (نوع) وعدد الملاحظات (أوبس)، وعدد القيم المفقودة (مف)، وتسمية المتغير إذا كانت المتغيرات واحدة. يحتوي الجدول الثاني على معلومات عن نمط القيم المفقودة. تظهر الكتلة الأولى من الأعمدة في الإخراج أنماط البيانات المفقودة. ضمن الكتلة، يتم تمثيل كل متغير بواسطة عمود، يشير اقتباس إلى أن قيم هذا المتغير موجودة في نمط بيانات مفقود معين، يشير كوت. يشير إلى أنها مفقودة. تتبع الأعمدة نفس ترتيب قائمة المتغيرات في الجدول الأول، بحيث يمثل العمود الأول في الإخراج أدناه لاندفال. والثاني تحسين. وما إلى ذلك وهلم جرا. يتم سرد أنماط البيانات المفقودة في التردد التنازلي، هنا نمط البيانات المفقود الأكثر شيوعا هو بيانات كاملة (كوت كوت). ويبين الجدول أيضا عدد القيم المفقودة في هذا النمط (مف)، وعدد الحالات التي بها نمط البيانات المفقود (فرق). استنادا إلى المعلومات في الجدول الثاني ونحن نعلم أن هناك أربع ملاحظات مع عدم وجود قيم مفقودة، وحالتين مفقودين فقط على سالبريك متغير. وملاحظة واحدة مع القيم المفقودة على إمبروفال. ساليبريك و سالتوابر. 4. عندما تكون جميع المتغيرات ذات الاهتمام رقمية. الأمثلة المذكورة أعلاه تعمل بغض النظر عما إذا كانت متغيرات الفائدة (أي المتغيرات التي تفحص أنماط بياناتها المفقودة) رقمية أو سلسلة. عندما تكون جميع المتغيرات التي ترغب في التحقق من وجود قيم مفقودة رقمية يمكننا استخدام برنامج يسمى ميسشك لتبسيط خطوات فحص البيانات المفقودة في مجموعة البيانات لدينا. (ملاحظة: المتغيرات الرقمية تشمل تلك التي لها تسميات القيمة التي هي سلاسل، طالما يتم تخزين القيم الفعلية للمتغيرات كأرقام.) يمكنك تحميل ميسشك من داخل ستاتا عن طريق كتابة فيستيت ميسشك (انظر كيف يمكنني استخدام الأمر فينديت إلى والبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت). أدناه هو الأمر ل ميسشك. لقد أدرجنا كل خمسة من المتغيرات في مجموعة البيانات لدينا في قائمة المتغيرات بعد الأمر ميسشك. ومع ذلك، كان يمكن أن يكون مجرد ترك قائمة المتغيرات فارغة (أي استخدام فقط ميسشك جنرال (ملكة جمال) بدلا من ذلك)، إذا كان لدينا، سوف ميسشك تشغيل باستخدام كافة المتغيرات في مجموعة البيانات لدينا. قائمة المتغيرات ضرورية فقط إذا أردنا تشغيل ميسشك فقط على بعض المتغيرات في مجموعة البيانات. الخيار جين (ميس) يخبر ميشك أننا نريد أن إنشاء اثنين من المتغيرات الجديدة، وكلاهما يبدأ مع كوتيمسكوت. سيتم تسمية هذين المتغيرين ميسباترن و ميسنومبر. المتغير ميسباترن يشير إلى أنماط البيانات المفقودة التي تتبعها كل حالة. يشير متسنوم المتغير إلى عدد القيم المفقودة لكل حالة. الإخراج ل ميسشك يتكون من ثلاثة جداول. يسرد الجدول الأول عدد القيم المفقودة، وكذلك النسبة المئوية مفقودة لكل متغير، وهذا يشبه الجدول الذي أعدته مديسك في الجزء 1 أعلاه. يحتوي هذا الجدول أيضا على عمود المسمى الذي يعين كل متغير رقم يستخدم لتحديد المتغير لاحقا في الإخراج. ويبين الجدول الثاني توزيع القيم الناقصة. يتم وصف نمط المفقودين باستخدام الأرقام المتغيرة من الجدول الأول والشرطات السفلية (). وتشير الأرقام إلى المتغيرات المفقودة في هذا النمط، فإن الشرطات السفلية تمثل ملاحظات غير مفقودة. على سبيل المثال، من الجدول الثاني نرى أن حالتين لها قيم مفقودة على متغير 1 (لاندفال)، ولكن بيانات كاملة على كافة المتغيرات الأخرى، وأن حالة واحدة تفتقد البيانات على المتغيرات 2 و 4 و 5. يظهر الصف السفلي أن أربع حالات لا تفتقد أي قيم على الإطلاق (جميع الشرطات السفلية). يعرض هذا الجدول نفس المعلومات التي تم إنشاؤها في الجزء الثالث أعلاه، ولكن في شكل مختلف قليلا. يتم وصف نمط البيانات المفقودة لكل حالة في متغير ميسباترن. وأخيرا، يبين الجدول الثالث توزيع عدد القيم المفقودة لكل حالة. وهذه هي نفس المعلومات التي نوقشت أعلاه في الجزء 2. ويوجد أيضا عدد المتغيرات لكل حالة مفقودة في متغير العدد المتغير. محتوى هذا الموقع لا ينبغي أن يفسر على أنه تأييد لأي موقع ويب معين أو كتاب أو منتج برامج من قبل جامعة كاليفورنيا. ملاحظة: سوف تقوم مجموعة الاستشارات الإحصائية إدر بترحيل الموقع إلى نظام إدارة محتوى وردبريس في فبراير لتسهيل صيانة وإنشاء محتوى جديد. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. مرحبا بكم في معهد للبحوث الرقمية والتعليم مساعدة المجموعة الاستشارية مجموعة من خلال إعطاء هدية ستاتا التعليمات: كيف يمكنني رؤية عدد من القيم والنماذج المفقودة من القيم المفقودة في ملف البيانات بلدي في بعض الأحيان، قد يكون مجموعة البيانات كوثولسكوت في ذلك، أي القيم المفقودة. بعض الإجراءات الإحصائية مثل تحليل الانحدار لن تعمل أيضا، أو على الإطلاق، على مجموعة بيانات ذات قيم مفقودة. ويجب حذف الملاحظات ذات القيم المفقودة أو استبدال القيم المفقودة لكي يتسنى إجراء إحصائي لإحداث نتائج ذات مغزى. ستزيل معظم البرامج الإحصائية (بما في ذلك ساس و سبس و ستاتا) هذه الحالات تلقائيا من أي تحليل تقوم بتشغيله (بدون حذف الحالات من مجموعة البيانات). هذا هو السبب في كوتنوت غالبا ما يختلف من تحليل إلى تحليل، حتى لو كانت مجموعة البيانات هي نفسها. متغيرات مختلفة لها كميات مختلفة من البيانات الناقصة، وبالتالي تغيير المتغيرات في نموذج يغير عدد الحالات مع بيانات كاملة عن جميع المتغيرات في النموذج. لأن البرنامج قطرات الحالات مع القيم المفقودة بالنسبة لنا، فمن السهل جدا ل كوتفورجيتكوت حول البيانات المفقودة تماما. ومع ذلك، فإن وجود البيانات المفقودة يمكن أن يؤثر على نتائجنا، وخصوصا عندما تكون مجموعة البيانات أو حتى متغير واحد، لديه نسبة عالية من القيم مفقودة. وبالتالي فمن الأفضل دائما التحقق من مجموعة بيانات للبيانات المفقودة، والتفكير في كيفية تأثير البيانات المفقودة على تحليلاتنا. تعرض هذه الصفحة بعض طرق النظر إلى القيم المفقودة في مجموعة بيانات، ويمكن استخدام هذه المعلومات لاتخاذ قرارات مستنيرة حول كيفية التعامل مع القيم المفقودة. قبل أن نبدأ، نحن بحاجة إلى بعض البيانات مع القيم المفقودة، التعليمات البرمجية أدناه إدخال مجموعة بيانات صغيرة في ستاتا، ثم يعرض تلك البيانات. في مجموعة بيانات صغيرة، مثل واحد أدناه، فمن السهل جدا أن ننظر إلى البيانات الخام ونرى فيها القيم مفقودة. ومع ذلك، عندما تكون مجموعات البيانات كبيرة، نحتاج إلى طريقة أكثر منهجية لفحص مجموعة البيانات الخاصة بنا للقيم المفقودة. نعرض لك أدناه بعض الطرق للقيام بذلك، باستخدام البيانات أدناه كمثال. 1. عدد القيم المفقودة مقابل عدد القيم غير المفقودة الشيء الأول الذي سنفعله هو تحديد المتغيرات التي تحتوي على الكثير من القيم المفقودة. لقد أنشأنا برنامج ستاتا صغير يسمى مديسك الذي يحسب عدد القيم المفقودة في كل من المتغيرات العددية والحرف. يمكنك تحميل مديسك من داخل ستاتا عن طريق كتابة فينديت مديسك (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينيديت). ثم يمكنك تشغيل مديسك لمتغير واحد أو أكثر كما هو موضح أدناه. الآن نعرف عدد القيم المفقودة في كل متغير. على سبيل المثال، متغير سالبريك له أربعة قيم مفقودة و سالتوابر له قيمتين مفقودتين. 2. الحصول على عدد من القيم المفقودة لكل مراقبة يمكننا أيضا أن ننظر في توزيع القيم الناقصة عبر الملاحظات. الكود أدناه يخلق متغير يسمى نميس الذي يعطي عدد من القيم المفقودة لكل مراقبة. الدالة rmiss2 () المستخدمة هنا هي امتداد لدالة إغن رميس (). وهو يحسب عدد القيم المفقودة في فارليست. rmiss2 () يقبل كل من المتغيرات العددية و الرقمية. (ستاتاس رميس) (فقط يقبل المتغيرات الرقمية.) يمكنك تحميل rmiss2 () عبر الإنترنت من داخل ستاتا عن طريق كتابة فينديت rmiss2 (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت ). نحدد أدناه المتغير الذي أنشأناه للتو. وبالنظر إلى جدول الترددات نعلم أن هناك أربع ملاحظات بدون قيم مفقودة، وتسعة ملاحظات مع قيم مفقودة واحدة، وملاحظة واحدة مع قيمتين مفقودتين، وملاحظة واحدة مع ثلاثة قيم مفقودة. 3. أنماط القيم المفقودة يمكننا أيضا أن ننظر في أنماط القيم المفقودة. يمكنك تحميل مفباترنس عبر الإنترنت من داخل ستاتا عن طريق كتابة فيفيت مفباترنس (انظر كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت). الأمر مفباترنس تنتج الإخراج لجميع المتغيرات في مجموعة البيانات، لأنماط البيانات المفقودة عبر مجموعة فرعية من المتغيرات، قائمة متغيرة يمكن تضمينها، على سبيل المثال، مفباترنس لاندفال التحسن توتفال. ويظهر الناتج التي تنتجها مفباترنس أدناه. يسرد الجدول الأول المتغيرات ونوع التخزين (نوع) وعدد الملاحظات (أوبس)، وعدد القيم المفقودة (مف)، وتسمية المتغير إذا كانت المتغيرات واحدة. يحتوي الجدول الثاني على معلومات عن نمط القيم المفقودة. تظهر الكتلة الأولى من الأعمدة في الإخراج أنماط البيانات المفقودة. ضمن الكتلة، يتم تمثيل كل متغير بواسطة عمود، يشير اقتباس إلى أن قيم هذا المتغير موجودة في نمط بيانات مفقود معين، يشير كوت. يشير إلى أنها مفقودة. تتبع الأعمدة نفس ترتيب قائمة المتغيرات في الجدول الأول، بحيث يمثل العمود الأول في الإخراج أدناه لاندفال. والثاني تحسين. وما إلى ذلك وهلم جرا. يتم سرد أنماط البيانات المفقودة في التردد التنازلي، هنا نمط البيانات المفقود الأكثر شيوعا هو بيانات كاملة (كوت كوت). ويبين الجدول أيضا عدد القيم المفقودة في هذا النمط (مف)، وعدد الحالات التي بها نمط البيانات المفقود (فرق). استنادا إلى المعلومات في الجدول الثاني ونحن نعلم أن هناك أربع ملاحظات مع عدم وجود قيم مفقودة، وحالتين مفقودين فقط على سالبريك متغير. وملاحظة واحدة مع القيم المفقودة على إمبروفال. ساليبريك و سالتوابر. 4. عندما تكون جميع المتغيرات ذات الاهتمام رقمية. الأمثلة المذكورة أعلاه تعمل بغض النظر عما إذا كانت متغيرات الفائدة (أي المتغيرات التي تفحص أنماط بياناتها المفقودة) رقمية أو سلسلة. عندما تكون جميع المتغيرات التي ترغب في التحقق من وجود قيم مفقودة رقمية يمكننا استخدام برنامج يسمى ميسشك لتبسيط خطوات فحص البيانات المفقودة في مجموعة البيانات لدينا. (ملاحظة: المتغيرات الرقمية تشمل تلك التي لها تسميات القيمة التي هي سلاسل، طالما يتم تخزين القيم الفعلية للمتغيرات كأرقام.) يمكنك تحميل ميسشك من داخل ستاتا عن طريق كتابة فيستيت ميسشك (انظر كيف يمكنني استخدام الأمر فينديت إلى والبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت). أدناه هو الأمر ل ميسشك. لقد أدرجنا كل خمسة من المتغيرات في مجموعة البيانات لدينا في قائمة المتغيرات بعد الأمر ميسشك. ومع ذلك، كان يمكن أن يكون مجرد ترك قائمة المتغيرات فارغة (أي استخدام فقط ميسشك جنرال (ملكة جمال) بدلا من ذلك)، إذا كان لدينا، سوف ميسشك تشغيل باستخدام كافة المتغيرات في مجموعة البيانات لدينا. قائمة المتغيرات ضرورية فقط إذا أردنا تشغيل ميسشك فقط على بعض المتغيرات في مجموعة البيانات. الخيار جين (ميس) يخبر ميشك أننا نريد أن إنشاء اثنين من المتغيرات الجديدة، وكلاهما يبدأ مع كوتيمسكوت. سيتم تسمية هذين المتغيرين ميسباترن و ميسنومبر. المتغير ميسباترن يشير إلى أنماط البيانات المفقودة التي تتبعها كل حالة. يشير متسنوم المتغير إلى عدد القيم المفقودة لكل حالة. الإخراج ل ميسشك يتكون من ثلاثة جداول. يسرد الجدول الأول عدد القيم المفقودة، وكذلك النسبة المئوية مفقودة لكل متغير، وهذا يشبه الجدول الذي أعدته مديسك في الجزء 1 أعلاه. يحتوي هذا الجدول أيضا على عمود المسمى الذي يعين كل متغير رقم يستخدم لتحديد المتغير لاحقا في الإخراج. ويبين الجدول الثاني توزيع القيم الناقصة. يتم وصف نمط المفقودين باستخدام الأرقام المتغيرة من الجدول الأول والشرطات السفلية (). وتشير الأرقام إلى المتغيرات المفقودة في هذا النمط، فإن الشرطات السفلية تمثل ملاحظات غير مفقودة. على سبيل المثال، من الجدول الثاني نرى أن حالتين لها قيم مفقودة على متغير 1 (لاندفال)، ولكن بيانات كاملة على كافة المتغيرات الأخرى، وأن حالة واحدة تفتقد البيانات على المتغيرات 2 و 4 و 5. يظهر الصف السفلي أن أربع حالات لا تفتقد أي قيم على الإطلاق (جميع الشرطات السفلية). يعرض هذا الجدول نفس المعلومات التي تم إنشاؤها في الجزء الثالث أعلاه، ولكن في شكل مختلف قليلا. يتم وصف نمط البيانات المفقودة لكل حالة في متغير ميسباترن. وأخيرا، يبين الجدول الثالث توزيع عدد القيم المفقودة لكل حالة. وهذه هي نفس المعلومات التي نوقشت أعلاه في الجزء 2. ويوجد أيضا عدد المتغيرات لكل حالة مفقودة في متغير العدد المتغير. محتوى هذا الموقع لا ينبغي أن يفسر على أنه تأييد لأي موقع ويب معين أو كتاب أو منتج برامج من قبل جامعة كاليفورنيا. ملاحظة: سوف تقوم مجموعة الاستشارات الإحصائية إدر بترحيل الموقع إلى نظام إدارة محتوى وردبريس في فبراير لتسهيل صيانة وإنشاء محتوى جديد. ستتم إزالة بعض صفحاتنا القديمة أو وضعها في الأرشيف بحيث لا يتم الاحتفاظ بها بعد الآن. سنحاول الحفاظ على عمليات إعادة التوجيه بحيث تستمر عناوين ورل القديمة في العمل بأفضل ما في وسعنا. مرحبا بكم في معهد للبحوث الرقمية والتعليم مساعدة مجموعة استشارات الدولة من خلال إعطاء هدية ستاتا وحدة التعلم البيانات المفقودة 1. مقدمة هذه الوحدة سوف استكشاف البيانات المفقودة في ستاتا، مع التركيز على البيانات المفقودة الرقمية. وسوف تصف كيفية الإشارة إلى البيانات المفقودة في ملفات البيانات الخام الخاصة بك، وكذلك كيفية معالجة البيانات المفقودة في أوامر منطقية ستاتا وبيانات التعيين. سوف نقوم بتوضيح بعض خصائص البيانات المفقودة في ستاتا باستخدام بيانات من دراسة وقت رد الفعل مع ثمانية مواضيع أشار إليها المتغير معرف. وقياس زمن التفاعلات في ثلاث نقاط زمنية (trial1 trial2 trial3). يتم عرض ملف بيانات الإدخال أدناه. قد تلاحظ أن بعض أوقات التفاعل مشفرة باستخدام واحد. كما هو الحال بالنسبة للموضوع 2. الشخص الذي يقيس الوقت لتلك المحاكمة لم يقيس وقت الاستجابة بشكل صحيح، وبالتالي فإن البيانات عن المحاكمة الثانية مفقودة. 2. كيف تعالج ستاتا البيانات المفقودة في إجراءات ستاتا كقاعدة عامة، أوامر ستاتا التي تقوم بإجراء حسابات من أي نوع التعامل مع البيانات المفقودة عن طريق حذف القيم المفقودة. ومع ذلك، فإن الطريقة التي يتم حذف القيم المفقودة ليست متسقة دائما عبر الأوامر، لذلك Let39s نلقي نظرة على بعض الأمثلة. أولا، يلخص Let39s متغيرات وقت رد الفعل ونرى كيف ستاتا يعالج القيم المفقودة. كما ترون في الإخراج أدناه، تلخيص وسائل محسوبة باستخدام 4 ملاحظات للمحاكمة 1 و trial2 و 6 ملاحظات للمحاكمة 3. وباختصار، أجرى الأمر تلخيص الحسابات على جميع البيانات المتاحة. مثال ثان، يوضح كيف يعالج الأمر تابولاتيون أو tab1 البيانات المفقودة. مثل تلخيص، tab1 يستخدم البيانات المتاحة فقط. ويلاحظ أن النسب المئوية تحسب استنادا إلى العدد الكلي للحالات غير المفقودة. من المحتمل أن تكون قد تم حساب النسب المئوية من إجمالي عدد المشاهدات، والنسبة المئوية مفقودة لكل متغير موضحة في الجدول. ويمكن تحقيق ذلك من خلال تضمين الخيار المفقود بعد الجدولة. الأمر، Let39s ننظر في كيفية معالجة الأمر ارتباط البيانات المفقودة. ونتوقع أن تؤدي الحسابات استنادا إلى البيانات المتاحة، وأن تحذف القيم المفقودة. هنا هو مثال الأمر. الإخراج هو عرض أدناه. لاحظ كيف تم استبعاد القيم المفقودة. سوف ستاتا تنفيذ حذف ليستويز وعرض فقط الارتباط للملاحظات التي لها قيم غير مفقودة على كافة المتغيرات المدرجة. ستاتا كما يسمح لحذف زوجي. يتم عرض الارتباطات للملاحظات التي لها قيم غير مفقودة لكل زوج من المتغيرات. يمكن القيام بذلك باستخدام الأمر بوكور. نحن نستخدم الخيار أوبس لعرض عدد من الملاحظات المستخدمة لكل زوج، كما ترون، فإنها تختلف اعتمادا على كمية المفقودين. 3. ملخص لكيفية معالجة القيم المفقودة في إجراءات ستاتا تلخيص لكل متغير، يتم استخدام عدد القيم غير المفقودة. الجدولة افتراضيا، يتم استبعاد القيم المفقودة وتستند النسب المئوية على عدد القيم غير المفقودة. إذا كنت تستخدم الخيار المفقود في أمر علامة التبويب، تستند النسب المئوية إلى إجمالي عدد المشاهدات (غير المفقودة والمفقودة) والنسبة المئوية للقيم المفقودة مذكورة في الجدول. كور افتراضيا، يتم حساب الارتباطات استنادا إلى عدد الأزواج مع البيانات غير المفقودة (حذف زوجي للبيانات المفقودة). يمكن استخدام الأمر بوكور لطلب أن يتم حساب الارتباطات فقط للملاحظات التي تحتوي على بيانات غير مفقودة لجميع المتغيرات المدرجة بعد أمر بوكور (حذف قائمة البيانات المفقودة). ريج إذا كان أي من المتغيرات المدرجة بعد أمر ريج مفقودا، فإن الملاحظات التي تفتقد تلك القيمة (القيم) مستبعدة من التحليل (أي حذف قائمة البيانات المفقودة). للحصول على إجراءات أخرى، راجع دليل ستاتا للحصول على معلومات حول كيفية معالجة البيانات المفقودة. 4. القيم المفقودة في بيانات التخصيص من المهم أن نفهم كيف يتم التعامل مع القيم المفقودة في بيانات التخصيص. فكر في المثال الموضح أدناه. يوضح أمر القائمة أدناه كيفية معالجة القيم المفقودة في عبارات التعيين. ويستند المتغير sum1 على المتغيرات trial1 trial2 و trial3. إذا كان أي من هذه المتغيرات مفقودة، فقد تم تعيين قيمة المجموع 1 على المفقودين. ولذلك فإن القيمة 1 مفقودة للملاحظات 2 و 3 و 4، كما هو الحال بالنسبة للملاحظة 7. وكقاعدة عامة، فإن الحسابات التي تنطوي على قيم مفقودة تعطي قيم مفقودة. على سبيل المثال، 2 2 ينتج 4 2. عائدات . 2 2 الغلة 1. 2 الغلة. 2 3 الغلة 6 2. عائدات . كلما قمت بإضافة، طرح، ضرب، تقسيم، الخ القيم التي تنطوي على البيانات المفقودة، والنتيجة مفقودة. في تجربة وقت رد الفعل لدينا، مجموع الوقت رد الفعل 1 مفقود لأربع من أصل سبع حالات. يمكننا محاولة تجميع البيانات للمحاكمات غير المفقودة باستخدام الدالة روتوتال كما هو موضح في المثال أدناه. تظهر النتائج أدناه أن المجموع 2 يحتوي الآن على مجموع التجارب غير المفقودة. لاحظ أن الدالة روتوتال يعامل مفقود كقيمة صفر. عند جمع عدة متغيرات قد لا يكون من المعقول معالجة المفقودين على أنه صفر إذا كانت الملاحظات مفقودة على جميع المتغيرات التي سيتم تلخيصها. الدالة روتوتال مع الخيار المفقود سيعود قيمة مفقودة إذا كانت الملاحظة مفقودة على جميع المتغيرات. وهناك بيانات أخرى تعمل بالمثل. على سبيل المثال، لاحظ ما حدث عندما نحاول إنشاء متغير متوسط دون استخدام وظيفة (كما هو موضح في المثال أدناه). إذا كان أي من المتغيرات trial1، trial2 أو trial3 مفقودة، يتم تعيين قيمة avg1 إلى مفقودة. بدلا من ذلك، الدالة رومين متوسط البيانات للمحاكمات غير المفقودة في نفس طريقة الدالة روتوتال. ملاحظة: لو كان هناك عدد كبير من التجارب، ويقول 50 المحاكمات، ثم سيكون مزعج أن يكون لكتابة أفغرومان (المحاكمة 1 trial2 trial3 المحاكمة 4). هنا هو اختصار يمكنك استخدامه في هذا النوع من الوضع: وأخيرا، يمكنك استخدام روميس و رونوميس وظائف لتحديد عدد المفقودين وعدد من القيم غير المفقودة، على التوالي، في قائمة المتغيرات. وهذا موضح أدناه. للمتغير نوميس. كان للملاحظات 1 و 5 و 6 ثلاث قيم صحيحة، وكان للملاحظتين 2 و 3 قيمتان صحيحتان، وكانت الملاحظة 4 ذات قيمة صحيحة واحدة فقط ولم تكن للمراقبة 7 قيم صالحة. المتغير يغيب يظهر العكس، فإنه يوفر عدد من عدد من القيم المفقودة. 5. Missing values in logical statements It is important to understand how missing values are handled in logical statements. For example, say that you want to create a 01 variable for trial1 that is 1 if it is 1.5 or less, and 0 if it is over 1.5. We show this below (incorrectly, as you will see). It appears that something went wrong with our newly created variable newvar1 . The observations with missing values for trial2 were assigned a zero for newvar1. Let39s explore why this happened by looking at the frequency table of trial2 . As you can see in the output, missing values are at the listed after the highest value 2.1 This is because STATA treats a missing value as the largest possible value (e. g. positive infinity) and that value is greater than 2.1, so then the values for newvar1 become 0. Now that we understand how STATA treats missing values, we will explicitly exclude missing values to make sure they are treated properly, as shown below. As you can see in the STATA output below, the new variable newvar2 has missing values for observations that are also missing for trial2 . 6. Missing values in logical statements When creating or recoding variables that involve missing values, always pay attention to whether the variable includes missing values. 7. For more information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.
No comments:
Post a Comment