تحليل أداء خوارزميات التصنيف باستخدام مصفوفة الدقة - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المملكة العربية السعودية

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

الدرس: خوارزميات التعلم الآلي: بايز الساذجة متعددة الحدود ومصنف الانحدار التدرجي العشوائي

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة تحليل أداء خوارزميات التعلم الآلي في تصنيف البيانات، مع التركيز على خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) وخوارزمية مصنف الانحدار التدرجي العشوائي (SGDClassifier).

يبدأ المحتوى بمناقشة دقة خوارزمية MultinomialNB التي تبلغ حوالي 30% في تصنيف مجموعة بيانات تحتوي على 20 عنوانًا مختلفًا، مع مقارنتها بالمصنف العشوائي الذي يحقق دقة 5% فقط، مما يبرز تحسنًا بست مرات. كما يسلط الضوء على إمكانية تحسين الدقة بشكل ملحوظ من خلال استخدام مصنفات أخرى مثل SGDClassifier.

يتم عرض مصفوفة الدقة (Confusion Matrix) التي توضح أداء خوارزمية MultinomialNB في تصنيف فئات حيوانية مختلفة، حيث تظهر القيم المعيارية نسب التصنيف الصحيح والخطأ. على سبيل المثال، تظهر دقة عالية في تصنيف الباندا (0.96) والفيل (0.74)، بينما تظهر أخطاء شائعة مثل تصنيف الحمام على أنه نسر أو الذئب على أنه قطة.

يشرح النص آلية عمل SGDClassifier التي تعتمد على ضبط الأوزان لتقليل دالة الخسارة، مما يساهم في تحسين النتائج. كما يؤكد على أهمية مصفوفة الدقة في تقييم الأداء وتحديد مجالات التحسين، مع تقديم أمثلة عملية من البيانات المعروضة.

بشكل عام، تهدف الصفحة إلى تعزيز فهم تقنيات التصنيف في التعلم الآلي وكيفية تقييمها وتحسينها باستخدام أدوات مثل مصفوفة الدقة والمصنفات المتقدمة.

📄 النص الكامل للصفحة

تحقق خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) دقة تقارب 30%، وعلى الرغم من أن هذه النسبة قد تبدو قليلة، إلا أن عليك النظر إليها في ضوء أن مجموعة البيانات تتضمن عشرين عنوانًا مختلفًا. ويعني ذلك أنه لو افترض وجود مجموعة بيانات متوازنة نسبيًا يعطي فيها كل عنوان 1/20 من البيانات، فإن المصنف العشوائي الذي يخصص عنوانًا لكل نقطة اختبار بشكل عشوائي، سيحقق دقة تبلغ حوالي 5%. ولذلك ستكون الدقة بذلك بنسبة 30% أعلى بست مرات من التخمين العشوائي. ومع ذلك، كما هو موضح في الأقسام التالية، يمكن تحسين هذه الدقة تحسينًا ملحوظًا، وتؤكد مصفوفة الدقة أيضًا أن هناك مجالاً للتحسين. على سبيل المثال، غالبًا ما يخطئ نموذج بايز الساذج ويصنف Pigeons (الحمام) على أنها Eagles (نسور) أو يصنف Wolves (الذئاب) على أنها Cats (قطط). تكمن أسهل طريقة لمحاولة تحسين النتائج في ترك البيانات كما هي، والتجريب باستخدام مصنفات مختلفة. ومن النماذج التي ثبت أنها تعمل بشكل جيد مع بيانات الصورة المحولة إلى متجهات نموذج: مصنف الانحدار التدرجي العشوائي (SGDClassifier) من مكتبة sklearn، حيث يعمل نموذج SGDClassifier أثناء التدريب على ضبط أوزان النموذج بناءً على بيانات التدريب، والهدف من ذلك يتمثل في العثور على مجموعة الأوزان التي تقلل من دالة الخسارة (Loss Function)، وهي الدالة التي تقيس الفرق بين العناوين المتوقعة والعناوين الحقيقية في بيانات التدريب. يستخدم المقطع البرمجي التالي مصنف SGDClassifier لتدريب نموذج على مجموعة بيانات مسطحة:شكل 4.7: مصفوفة الدقة الخاصة بأداء خوارزمية MultinomialNBتساعد القيم المسواة (Normalized Values) على رؤية العناصر على هيئة نسب مئوية.--- SECTION: خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB Algorithm) --- هي خوارزمية تعلم آلة تُستخدم لتصنيف النصوص أو البيانات الأخرى في فئات مختلفة، وتعتمد على خوارزمية بايز الساذج (Naive Bayes) وهي طريقة بسيطة وفعالة لحل مشكلات التصنيف.--- SECTION: خوارزمية مصنف الانحدار التدرجي العشوائي (SGDClassifier Algorithm) --- هي خوارزمية تعلم آلة تُستخدم في تصنيف البيانات في فئات مختلفة أو مجموعات، وتعتمد على أسلوب يسمى الانحدار التدرجي العشوائي (Stochastic Gradient Descent - SGD) وهي طريقة فعالة لتحسين الأنواع المتعددة للنماذج وتدريبها، بما فيها المصنفات.--- VISUAL CONTEXT --- **TABLE**: Confusion Matrix Description: A heatmap-style confusion matrix displaying the normalized classification accuracy of the MultinomialNB algorithm for various animal categories. The rows represent the true labels, and the columns represent the predicted labels. The diagonal elements show the proportion of correctly classified instances, while off-diagonal elements show misclassifications. A color bar on the right indicates the magnitude of the normalized values, ranging from 0.0 to 0.8. Table Structure: Headers: True label | Bear | Cat | Chicken | Cow | Deer | Duck | Eagle | Elephant | Lion | Monkey | Panda | Pigeon | Rabbit | Sheep | Tiger | Wolf Rows: Row 1: Bear | 0.57 | 0.0 | 0.0 | 0.0 | 0.05 | 0.0 | 0.0 | 0.14 | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 2: Cat | 0.03 | 0.21 | 0.0 | 0.0 | 0.18 | 0.03 | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 3: Chicken | 0.0 | 0.0 | 0.3 | 0.04 | 0.0 | 0.0 | 0.04 | 0.11 | 0.33 | 0.0 | 0.0 | 0.0 | 0.15 | 0.0 | 0.0 | 0.04 Row 4: Cow | 0.23 | 0.0 | 0.03 | 0.23 | 0.0 | 0.0 | 0.17 | 0.1 | 0.03 | 0.03 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.07 Row 5: Deer | 0.0 | 0.03 | 0.03 | 0.04 | 0.41 | 0.0 | 0.0 | 0.06 | 0.03 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 6: Duck | 0.04 | 0.11 | 0.0 | 0.04 | 0.04 | 0.3 | 0.07 | 0.11 | 0.04 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.15 Row 7: Eagle | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.41 | 0.09 | 0.0 | 0.27 | 0.14 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 8: Elephant | 0.0 | 0.0 | 0.0 | 0.0 | 0.13 | 0.0 | 0.0 | 0.04 | 0.74 | 0.07 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 9: Lion | 0.05 | 0.05 | 0.05 | 0.0 | 0.05 | 0.0 | 0.0 | 0.0 | 0.55 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 10: Monkey | 0.09 | 0.04 | 0.0 | 0.09 | 0.04 | 0.04 | 0.17 | 0.0 | 0.13 | 0.13 | 0.0 | 0.0 | 0.04 | 0.04 | 0.17 Row 11: Panda | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.96 | 0.0 | 0.0 | 0.0 | 0.0 | 0.04 Row 12: Pigeon | 0.03 | 0.06 | 0.0 | 0.0 | 0.03 | 0.0 | 0.03 | 0.19 | 0.23 | 0.03 | 0.03 | 0.0 | 0.13 | 0.1 | 0.16 | 0.0 Row 13: Rabbit | 0.04 | 0.07 | 0.0 | 0.0 | 0.07 | 0.04 | 0.11 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 Row 14: Sheep | 0.14 | 0.05 | 0.05 | 0.09 | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.05 | 0.0 | 0.0 | 0.45 | 0.0 | 0.0 | 0.0 Row 15: Tiger | 0.09 | 0.04 | 0.0 | 0.0 | 0.0 | 0.04 | 0.13 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.13 | 0.3 | 0.04 | 0.0 Row 16: Wolf | 0.09 | 0.12 | 0.0 | 0.09 | 0.0 | 0.06 | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.22 Calculation needed: The values represent normalized counts or probabilities of classification outcomes. No further calculation is explicitly needed to fill empty cells, as all cells contain values (even if 0.0). X-axis: Predicted label Y-axis: True label Data: The matrix shows normalized values (proportions) for classification outcomes. Higher values on the diagonal indicate correct classifications. For example, Panda has a very high correct classification rate (0.96), while Cat and Cow have lower rates (0.21 and 0.23 respectively). Misclassifications are shown by off-diagonal values, such as Chicken being frequently misclassified as Lion (0.33) or Pigeon (0.15). Key Values: Panda: 0.96 (correct), Elephant: 0.74 (correct), Bear: 0.57 (correct), Lion: 0.55 (correct), Deer: 0.41 (correct), Eagle: 0.41 (correct), Chicken predicted as Lion: 0.33 (misclassification), Duck predicted as Duck: 0.30 (correct), Tiger predicted as Sheep: 0.30 (misclassification), Wolf predicted as Wolf: 0.22 (correct) Context: This confusion matrix is used to evaluate the performance of the Multinomial Naive Bayes (MultinomialNB) classification algorithm. It helps in understanding which categories are correctly identified and which are frequently confused with others, providing insights for model improvement. (Note: Some details are estimated)

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هي نسبة الدقة التقريبية لخوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) في تصنيف النصوص المذكورة في النص؟

الإجابة: تحقق خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) دقة تقارب 30%.

الشرح: النص يذكر صراحة أن دقة الخوارزمية تقارب 30%، وهي نسبة مهمة مقارنة بالاحتمال العشوائي.

تلميح: ابحث عن الرقم الذي يمثل نسبة النجاح في التصنيف لهذه الخوارزمية.

كيف يمكن مقارنة دقة خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) بالتخمين العشوائي في مجموعة بيانات بها عشرين عنوانًا مختلفًا؟

الإجابة: تزيد دقة 30% للخوارزمية عن التخمين العشوائي (الذي يبلغ حوالي 5%) بست مرات.

الشرح: إذا كانت هناك 20 فئة، فإن التخمين العشوائي يعطي احتمال نجاح 1/20 = 0.05 أو 5%. دقة 30% أعلى بست مرات من 5%.

تلميح: احسب نسبة التخمين العشوائي ثم قارنها بدقة الخوارزمية المذكورة.

ما هي بعض الأمثلة على الأخطاء الشائعة التي ترتكبها خوارزمية بايز الساذجة متعددة الحدود (MultinomialNB) حسب ما ورد في النص؟

الإجابة: غالباً ما تخطئ الخوارزمية في تصنيف الحمام (Pigeons) على أنها نسور (Eagles)، أو تصنيف الذئاب (Wolves) على أنها قطط (Cats).

الشرح: النص يذكر هذه الأمثلة لتوضيح طبيعة الأخطاء في التصنيف التي ترتكبها الخوارزمية.

تلميح: اذكر مثالين للأخطاء في التصنيف المذكورة في الفقرة المتعلقة بأداء الخوارزمية.

ما هي أسهل طريقة مقترحة في النص لمحاولة تحسين نتائج مصنف بايز الساذجة متعددة الحدود (MultinomialNB) دون تغيير البيانات؟

الإجابة: أسهل طريقة هي التجريب باستخدام مصنفات مختلفة.

الشرح: النص يقترح تغيير النموذج (المصنف) كاستراتيجية أولية لتحسين الأداء دون تعديل البيانات نفسها.

تلميح: عندما لا ترغب في تغيير البيانات، ما هو العنصر الآخر الذي يمكنك تغييره لتحسين الأداء؟

كيف يعمل مصنف الانحدار التدرجي العشوائي (SGDClassifier) أثناء التدريب، وما هو هدفه؟

الإجابة: يعمل SGDClassifier على ضبط أوزان النموذج بناءً على بيانات التدريب بهدف العثور على مجموعة الأوزان التي تقلل من دالة الخسارة (Loss Function).

الشرح: النص يشرح أن SGDClassifier يستخدم أسلوب تحسين الأوزان لتقليل الخطأ المقاس بواسطة دالة الخسارة.

تلميح: فكر في كيفية قيام النموذج بتعديل نفسه أثناء عملية التعلم وما يسعى إلى تقليله.