تقييم جودة تجميع البيانات باستخدام مقاييس sklearn - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المملكة العربية السعودية

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

الدرس: مقاييس تقييم جودة تجميع البيانات

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: example

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة تقييم جودة تجميع البيانات باستخدام ثلاث مقاييس رئيسية من مكتبة sklearn: مؤشر التجانس (Homogeneity Score)، مؤشر راند المعدل (Adjusted Rand Score)، ومؤشر الاكتمال (Completeness Score).

يشرح النص أن مؤشر التجانس يقيس مدى تجانس العناقيد، حيث تكون القيم بين 0 و1، وتزداد عندما تحتوي كل عنقود على نقاط من تصنيف واحد فقط. بينما يتراوح مؤشر راند المعدل بين -0.5 و1.0، ويقيم مدى تطابق التجميع مع التصنيفات الحقيقية.

يقدم المثال البرمجي الأول تطبيق هذه المقاييس على بيانات نصية باستخدام TF-IDF، ويظهر النتائج: مؤشر التجانس 0.622، مؤشر راند المعدل 0.463، ومؤشر الاكتمال 0.543. ثم يُعاد التجميع باستخدام 5 عناقيد مع التجميع الهرمي، مما يحسن مؤشر الاكتمال إلى 0.608.

يخلص النص إلى أن التجميع الهرمي يوفر نتائج أفضل في تمثيل البيانات، مع الإشارة إلى إمكانية تحسين الدقة باستخدام تقنيات البرمجة الاتجاهية المستندة على الشبكات العصبية.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

يستخدم المقطع البرمجي التالي قيم بيانات الحقيقة المعتمدة وثلاثة دوال مختلفة لتسجيل النقاط من مكتبة سكيليرن (sklearn) لتقييم جودة تجميع البيانات:

تكون قيم مؤشر التجانس (Homogeneity Score)

نوع: محتوى تعليمي

تكون قيم مؤشر التجانس (Homogeneity Score) بين 0 و 1 ويمكن زيادة هذه القيم عندما تكون كل النقاط في كل عنقود لها قيمة بيانات الحقيقة المعتمدة. وبالمثل، يحتوي كل عنقود على نقاط البيانات وحيدة التصنيف.

تكون قيمة مؤشر راند المعدل (Adjusted Rand Score)

نوع: محتوى تعليمي

تكون قيمة مؤشر راند المعدل (Adjusted Rand Score) بين 0.5- و 1.0 ويمكن زيادة هذه القيم عندما تقع كل نقاط البيانات ذات القيم نفسها في العنقود نفسه وكل نقاط البيانات ذات القيم المختلفة في عناقيد مختلفة.

تكون قيمة مؤشر الاكتمال (Completeness Score)

نوع: محتوى تعليمي

تكون قيمة مؤشر الاكتمال (Completeness Score) بين 0 و 1 ويمكن زيادة هذه القيمة بتعيين كل نقاط البيانات من تصنيف محدد في العنقود نفسه.

Python Code Example 1

نوع: محتوى تعليمي

from sklearn.metrics import homogeneity_score,adjusted_rand_score,completeness_score print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_tfidf)) print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_tfidf)) print('\nCompleteness score:',completeness_score(bbc_labels,pred_tfidf))

Output Scores 1

نوع: محتوى تعليمي

Homogeneity score: 0.6224333236569846 Adjusted Rand score: 0.4630492696176891 Completeness score: 0.5430590192420555

نوع: محتوى تعليمي

المؤشر أقرب إلى 1 وهذا يعني أن مجموعة النصوص في العنقود تنتمي إلى قيمة واحدة.

نوع: محتوى تعليمي

المؤشر أقرب إلى 1 وهذا يعني إنشاء روابط أفضل بين العناقيد والقيم؛ كل على حده.

نوع: محتوى تعليمي

لاستكمال تحليل البيانات، يُعاد تجميع البيانات باستخدام 5 عناقيد، بالتساوي مع العدد الحقيقي لقيم (بيانات الحقيقة المعتمدة):

Python Code Example 2

نوع: محتوى تعليمي

AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=5) AC_tfidf.fit(text_tfidf.toarray()) pred_tfidf=AC_tfidf.labels_ print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_tfidf)) print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_tfidf)) print('\nCompleteness score:',completeness_score(bbc_labels,pred_tfidf))

Output Scores 2

نوع: محتوى تعليمي

Homogeneity score: 0.528836079209762 Adjusted Rand score: 0.45628412883628383 Completeness score: 0.6075627851312266

نوع: محتوى تعليمي

نظرًا لقدرة التجميع الهرمي على إيجاد العدد الحقيقي من القيم، وتوفير مؤشر اكتمال أكثر دقة، ستحصل على عملية تجميع أفضل من حيث تمثيل البيانات.

نوع: محتوى تعليمي

على الرغم من أن النتائج المؤشر تظهر أن التجميع التكتلي باستخدام البرمجة الاتجاهية لتكرار المصطلح العكسي (TF-IDF) تحقق نتائج معقولة، إلا أنه لا يزال بالإمكان تحسين دقة عملية التجميع. سيوضح القسم التالي كيف يمكن أن نحقق نتائج مبهرة باستخدام تقنيات البرمجة الاتجاهية المستندة على الشبكات العصبية.

نوع: METADATA

وزارة التعليم Ministry of Education 2025 - 1447

نوع: METADATA

162

📄 النص الكامل للصفحة

يستخدم المقطع البرمجي التالي قيم بيانات الحقيقة المعتمدة وثلاثة دوال مختلفة لتسجيل النقاط من مكتبة سكيليرن (sklearn) لتقييم جودة تجميع البيانات:--- SECTION: تكون قيم مؤشر التجانس (Homogeneity Score) --- تكون قيم مؤشر التجانس (Homogeneity Score) بين 0 و 1 ويمكن زيادة هذه القيم عندما تكون كل النقاط في كل عنقود لها قيمة بيانات الحقيقة المعتمدة. وبالمثل، يحتوي كل عنقود على نقاط البيانات وحيدة التصنيف.--- SECTION: تكون قيمة مؤشر راند المعدل (Adjusted Rand Score) --- تكون قيمة مؤشر راند المعدل (Adjusted Rand Score) بين 0.5- و 1.0 ويمكن زيادة هذه القيم عندما تقع كل نقاط البيانات ذات القيم نفسها في العنقود نفسه وكل نقاط البيانات ذات القيم المختلفة في عناقيد مختلفة.--- SECTION: تكون قيمة مؤشر الاكتمال (Completeness Score) --- تكون قيمة مؤشر الاكتمال (Completeness Score) بين 0 و 1 ويمكن زيادة هذه القيمة بتعيين كل نقاط البيانات من تصنيف محدد في العنقود نفسه.--- SECTION: Python Code Example 1 --- from sklearn.metrics import homogeneity_score,adjusted_rand_score,completeness_score print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_tfidf)) print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_tfidf)) print('\nCompleteness score:',completeness_score(bbc_labels,pred_tfidf))--- SECTION: Output Scores 1 --- Homogeneity score: 0.6224333236569846 Adjusted Rand score: 0.4630492696176891 Completeness score: 0.5430590192420555المؤشر أقرب إلى 1 وهذا يعني أن مجموعة النصوص في العنقود تنتمي إلى قيمة واحدة.المؤشر أقرب إلى 1 وهذا يعني إنشاء روابط أفضل بين العناقيد والقيم؛ كل على حده.لاستكمال تحليل البيانات، يُعاد تجميع البيانات باستخدام 5 عناقيد، بالتساوي مع العدد الحقيقي لقيم (بيانات الحقيقة المعتمدة):--- SECTION: Python Code Example 2 --- AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=5) AC_tfidf.fit(text_tfidf.toarray()) pred_tfidf=AC_tfidf.labels_print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_tfidf)) print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_tfidf)) print('\nCompleteness score:',completeness_score(bbc_labels,pred_tfidf))--- SECTION: Output Scores 2 --- Homogeneity score: 0.528836079209762 Adjusted Rand score: 0.45628412883628383 Completeness score: 0.6075627851312266نظرًا لقدرة التجميع الهرمي على إيجاد العدد الحقيقي من القيم، وتوفير مؤشر اكتمال أكثر دقة، ستحصل على عملية تجميع أفضل من حيث تمثيل البيانات.على الرغم من أن النتائج المؤشر تظهر أن التجميع التكتلي باستخدام البرمجة الاتجاهية لتكرار المصطلح العكسي (TF-IDF) تحقق نتائج معقولة، إلا أنه لا يزال بالإمكان تحسين دقة عملية التجميع. سيوضح القسم التالي كيف يمكن أن نحقق نتائج مبهرة باستخدام تقنيات البرمجة الاتجاهية المستندة على الشبكات العصبية.2025 - 1447

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ماذا يقيس مؤشر التجانس (Homogeneity Score) في تقييم جودة تجميع البيانات؟

الإجابة: يقيس مؤشر التجانس (Homogeneity Score) مدى تطابق العناقيد مع البيانات الحقيقية. تزداد قيمة المؤشر عندما تكون جميع النقاط في كل عنقود تنتمي إلى قيمة بيانات حقيقة معتمدة واحدة، وأن كل عنقود يحتوي على نقاط بيانات وحيدة التصنيف.

الشرح: المؤشر يقيس مدى تجانس العناقيد من حيث انتماء النقاط فيها لتصنيف واحد محدد من بيانات الحقيقة المعتمدة.

تلميح: فكر في مبدأ "التجانس" بالنسبة للعناقيد وتصنيفاتها.

ما هو النطاق الذي تتراوح فيه قيمة مؤشر راند المعدل (Adjusted Rand Score)؟

الإجابة: تتراوح قيمة مؤشر راند المعدل (Adjusted Rand Score) بين 0.5- و 1.0. وتزداد قيمته عندما تقع جميع نقاط البيانات ذات القيم نفسها في العنقود نفسه، وكل نقاط البيانات ذات القيم المختلفة في عناقيد مختلفة.

الشرح: المؤشر يقارن بين زوجي النقاط ويقيس مدى توافقهما في التصنيف المشترك أو الاختلاف المشترك بين التجميع والبيانات الحقيقية.

تلميح: تذكر أن هذا المؤشر يقيس التشابه بين التجميع والبيانات الحقيقية، لذا فكر في القيم القصوى التي تدل على تطابق تام.

ما الذي تشير إليه قيمة مؤشر الاكتمال (Completeness Score) عندما تكون قريبة من 1؟

الإجابة: عندما تكون قيمة مؤشر الاكتمال (Completeness Score) قريبة من 1، فهذا يشير إلى أن جميع نقاط البيانات التي تنتمي إلى تصنيف محدد قد تم تجميعها معًا في نفس العنقود. بمعنى آخر، يكمل كل عنقود تصنيفًا معينًا بشكل كامل.

الشرح: يقيس هذا المؤشر مدى تمثيل العناقيد لتصنيف واحد كامل. كلما كانت القيمة أقرب إلى 1، زاد اكتمال تمثيل كل عنقود لتصنيف معين.

تلميح: ركز على كلمة "الاكتمال". ما الذي يجب أن يكتمل في عنقود معين؟

ما هو الهدف من استخدام دوال `homogeneity_score`، `adjusted_rand_score`، و `completeness_score` من مكتبة `sklearn.metrics`؟

الإجابة: يُستخدم هذه الدوال لتقييم جودة عملية تجميع البيانات (clustering) من خلال قياس مدى تطابق العناقيد الناتجة مع البيانات الحقيقية (ground truth labels).

الشرح: هذه الدوال هي أدوات قياسية لتقييم أداء خوارزميات التجميع، حيث توفر مقاييس كمية لمدى فعالية العناقيد في فصل البيانات.

تلميح: فكر فيما يتم تطابقه أو قياس مدى تشابهه في هذه السياقات.

ماذا يعني أن مؤشر التجانس (Homogeneity Score) يقترب من 1؟

الإجابة: يعني أن مجموعة النصوص في العنقود الواحد تنتمي إلى قيمة واحدة محددة من بيانات الحقيقة المعتمدة، مما يدل على تجانس العنقود.

الشرح: قيمة مرتفعة لمؤشر التجانس تشير إلى أن كل عنقود يمثل تصنيفًا واحدًا.

تلميح: إذا كان المؤشر "متجانس"، فماذا تفترض عن العناصر داخل العنقود الواحد؟