تطبيق التجميع الهرمي وتقييم النتائج باستخدام مقاييس التقييم - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: example

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تقدم هذه الصفحة تحليلاً تطبيقياً للتجميع الهرمي باستخدام خوارزمية AgglomerativeClustering في معالجة البيانات النصية. يتم توضيح كيفية استخدام أداة الرسم الشجري لتحديد 4 عناقيد مميزة بألوان مختلفة، مع تقديم مقطع برمجي لحساب العناقيد وتقييمها باستخدام مقاييس Homogeneity score وAdjusted Rand score وCompleteness score.

يتم مقارنة النتائج عند استخدام 4 عناقيد مقابل 5 عناقيد، حيث يظهر أن زيادة عدد العناقيد إلى 5 يؤدي إلى تحسن في جميع المقاييس الثلاثة، مما يدل على تأثير عدد العناقيد على دقة التجميع. على سبيل المثال، يرتفع Homogeneity score من 0.674 إلى 0.787 عند الانتقال من 4 إلى 5 عناقيد.

تسلط الصفحة الضوء على تفوق تمثيلات SBERT (تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات) مقارنة بـ TF-IDF (تكرار المصطلح - تكرار المستند العكسي) في إنتاج نتائج تجميع محسنة، مع الإشارة إلى أن الشبكات العصبية تسمح بفهم الأنماط الدلالية المعقدة في البيانات النصية، مما يعزز إمكاناتها في تحليل النصوص.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

كما هو موضح في الشكل 3.24، فإن أداة الرسم الشجري تشير إلى 4 عناقيد، كل واحد منها مميز بلون مختلف. يستخدم المقطع البرمجي التالي هذا المقترح لحساب العناقيد وحساب مقاييس التقييم:

نوع: محتوى تعليمي

AC_emb=AgglomerativeClustering(linkage='ward',n_clusters=4)
AC_emb.fit(text_emb)
pred_emb=AC_emb.labels_

print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_emb))
print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_emb))
print('\nCompleteness score:',completeness_score(bbc_labels,pred_emb))

نوع: محتوى تعليمي

Homogeneity score: 0.6741395570357063
Adjusted Rand score: 0.6919474005627763
Completeness score: 0.796551490795805

نوع: محتوى تعليمي

إذا كانت البيانات قد تم إعادة تجميعها باستخدام العدد الصحيح من 5 عناقيد، فالعنقود الأصفر المحدد بالشكل أعلاه سينقسم إلى اثنين، وستكون النتائج على النحو التالي:

نوع: محتوى تعليمي

AC_emb=AgglomerativeClustering(linkage='ward',n_clusters=5)
AC_emb.fit(text_emb)
pred_emb=AC_emb.labels_

print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_emb))
print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_emb))
print('\nCompleteness score:',completeness_score(bbc_labels,pred_emb))

نوع: محتوى تعليمي

Homogeneity score: 0.7865655030556284
Adjusted Rand score: 0.8197670431956282
Completeness score: 0.7887580797775077

نوع: محتوى تعليمي

تُظهر النتائج أن استخدام تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) في البرمجة الاتجاهية للنصوص ينتج عنه نتائج تجميع محسّنة بالمقارنة مع تكرار المصطلح - تكرار المستند العكسي (TF-IDF). إذا كان عدد العناقيد هو 5 لتكرار المصطلح - تكرار المستند العكسي (TF-IDF) (القيمة الصحيحة) و 4 عناقيد لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)، فإن المقاييس الثلاثة لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) لا تزال هي الأعلى بفارق كبير. ثم تزداد الفجوة إذا كان العدد 5 لكل من الطريقتين. وهذا يُعد دليلاً على إمكانات الشبكات العصبية، التي تسمح لها بنيتها المتطورة بفهم الأنماط الدلالية المعقدة في البيانات النصية.

🔍 عناصر مرئية

شعار وزارة التعليم

شعار وزارة التعليم السعودية، يتضمن النص 'وزارة التعليم' باللغتين العربية والإنجليزية، والرقم '169' وسنوات '2025 - 1447'.

📄 النص الكامل للصفحة

كما هو موضح في الشكل 3.24، فإن أداة الرسم الشجري تشير إلى 4 عناقيد، كل واحد منها مميز بلون مختلف. يستخدم المقطع البرمجي التالي هذا المقترح لحساب العناقيد وحساب مقاييس التقييم:AC_emb=AgglomerativeClustering(linkage='ward',n_clusters=4)
AC_emb.fit(text_emb)
pred_emb=AC_emb.labels_print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_emb))
print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_emb))
print('\nCompleteness score:',completeness_score(bbc_labels,pred_emb))Homogeneity score: 0.6741395570357063
Adjusted Rand score: 0.6919474005627763
Completeness score: 0.796551490795805إذا كانت البيانات قد تم إعادة تجميعها باستخدام العدد الصحيح من 5 عناقيد، فالعنقود الأصفر المحدد بالشكل أعلاه سينقسم إلى اثنين، وستكون النتائج على النحو التالي:AC_emb=AgglomerativeClustering(linkage='ward',n_clusters=5)
AC_emb.fit(text_emb)
pred_emb=AC_emb.labels_print('\nHomogeneity score:',homogeneity_score(bbc_labels,pred_emb))
print('\nAdjusted Rand score:',adjusted_rand_score(bbc_labels,pred_emb))
print('\nCompleteness score:',completeness_score(bbc_labels,pred_emb))Homogeneity score: 0.7865655030556284
Adjusted Rand score: 0.8197670431956282
Completeness score: 0.7887580797775077تُظهر النتائج أن استخدام تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) في البرمجة الاتجاهية للنصوص ينتج عنه نتائج تجميع محسّنة بالمقارنة مع تكرار المصطلح - تكرار المستند العكسي (TF-IDF). إذا كان عدد العناقيد هو 5 لتكرار المصطلح - تكرار المستند العكسي (TF-IDF) (القيمة الصحيحة) و 4 عناقيد لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)، فإن المقاييس الثلاثة لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) لا تزال هي الأعلى بفارق كبير. ثم تزداد الفجوة إذا كان العدد 5 لكل من الطريقتين. وهذا يُعد دليلاً على إمكانات الشبكات العصبية، التي تسمح لها بنيتها المتطورة بفهم الأنماط الدلالية المعقدة في البيانات النصية.--- VISUAL CONTEXT ---Context: ختم أو علامة تجارية للمؤسسة التعليمية الناشرة للمحتوى.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 4 بطاقة لهذه الصفحة

ما هو الغرض الرئيسي من استخدام مقياس homogeneity_score في نتائج التجميع العنقودي؟

الإجابة: يقيس مقياس homogeneity_score مدى تجانس كل عنقود، أي مدى احتواء كل عنقود على عينات تنتمي لفئة واحدة فقط (بناءً على التصنيف الحقيقي).

الشرح: المقياس يقيم ما إذا كانت العينات داخل كل عنقود متجانسة من حيث التصنيف الحقيقي. قيمة قريبة من 1 تعني أن كل عنقود يحتوي على عينات من فئة واحدة فقط.

تلميح: فكر في معنى كلمة 'تجانس' وكيف تنطبق على تصنيف العينات داخل العنقود الواحد.

ما هي النتيجة التي توضحها المقارنة بين استخدام تمثيلات SBERT وتمثيلات TF-IDF في التجميع الهرمي للنصوص؟

الإجابة: تُظهر النتائج أن استخدام تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) في البرمجة الاتجاهية للنصوص ينتج عنه نتائج تجميع محسّنة بالمقارنة مع تكرار المصطلح - تكرار المستند العكسي (TF-IDF). إذا كان عدد العناقيد هو 5 لكل من الطريقتين، فإن المقاييس الثلاثة لتمثيلات SBERT لا تزال هي الأعلى بفارق كبير.

الشرح: هذه النتيجة مهمة لأنها توضح فعالية الشبكات العصبية المتقدمة (مثل SBERT) في فهم الأنماط الدلالية المعقدة مقارنة بالطرق التقليدية (مثل TF-IDF)، مما يؤدي إلى تحسين أداء خوارزميات التجميع.

تلميح: ركز على الفقرة التي تذكر مقارنة بين تقنيتين لتمثيل النصوص وتأثير ذلك على مقاييس التقييم.

التصنيف: مفهوم جوهري | المستوى: متوسط

ما هي نتائج مقارنة أداء تجميع النصوص باستخدام تمثيلات SBERT مقابل TF-IDF بناءً على مقاييس التقييم الثلاثة؟

الإجابة: تُظهر النتائج أن استخدام تمثيلات SBERT ينتج عنه نتائج تجميع محسّنة بالمقارنة مع TF-IDF. إذا كان عدد العناقيد 5 لـ TF-IDF و4 لـ SBERT، فإن المقاييس الثلاثة لـ SBERT لا تزال هي الأعلى بفارق كبير. ثم تزداد الفجوة إذا كان العدد 5 لكل من الطريقتين.

الشرح: المقارنة تعتمد على ثلاث مقاييس: درجة التجانس (Homogeneity score)، درجة راند المعدلة (Adjusted Rand score)، ودرجة الاكتمال (Completeness score). القيم الأعلى لـ SBERT في كل الحالات تدل على أداء أفضل في فهم الأنماط الدلالية المعقدة.

تلميح: ركز على الفرق في القيم الرقمية للمقاييس عند تغيير عدد العناقيد بين الطريقتين.

التصنيف: مفهوم جوهري | المستوى: متوسط

ما هي النتيجة الرئيسية التي توضحها مقاييس التقييم (Homogeneity، Adjusted Rand، Completeness) عند مقارنة أداء SBERT مقابل TF-IDF في تجميع النصوص؟

الإجابة: تُظهر النتائج أن استخدام تمثيلات SBERT في البرمجة الاتجاهية للنصوص ينتج عنه نتائج تجميع محسّنة بالمقارنة مع TF-IDF. حيث أن المقاييس الثلاثة لـ SBERT لا تزال هي الأعلى بفارق كبير حتى مع اختلاف عدد العناقيد، وتزداد الفجوة إذا كان العدد 5 لكل من الطريقتين.

الشرح: هذه النتيجة تبرز فعالية الشبكات العصبية المتطورة (مثل SBERT) في فهم الأنماط الدلالية المعقدة في البيانات النصية مقارنة بالطرق التقليدية مثل TF-IDF، وهو مفهوم أساسي في تقييم خوارزميات تعلم الآلة.

تلميح: ركز على الفقرة الأخيرة من النص التي تشرح المقارنة بين الطريقتين وما تشير إليه القيم الرقمية.

التصنيف: مفهوم جوهري | المستوى: متوسط