التجميع الهرمي والبرمجة الاتجاهية للنصوص - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة مفاهيم أساسية في التعلم غير الموجه، مع التركيز على تحديد عدد العناقيد المناسب في خوارزميات التجميع. يُشرح أن عدد العناقيد يؤثر على دقة النتائج وقابليتها للتفسير، حيث أن العدد الكبير جدًا يؤدي إلى مجموعات محددة بلا معنى، بينما العدد المنخفض جدًا ينتج مجموعات واسعة لا تستنبط التركيب الأساسي للبيانات. يتم تقديم التجميع الهرمي كخوارزمية تستخدم لتجميع البيانات في عناقيد بناءً على التشابه، مع تنظيم نقاط البيانات في تركيب يشبه الشجرة حيث تمثل العقد العناقيد. تتضمن الصفحة أمثلة برمجية لاستيراد مكتبات مثل TfidfVectorizer و AgglomerativeClustering من scikit-learn، واستخدام scipy.cluster.hierarchy و matplotlib للتصور. كما تُغطى البرمجة الاتجاهية للنصوص لتحويل النص إلى تنسيق رقمي باستخدام TfidfVectorizer، مع تطبيق عملي على بيانات bbc_docs لإنشاء مصفوفة متباعدة. تُختتم الصفحة بسياق بصري يشير إلى ناشر أو مصدر المادة التعليمية، مع قيم رئيسية مثل 157 و 2025 و 1447.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

في التعلم غير الموجه، يشير عدد العناقيد إلى عدد المجموعات أو التصنيفات التي تنقسم إليها البيانات بواسطة الخوارزمية. ويُعد تحديد عدد العناقيد الصحيح أمرًا مهمًا؛ لأنه يؤثر على دقة النتائج وقابليتها للتفسير. إذا كان عدد العناقيد كبيرًا للغاية، فإن المجموعات ستكون محددة جدًا ودون معنى. في حين أنه إذا كان عدد العناقيد منخفضًا للغاية، فإن المجموعات ستكون ممتدة على نطاق واسع جدًا، ولن تستنبط التركيب الأساسي للبيانات. من الضروري تحقيق التوازن بين توفير عدد كافٍ من العناقيد لاستنباط أنماط ذات معنى، وألا تكون كثيرة في الوقت نفسه بالقدر الذي يجعل النتائج معقدة للغاية وغير مفهومة.

التجميع الهرمي (Hierarchical Clustering)

نوع: محتوى تعليمي

التجميع الهرمي (Hierarchical Clustering)

نوع: محتوى تعليمي

التجميع الهرمي هو خوارزمية التجميع المستخدمة لتجميع البيانات في عناقيد بناءً على التشابه. في التجميع الهرمي، تُنظم نقاط البيانات في تركيب يشبه الشجرة، حيث تكون كل عقدة بمثابة عنقود، وتكون العقدة الأم هي نقطة التقاء العقد المتفرعة منها.

نوع: محتوى تعليمي

يُستخدم المقطع البرمجي التالي لاستيراد مكتبات محددة تُستخدم في التجميع الهرمي من بدايته حتى نهايته:

نوع: محتوى تعليمي

# used for tf-idf vectorization, as seen in the previous unit
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import AgglomerativeClustering # used for agglomerative clustering

# used to visualize and support hierarchical clustering tasks
import scipy.cluster.hierarchy as hierarchy

# set the color palette to be used by the 'hierarchy' tool.
hierarchy.set_link_color_palette(
    ['blue', 'green', 'red', 'yellow', 'brown', 'purple', 'orange', 'pink', 'black'])

import matplotlib.pyplot as plt # used for general visualizations

البرمجة الاتجاهية للنصوص Text Vectorization

نوع: محتوى تعليمي

البرمجة الاتجاهية للنصوص Text Vectorization

نوع: محتوى تعليمي

تتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بالمتجهات في تنسيق رقمي، كما تم عرضه في الوحدة السابقة. ويستخدم المقطع البرمجي التالي أداة TfidfVectorizer التي استخدمت في الدرس السابق لهذا الغرض:

نوع: محتوى تعليمي

vectorizer = TfidfVectorizer(min_df=10) # apply tf-idf vectorization, ignore words that
                                  # appear in more than 10 docs.

text_tfidf=vectorizer.fit_transform(bbc_docs) # fit and transform in one line

text_tfidf

نوع: محتوى تعليمي

<2225x5867 sparse matrix of type '<class 'numpy.float64'>'
    with 392379 stored elements in Compressed Sparse Row format>

نوع: محتوى تعليمي

الآن تحولت بيانات النص إلى تنسيق رقمي متباعد كما استخدمت في الدرس السابق.

نوع: METADATA

وزارة التعليم
Ministry of Education
2025 - 1447

🔍 عناصر مرئية

شعار وزارة التعليم

شعار وزارة التعليم السعودية، يتضمن النص 'وزارة التعليم' باللغتين العربية والإنجليزية، والرقم '157'، والسنوات '2025 - 1447'.

📄 النص الكامل للصفحة

في التعلم غير الموجه، يشير عدد العناقيد إلى عدد المجموعات أو التصنيفات التي تنقسم إليها البيانات بواسطة الخوارزمية. ويُعد تحديد عدد العناقيد الصحيح أمرًا مهمًا؛ لأنه يؤثر على دقة النتائج وقابليتها للتفسير. إذا كان عدد العناقيد كبيرًا للغاية، فإن المجموعات ستكون محددة جدًا ودون معنى. في حين أنه إذا كان عدد العناقيد منخفضًا للغاية، فإن المجموعات ستكون ممتدة على نطاق واسع جدًا، ولن تستنبط التركيب الأساسي للبيانات. من الضروري تحقيق التوازن بين توفير عدد كافٍ من العناقيد لاستنباط أنماط ذات معنى، وألا تكون كثيرة في الوقت نفسه بالقدر الذي يجعل النتائج معقدة للغاية وغير مفهومة.--- SECTION: التجميع الهرمي (Hierarchical Clustering) --- التجميع الهرمي (Hierarchical Clustering)التجميع الهرمي هو خوارزمية التجميع المستخدمة لتجميع البيانات في عناقيد بناءً على التشابه. في التجميع الهرمي، تُنظم نقاط البيانات في تركيب يشبه الشجرة، حيث تكون كل عقدة بمثابة عنقود، وتكون العقدة الأم هي نقطة التقاء العقد المتفرعة منها.يُستخدم المقطع البرمجي التالي لاستيراد مكتبات محددة تُستخدم في التجميع الهرمي من بدايته حتى نهايته:# used for tf-idf vectorization, as seen in the previous unit from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import AgglomerativeClustering # used for agglomerative clustering# used to visualize and support hierarchical clustering tasks import scipy.cluster.hierarchy as hierarchy# set the color palette to be used by the 'hierarchy' tool.
hierarchy.set_link_color_palette(
['blue', 'green', 'red', 'yellow', 'brown', 'purple', 'orange', 'pink', 'black'])import matplotlib.pyplot as plt # used for general visualizations--- SECTION: البرمجة الاتجاهية للنصوص Text Vectorization --- البرمجة الاتجاهية للنصوص Text Vectorizationتتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بالمتجهات في تنسيق رقمي، كما تم عرضه في الوحدة السابقة. ويستخدم المقطع البرمجي التالي أداة TfidfVectorizer التي استخدمت في الدرس السابق لهذا الغرض:vectorizer = TfidfVectorizer(min_df=10) # apply tf-idf vectorization, ignore words that
# appear in more than 10 docs.text_tfidf=vectorizer.fit_transform(bbc_docs) # fit and transform in one line text_tfidf<2225x5867 sparse matrix of type '<class 'numpy.float64'>'
with 392379 stored elements in Compressed Sparse Row format>الآن تحولت بيانات النص إلى تنسيق رقمي متباعد كما استخدمت في الدرس السابق.2025 - 1447--- VISUAL CONTEXT ---Key Values: 157, 2025, 1447
Context: Indicates the publisher or source of the educational material.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 4 بطاقة لهذه الصفحة

ما هو التجميع الهرمي (Hierarchical Clustering)؟

الإجابة: التجميع الهرمي هو خوارزمية تجميع تُستخدم لتقسيم البيانات إلى عناقيد بناءً على التشابه، حيث تُنظم نقاط البيانات في هيكل شجري، وتُمثل كل عقدة عنقودًا، والعقدة الأم تمثل نقطة التقاء العقد المتفرعة منها.

الشرح: تعتمد هذه الخوارزمية على بناء شجرة عناقيد، مما يوضح العلاقات الهرمية بين البيانات.

تلميح: فكر في كيفية تنظيم البيانات في هيكل يشبه الشجرة في هذه الخوارزمية.

ما هي أهمية تحديد عدد العناقيد الصحيح في التعلم غير الموجه؟

الإجابة: يؤثر تحديد عدد العناقيد الصحيح بشكل مباشر على دقة النتائج وقابليتها للتفسير. فإذا كان العدد كبيرًا جدًا، تصبح المجموعات محددة بشكل مفرط وغير ذات معنى. وإذا كان العدد منخفضًا جدًا، تصبح المجموعات ممتدة بشكل واسع، مما يفشل في استخلاص التركيب الأساسي للبيانات.

الشرح: الهدف هو إيجاد توازن يسمح باستخلاص أنماط ذات معنى دون جعل النتائج معقدة للغاية.

تلميح: ما هي التأثيرات السلبية لوجود مجموعات صغيرة جدًا أو كبيرة جدًا؟

لماذا تعتبر البرمجة الاتجاهية للنصوص (Text Vectorization) ضرورية في بعض خوارزميات التعلم غير الموجه؟

الإجابة: تتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بتنسيق رقمي (متجهات) لكي تتمكن الخوارزميات من معالجته وتحليله، وهذا ما توفره البرمجة الاتجاهية للنصوص.

الشرح: الآلات لا تفهم النصوص مباشرة، بل تحتاج إلى تحويلها إلى أرقام (متجهات) يمكن معالجتها رياضياً.

تلميح: كيف تتعامل الآلات مع البيانات النصية؟ وما هي الصيغة التي تفهمها؟

اذكر مكتبتين رئيسيتين تم استيرادهما في المقطع البرمجي الخاص بالتجميع الهرمي، وما الغرض منهما؟

الإجابة: تم استيراد `TfidfVectorizer` من `sklearn.feature_extraction.text` لمعالجة النصوص وتحويلها إلى متجهات (كما في الوحدة السابقة)، و`AgglomerativeClustering` من `sklearn.cluster` لتطبيق خوارزمية التجميع الهرمي.

الشرح: تُستخدم `TfidfVectorizer` لإعداد البيانات النصية، بينما `AgglomerativeClustering` هي الأداة الأساسية لتنفيذ التجميع الهرمي.

تلميح: فكر في المكتبات التي تساعد في تحويل النص إلى أرقام، وتلك التي تنفذ خوارزميات التجميع.