📋 المحتوى المنظم
📖 محتوى تعليمي مفصّل
نوع: محتوى تعليمي
في التعلم غير الموجه، يشير عدد العناقيد إلى عدد المجموعات أو التصنيفات التي تنقسم إليها البيانات بواسطة الخوارزمية. ويُعد تحديد عدد العناقيد الصحيح أمرًا مهمًا؛ لأنه يؤثر على دقة النتائج وقابليتها للتفسير. إذا كان عدد العناقيد كبيرًا للغاية، فإن المجموعات ستكون محددة جدًا ودون معنى. في حين أنه إذا كان عدد العناقيد منخفضًا للغاية، فإن المجموعات ستكون ممتدة على نطاق واسع جدًا، ولن تستنبط التركيب الأساسي للبيانات. من الضروري تحقيق التوازن بين توفير عدد كافٍ من العناقيد لاستنباط أنماط ذات معنى، وألا تكون كثيرة في الوقت نفسه بالقدر الذي يجعل النتائج معقدة للغاية وغير مفهومة.
التجميع الهرمي (Hierarchical Clustering)
نوع: محتوى تعليمي
التجميع الهرمي (Hierarchical Clustering)
نوع: محتوى تعليمي
التجميع الهرمي هو خوارزمية التجميع المستخدمة لتجميع البيانات في عناقيد بناءً على التشابه. في التجميع الهرمي، تُنظم نقاط البيانات في تركيب يشبه الشجرة، حيث تكون كل عقدة بمثابة عنقود، وتكون العقدة الأم هي نقطة التقاء العقد المتفرعة منها.
نوع: محتوى تعليمي
يُستخدم المقطع البرمجي التالي لاستيراد مكتبات محددة تُستخدم في التجميع الهرمي من بدايته حتى نهايته:
نوع: محتوى تعليمي
# used for tf-idf vectorization, as seen in the previous unit
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import AgglomerativeClustering # used for agglomerative clustering
# used to visualize and support hierarchical clustering tasks
import scipy.cluster.hierarchy as hierarchy
# set the color palette to be used by the 'hierarchy' tool.
hierarchy.set_link_color_palette(
['blue', 'green', 'red', 'yellow', 'brown', 'purple', 'orange', 'pink', 'black'])
import matplotlib.pyplot as plt # used for general visualizations
البرمجة الاتجاهية للنصوص Text Vectorization
نوع: محتوى تعليمي
البرمجة الاتجاهية للنصوص Text Vectorization
نوع: محتوى تعليمي
تتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بالمتجهات في تنسيق رقمي، كما تم عرضه في الوحدة السابقة. ويستخدم المقطع البرمجي التالي أداة TfidfVectorizer التي استخدمت في الدرس السابق لهذا الغرض:
نوع: محتوى تعليمي
vectorizer = TfidfVectorizer(min_df=10) # apply tf-idf vectorization, ignore words that
# appear in more than 10 docs.
text_tfidf=vectorizer.fit_transform(bbc_docs) # fit and transform in one line
text_tfidf
نوع: محتوى تعليمي
<2225x5867 sparse matrix of type '<class 'numpy.float64'>'
with 392379 stored elements in Compressed Sparse Row format>
نوع: محتوى تعليمي
الآن تحولت بيانات النص إلى تنسيق رقمي متباعد كما استخدمت في الدرس السابق.
نوع: METADATA
وزارة التعليم
Ministry of Education
2025 - 1447
🔍 عناصر مرئية
شعار وزارة التعليم
شعار وزارة التعليم السعودية، يتضمن النص 'وزارة التعليم' باللغتين العربية والإنجليزية، والرقم '157'، والسنوات '2025 - 1447'.
📄 النص الكامل للصفحة
في التعلم غير الموجه، يشير عدد العناقيد إلى عدد المجموعات أو التصنيفات التي تنقسم إليها البيانات بواسطة الخوارزمية. ويُعد تحديد عدد العناقيد الصحيح أمرًا مهمًا؛ لأنه يؤثر على دقة النتائج وقابليتها للتفسير. إذا كان عدد العناقيد كبيرًا للغاية، فإن المجموعات ستكون محددة جدًا ودون معنى. في حين أنه إذا كان عدد العناقيد منخفضًا للغاية، فإن المجموعات ستكون ممتدة على نطاق واسع جدًا، ولن تستنبط التركيب الأساسي للبيانات. من الضروري تحقيق التوازن بين توفير عدد كافٍ من العناقيد لاستنباط أنماط ذات معنى، وألا تكون كثيرة في الوقت نفسه بالقدر الذي يجعل النتائج معقدة للغاية وغير مفهومة.--- SECTION: التجميع الهرمي (Hierarchical Clustering) --- التجميع الهرمي (Hierarchical Clustering)التجميع الهرمي هو خوارزمية التجميع المستخدمة لتجميع البيانات في عناقيد بناءً على التشابه. في التجميع الهرمي، تُنظم نقاط البيانات في تركيب يشبه الشجرة، حيث تكون كل عقدة بمثابة عنقود، وتكون العقدة الأم هي نقطة التقاء العقد المتفرعة منها.يُستخدم المقطع البرمجي التالي لاستيراد مكتبات محددة تُستخدم في التجميع الهرمي من بدايته حتى نهايته:# used for tf-idf vectorization, as seen in the previous unit from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import AgglomerativeClustering # used for agglomerative clustering# used to visualize and support hierarchical clustering tasks import scipy.cluster.hierarchy as hierarchy# set the color palette to be used by the 'hierarchy' tool.
hierarchy.set_link_color_palette(
['blue', 'green', 'red', 'yellow', 'brown', 'purple', 'orange', 'pink', 'black'])import matplotlib.pyplot as plt # used for general visualizations--- SECTION: البرمجة الاتجاهية للنصوص Text Vectorization --- البرمجة الاتجاهية للنصوص Text Vectorizationتتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بالمتجهات في تنسيق رقمي، كما تم عرضه في الوحدة السابقة. ويستخدم المقطع البرمجي التالي أداة TfidfVectorizer التي استخدمت في الدرس السابق لهذا الغرض:vectorizer = TfidfVectorizer(min_df=10) # apply tf-idf vectorization, ignore words that
# appear in more than 10 docs.text_tfidf=vectorizer.fit_transform(bbc_docs) # fit and transform in one line text_tfidf<2225x5867 sparse matrix of type '<class 'numpy.float64'>'
with 392379 stored elements in Compressed Sparse Row format>الآن تحولت بيانات النص إلى تنسيق رقمي متباعد كما استخدمت في الدرس السابق.2025 - 1447--- VISUAL CONTEXT ---Key Values: 157, 2025, 1447
Context: Indicates the publisher or source of the educational material.
🎴 بطاقات تعليمية للمراجعة
عدد البطاقات: 4 بطاقة لهذه الصفحة
ما هو التجميع الهرمي (Hierarchical Clustering)؟
الإجابة: التجميع الهرمي هو خوارزمية تجميع تُستخدم لتقسيم البيانات إلى عناقيد بناءً على التشابه، حيث تُنظم نقاط البيانات في هيكل شجري، وتُمثل كل عقدة عنقودًا، والعقدة الأم تمثل نقطة التقاء العقد المتفرعة منها.
الشرح: تعتمد هذه الخوارزمية على بناء شجرة عناقيد، مما يوضح العلاقات الهرمية بين البيانات.
تلميح: فكر في كيفية تنظيم البيانات في هيكل يشبه الشجرة في هذه الخوارزمية.
ما هي أهمية تحديد عدد العناقيد الصحيح في التعلم غير الموجه؟
الإجابة: يؤثر تحديد عدد العناقيد الصحيح بشكل مباشر على دقة النتائج وقابليتها للتفسير. فإذا كان العدد كبيرًا جدًا، تصبح المجموعات محددة بشكل مفرط وغير ذات معنى. وإذا كان العدد منخفضًا جدًا، تصبح المجموعات ممتدة بشكل واسع، مما يفشل في استخلاص التركيب الأساسي للبيانات.
الشرح: الهدف هو إيجاد توازن يسمح باستخلاص أنماط ذات معنى دون جعل النتائج معقدة للغاية.
تلميح: ما هي التأثيرات السلبية لوجود مجموعات صغيرة جدًا أو كبيرة جدًا؟
لماذا تعتبر البرمجة الاتجاهية للنصوص (Text Vectorization) ضرورية في بعض خوارزميات التعلم غير الموجه؟
الإجابة: تتطلب العديد من طرائق التعلم غير الموجه تمثيل النص الأولي بتنسيق رقمي (متجهات) لكي تتمكن الخوارزميات من معالجته وتحليله، وهذا ما توفره البرمجة الاتجاهية للنصوص.
الشرح: الآلات لا تفهم النصوص مباشرة، بل تحتاج إلى تحويلها إلى أرقام (متجهات) يمكن معالجتها رياضياً.
تلميح: كيف تتعامل الآلات مع البيانات النصية؟ وما هي الصيغة التي تفهمها؟
اذكر مكتبتين رئيسيتين تم استيرادهما في المقطع البرمجي الخاص بالتجميع الهرمي، وما الغرض منهما؟
الإجابة: تم استيراد `TfidfVectorizer` من `sklearn.feature_extraction.text` لمعالجة النصوص وتحويلها إلى متجهات (كما في الوحدة السابقة)، و`AgglomerativeClustering` من `sklearn.cluster` لتطبيق خوارزمية التجميع الهرمي.
الشرح: تُستخدم `TfidfVectorizer` لإعداد البيانات النصية، بينما `AgglomerativeClustering` هي الأداة الأساسية لتنفيذ التجميع الهرمي.
تلميح: فكر في المكتبات التي تساعد في تحويل النص إلى أرقام، وتلك التي تنفذ خوارزميات التجميع.