📋 المحتوى المنظم
📖 محتوى تعليمي مفصّل
مسافة وارد Ward Distance
نوع: محتوى تعليمي
مسافة وارد Ward Distance
نوع: محتوى تعليمي
يستخدم مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود. في كل تكرار، تقيم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين. أظهرت مسافة وارد (Ward) نتائج جيدة في معالجة البيانات النصية، بالرغم من وجود العديد من الخيارات الأخرى.
الرسم الشجري (Dendrogram)
نوع: محتوى تعليمي
الرسم الشجري (Dendrogram)
الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي.
الرسم الشجري في الشكل 3.20 يعرض طريقة واضحة لتحديد عدد العناقيد. في هذا المثال، تقترح المكتبة استخدام 7 عناقيد، مع تمييز كل عنقود بلون مختلف. قد يتبنى المستخدم هذا المقترح أو يستخدم الرسم الشجري لاختيار رقم مختلف. على سبيل المثال، دمج اللونين الأزرق والأخضر في آخر خطوة مع مجموعة العناقيد لكل الألوان الأخرى. وهكذا، سيؤدي اختيار 6 عناقيد إلى دمج اللونين الأرجواني والبرتقالي، بينما اختيار 5 عناقيد سيؤدي إلى دمج اللونين الأزرق والأخضر.
نوع: محتوى تعليمي
يتبنى المقطع البرمجي التالي مقترحات الأداة ويستخدم أداة التجميع التكتلي من مكتبة سكليرن (Sklearn) لتقسيم المخطط الشجري بعد إنشاء العناقيد السبع:
AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=7) # prepare the tool,
set the number of clusters.
AC_tfidf.fit(text_tfidf.toarray()) # apply the tool to the vectorized BBC data.
pred_tfidf=AC_tfidf.labels_ # get the cluster labels.
pred_tfidf
نوع: محتوى تعليمي
array([6, 2, 4, ..., 6, 3, 5], dtype=int64)
نوع: محتوى تعليمي
لاحظ أن قيمة بيانات الحقيقة المعتمدة (ground-truth) في كل مستند من القسم الإخباري (NewsSection) لم تُستخدم على الإطلاق في هذه العملية. وبدلاً من ذلك، عولجت عملية التجميع استنادًا إلى نص محتوى كل وثيقة. على حده. إن قيم بيانات الحقيقة المعتمدة مفيدة في التطبيق العملي، فهي تتيح التحقق من صحة نتائج التجميع. وقيم بيانات الحقيقة المعتمدة الحالية موجودة في قائمة bbc_labels (قيم هيئة الإذاعة البريطانية).
نوع: METADATA
وزارة التعليم
161
Ministry of Education
2023 - 1447
🔍 عناصر مرئية
شكل 3.21: مثال على طريقة وارد (Ward)
The diagram visually represents Ward's method of hierarchical clustering. It shows two initial clusters, each composed of four hollow circular points (○) symmetrically arranged around a central magenta plus sign (+). Dashed magenta lines connect each of the four points to its respective magenta centroid. These two initial clusters are then shown to merge towards a larger, central blue plus sign (+), which represents the new centroid of the combined cluster. Dashed blue arrows point from each of the initial magenta centroids towards the central blue centroid, indicating the merging process. The areas around the initial clusters are lightly shaded, suggesting their boundaries.
📄 النص الكامل للصفحة
مسافة وارد Ward Distance
يستخدم مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود. في كل تكرار، تقيم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين. أظهرت مسافة وارد (Ward) نتائج جيدة في معالجة البيانات النصية، بالرغم من وجود العديد من الخيارات الأخرى.
--- SECTION: الرسم الشجري (Dendrogram) ---
الرسم الشجري (Dendrogram)
الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي.
الرسم الشجري في الشكل 3.20 يعرض طريقة واضحة لتحديد عدد العناقيد. في هذا المثال، تقترح المكتبة استخدام 7 عناقيد، مع تمييز كل عنقود بلون مختلف. قد يتبنى المستخدم هذا المقترح أو يستخدم الرسم الشجري لاختيار رقم مختلف. على سبيل المثال، دمج اللونين الأزرق والأخضر في آخر خطوة مع مجموعة العناقيد لكل الألوان الأخرى. وهكذا، سيؤدي اختيار 6 عناقيد إلى دمج اللونين الأرجواني والبرتقالي، بينما اختيار 5 عناقيد سيؤدي إلى دمج اللونين الأزرق والأخضر.
يتبنى المقطع البرمجي التالي مقترحات الأداة ويستخدم أداة التجميع التكتلي من مكتبة سكليرن (Sklearn) لتقسيم المخطط الشجري بعد إنشاء العناقيد السبع:
AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=7) # prepare the tool,
set the number of clusters.
AC_tfidf.fit(text_tfidf.toarray()) # apply the tool to the vectorized BBC data.
pred_tfidf=AC_tfidf.labels_ # get the cluster labels.
pred_tfidf
array([6, 2, 4, ..., 6, 3, 5], dtype=int64)
لاحظ أن قيمة بيانات الحقيقة المعتمدة (ground-truth) في كل مستند من القسم الإخباري (NewsSection) لم تُستخدم على الإطلاق في هذه العملية. وبدلاً من ذلك، عولجت عملية التجميع استنادًا إلى نص محتوى كل وثيقة. على حده. إن قيم بيانات الحقيقة المعتمدة مفيدة في التطبيق العملي، فهي تتيح التحقق من صحة نتائج التجميع. وقيم بيانات الحقيقة المعتمدة الحالية موجودة في قائمة bbc_labels (قيم هيئة الإذاعة البريطانية).
وزارة التعليم
161
Ministry of Education
2023 - 1447
--- VISUAL CONTEXT ---
**DIAGRAM**: شكل 3.21: مثال على طريقة وارد (Ward)
Description: The diagram visually represents Ward's method of hierarchical clustering. It shows two initial clusters, each composed of four hollow circular points (○) symmetrically arranged around a central magenta plus sign (+). Dashed magenta lines connect each of the four points to its respective magenta centroid. These two initial clusters are then shown to merge towards a larger, central blue plus sign (+), which represents the new centroid of the combined cluster. Dashed blue arrows point from each of the initial magenta centroids towards the central blue centroid, indicating the merging process. The areas around the initial clusters are lightly shaded, suggesting their boundaries.
X-axis: N/A
Y-axis: N/A
Data: The diagram illustrates the process of merging clusters in Ward's method. Each initial cluster has a centroid (magenta '+') and associated data points (hollow circles). The merging process is directed towards a new, combined centroid (blue '+').
Context: This diagram visually explains the concept of Ward's method in hierarchical clustering, where clusters are merged by minimizing the increase in variance (or sum of squared distances) within the clusters. The magenta plus signs represent the centroids of individual clusters, and the blue plus sign represents the centroid of the merged cluster.
🎴 بطاقات تعليمية للمراجعة
عدد البطاقات: 5 بطاقة لهذه الصفحة
ما هو المفهوم الأساسي الذي تستند إليه مسافة وارد (Ward) في قياس المسافة بين العناقيد؟
الإجابة: تستند مسافة وارد (Ward) إلى مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود.
الشرح: مسافة وارد تهدف إلى تقليل زيادة التباين الكلي داخل العنقود عند دمج مجموعتين. كلما قل الارتفاع في التباين، كان الدمج أفضل.
تلميح: فكر في مقياس الاختلاف أو التشتت داخل كل مجموعة من البيانات.
كيف تقيّم طريقة وارد (Ward) عمليات الدمج الممكنة بين العناقيد؟
الإجابة: في كل تكرار، تقيّم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين.
الشرح: تهدف طريقة وارد إلى العثور على الدمج الذي يقلل من التأثير السلبي على تجانس العناقيد (أي يقلل من زيادة التباين).
تلميح: ما هو المعيار الذي تستخدمه الطريقة لتحديد أي مجموعتين سيتم دمجهما؟
ما هو الرسم الشجري (Dendrogram) وما فائدته في التجميع الهرمي؟
الإجابة: الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي. يساعد في تحديد عدد العناقيد المناسب.
الشرح: يسمح الرسم الشجري للمستخدم برؤية كيف تتجمع البيانات في مستويات مختلفة، مما يسهل اتخاذ قرار بشأن العدد الأمثل للعناقيد بناءً على نقاط الانفصال الواضحة.
تلميح: فكر في كيفية تمثيل العلاقات المتداخلة والمعتمدة على المستويات.
ما هو الغرض من استخدام قيم بيانات الحقيقة المعتمدة (ground-truth) في عملية التجميع؟
الإجابة: تُستخدم قيم بيانات الحقيقة المعتمدة للتحقق من صحة نتائج عملية التجميع، حيث أنها تمثل التصنيفات الصحيحة للمستندات.
الشرح: في سياق البيانات النصية، إذا كانت لدينا معلومات مسبقة عن الأقسام أو الفئات الصحيحة التي تنتمي إليها المستندات (مثل (NewsSection) أو (bbc_labels))، يمكن مقارنة العناقيد التي تم إنشاؤها بواسطة الخوارزمية بهذه التصنيفات الفعلية لتقييم أداء الخوارزمية.
تلميح: عندما تجري اختباراً، ماذا تستخدم لتقييم مدى دقة نتائجك؟
اشرح دور `AgglomerativeClustering(linkage='ward', n_clusters=7)` في المقطع البرمجي المقدم.
الإجابة: يقوم هذا السطر بإعداد أداة التجميع التكتلي (Agglomerative Clustering) باستخدام طريقة وارد (`linkage='ward'`) لتحديد 7 عناقيد (`n_clusters=7`)، وتطبيقها على البيانات النصية المعالجة (`text_tfidf.toarray()`).
الشرح: هذه الدالة هي التي تقوم فعلياً بعملية التجميع الهرمي. تحديد `linkage='ward'` يعني استخدام طريقة وارد، و `n_clusters=7` يحدد أننا نريد تقسيم البيانات إلى 7 مجموعات نهائية.
تلميح: ما هي الوظيفة الرئيسية لهذه العبارة في لغة البرمجة؟ وما هما المعاملان الأساسيان اللذان يحددان سلوكها؟