مسافة وارد والرسم الشجري في التجميع الهرمي - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المملكة العربية السعودية

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

الدرس: مسافة وارد Ward Distance والرسم الشجري Dendrogram

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة مفهوم مسافة وارد (Ward Distance) في التجميع الهرمي، وهي طريقة تستخدم التباين داخل العنقود لتقييم عمليات الدمج. في كل تكرار، تحسب الطريقة التباين قبل وبعد الدمج المحتمل، وتختار العملية التي تؤدي إلى أقل ارتفاع في التباين، مما يساعد في الحصول على نتائج جيدة خاصة في معالجة البيانات النصية.

يتم شرح الرسم الشجري (Dendrogram) كرسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويستخدم لتحديد عدد العناقيد المناسب. على سبيل المثال، في الشكل 3.20، يقترح استخدام 7 عناقيد، مع إمكانية تعديل العدد بناءً على تحليل الرسم، مثل دمج عناقيد معينة للحصول على 6 أو 5 عناقيد.

يتضمن النص مقطعًا برمجيًا بلغة Python يستخدم مكتبة سكليرن (Sklearn) لتطبيق التجميع التكتلي مع مسافة وارد وتحديد 7 عناقيد على بيانات نصية، مع الإشارة إلى أن عملية التجميع تعتمد على محتوى النصوص دون استخدام بيانات الحقيقة المعتمدة (ground-truth) مباشرة، رغم فائدتها في التحقق من النتائج.

يتم دعم المحتوى برسم توضيحي (شكل 3.21) يشرح طريقة وارد بصريًا، حيث يظهر دمج عنقودين مع نقاط ومراكز أولية (باللون الأرجواني) نحو مركز جديد (باللون الأزرق)، مما يساعد في فهم عملية تقليل التباين أثناء الدمج.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

مسافة وارد Ward Distance

نوع: محتوى تعليمي

مسافة وارد Ward Distance

نوع: محتوى تعليمي

يستخدم مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود. في كل تكرار، تقيم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين. أظهرت مسافة وارد (Ward) نتائج جيدة في معالجة البيانات النصية، بالرغم من وجود العديد من الخيارات الأخرى.

الرسم الشجري (Dendrogram)

نوع: محتوى تعليمي

الرسم الشجري (Dendrogram) الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي. الرسم الشجري في الشكل 3.20 يعرض طريقة واضحة لتحديد عدد العناقيد. في هذا المثال، تقترح المكتبة استخدام 7 عناقيد، مع تمييز كل عنقود بلون مختلف. قد يتبنى المستخدم هذا المقترح أو يستخدم الرسم الشجري لاختيار رقم مختلف. على سبيل المثال، دمج اللونين الأزرق والأخضر في آخر خطوة مع مجموعة العناقيد لكل الألوان الأخرى. وهكذا، سيؤدي اختيار 6 عناقيد إلى دمج اللونين الأرجواني والبرتقالي، بينما اختيار 5 عناقيد سيؤدي إلى دمج اللونين الأزرق والأخضر.

نوع: محتوى تعليمي

يتبنى المقطع البرمجي التالي مقترحات الأداة ويستخدم أداة التجميع التكتلي من مكتبة سكليرن (Sklearn) لتقسيم المخطط الشجري بعد إنشاء العناقيد السبع: AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=7) # prepare the tool, set the number of clusters. AC_tfidf.fit(text_tfidf.toarray()) # apply the tool to the vectorized BBC data. pred_tfidf=AC_tfidf.labels_ # get the cluster labels. pred_tfidf

نوع: محتوى تعليمي

array([6, 2, 4, ..., 6, 3, 5], dtype=int64)

نوع: محتوى تعليمي

لاحظ أن قيمة بيانات الحقيقة المعتمدة (ground-truth) في كل مستند من القسم الإخباري (NewsSection) لم تُستخدم على الإطلاق في هذه العملية. وبدلاً من ذلك، عولجت عملية التجميع استنادًا إلى نص محتوى كل وثيقة. على حده. إن قيم بيانات الحقيقة المعتمدة مفيدة في التطبيق العملي، فهي تتيح التحقق من صحة نتائج التجميع. وقيم بيانات الحقيقة المعتمدة الحالية موجودة في قائمة bbc_labels (قيم هيئة الإذاعة البريطانية).

نوع: METADATA

وزارة التعليم 161 Ministry of Education 2023 - 1447

🔍 عناصر مرئية

شكل 3.21: مثال على طريقة وارد (Ward)

The diagram visually represents Ward's method of hierarchical clustering. It shows two initial clusters, each composed of four hollow circular points (○) symmetrically arranged around a central magenta plus sign (+). Dashed magenta lines connect each of the four points to its respective magenta centroid. These two initial clusters are then shown to merge towards a larger, central blue plus sign (+), which represents the new centroid of the combined cluster. Dashed blue arrows point from each of the initial magenta centroids towards the central blue centroid, indicating the merging process. The areas around the initial clusters are lightly shaded, suggesting their boundaries.

📄 النص الكامل للصفحة

مسافة وارد Ward Distance يستخدم مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود. في كل تكرار، تقيم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين. أظهرت مسافة وارد (Ward) نتائج جيدة في معالجة البيانات النصية، بالرغم من وجود العديد من الخيارات الأخرى. --- SECTION: الرسم الشجري (Dendrogram) --- الرسم الشجري (Dendrogram) الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي. الرسم الشجري في الشكل 3.20 يعرض طريقة واضحة لتحديد عدد العناقيد. في هذا المثال، تقترح المكتبة استخدام 7 عناقيد، مع تمييز كل عنقود بلون مختلف. قد يتبنى المستخدم هذا المقترح أو يستخدم الرسم الشجري لاختيار رقم مختلف. على سبيل المثال، دمج اللونين الأزرق والأخضر في آخر خطوة مع مجموعة العناقيد لكل الألوان الأخرى. وهكذا، سيؤدي اختيار 6 عناقيد إلى دمج اللونين الأرجواني والبرتقالي، بينما اختيار 5 عناقيد سيؤدي إلى دمج اللونين الأزرق والأخضر. يتبنى المقطع البرمجي التالي مقترحات الأداة ويستخدم أداة التجميع التكتلي من مكتبة سكليرن (Sklearn) لتقسيم المخطط الشجري بعد إنشاء العناقيد السبع: AC_tfidf=AgglomerativeClustering(linkage='ward',n_clusters=7) # prepare the tool, set the number of clusters. AC_tfidf.fit(text_tfidf.toarray()) # apply the tool to the vectorized BBC data. pred_tfidf=AC_tfidf.labels_ # get the cluster labels. pred_tfidf array([6, 2, 4, ..., 6, 3, 5], dtype=int64) لاحظ أن قيمة بيانات الحقيقة المعتمدة (ground-truth) في كل مستند من القسم الإخباري (NewsSection) لم تُستخدم على الإطلاق في هذه العملية. وبدلاً من ذلك، عولجت عملية التجميع استنادًا إلى نص محتوى كل وثيقة. على حده. إن قيم بيانات الحقيقة المعتمدة مفيدة في التطبيق العملي، فهي تتيح التحقق من صحة نتائج التجميع. وقيم بيانات الحقيقة المعتمدة الحالية موجودة في قائمة bbc_labels (قيم هيئة الإذاعة البريطانية). وزارة التعليم 161 Ministry of Education 2023 - 1447 --- VISUAL CONTEXT --- **DIAGRAM**: شكل 3.21: مثال على طريقة وارد (Ward) Description: The diagram visually represents Ward's method of hierarchical clustering. It shows two initial clusters, each composed of four hollow circular points (○) symmetrically arranged around a central magenta plus sign (+). Dashed magenta lines connect each of the four points to its respective magenta centroid. These two initial clusters are then shown to merge towards a larger, central blue plus sign (+), which represents the new centroid of the combined cluster. Dashed blue arrows point from each of the initial magenta centroids towards the central blue centroid, indicating the merging process. The areas around the initial clusters are lightly shaded, suggesting their boundaries. X-axis: N/A Y-axis: N/A Data: The diagram illustrates the process of merging clusters in Ward's method. Each initial cluster has a centroid (magenta '+') and associated data points (hollow circles). The merging process is directed towards a new, combined centroid (blue '+'). Context: This diagram visually explains the concept of Ward's method in hierarchical clustering, where clusters are merged by minimizing the increase in variance (or sum of squared distances) within the clusters. The magenta plus signs represent the centroids of individual clusters, and the blue plus sign represents the centroid of the merged cluster.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هو المفهوم الأساسي الذي تستند إليه مسافة وارد (Ward) في قياس المسافة بين العناقيد؟

الإجابة: تستند مسافة وارد (Ward) إلى مفهوم التباين داخل العنقود، وهو مجموع المسافات بين النقاط في العنقود.

الشرح: مسافة وارد تهدف إلى تقليل زيادة التباين الكلي داخل العنقود عند دمج مجموعتين. كلما قل الارتفاع في التباين، كان الدمج أفضل.

تلميح: فكر في مقياس الاختلاف أو التشتت داخل كل مجموعة من البيانات.

كيف تقيّم طريقة وارد (Ward) عمليات الدمج الممكنة بين العناقيد؟

الإجابة: في كل تكرار، تقيّم الطريقة كل عملية دمج ممكنة بحساب التباين داخل العنقود قبل عملية الدمج وبعدها، ثم تبدأ عملية الدمج التي تحقق أقل ارتفاع في التباين.

الشرح: تهدف طريقة وارد إلى العثور على الدمج الذي يقلل من التأثير السلبي على تجانس العناقيد (أي يقلل من زيادة التباين).

تلميح: ما هو المعيار الذي تستخدمه الطريقة لتحديد أي مجموعتين سيتم دمجهما؟

ما هو الرسم الشجري (Dendrogram) وما فائدته في التجميع الهرمي؟

الإجابة: الرسم الشجري هو رسم تخطيطي تفرعي يوضح العلاقة الهرمية بين البيانات، ويأتي عادة في صورة أحد مخرجات التجميع الهرمي. يساعد في تحديد عدد العناقيد المناسب.

الشرح: يسمح الرسم الشجري للمستخدم برؤية كيف تتجمع البيانات في مستويات مختلفة، مما يسهل اتخاذ قرار بشأن العدد الأمثل للعناقيد بناءً على نقاط الانفصال الواضحة.

تلميح: فكر في كيفية تمثيل العلاقات المتداخلة والمعتمدة على المستويات.

ما هو الغرض من استخدام قيم بيانات الحقيقة المعتمدة (ground-truth) في عملية التجميع؟

الإجابة: تُستخدم قيم بيانات الحقيقة المعتمدة للتحقق من صحة نتائج عملية التجميع، حيث أنها تمثل التصنيفات الصحيحة للمستندات.

الشرح: في سياق البيانات النصية، إذا كانت لدينا معلومات مسبقة عن الأقسام أو الفئات الصحيحة التي تنتمي إليها المستندات (مثل (NewsSection) أو (bbc_labels))، يمكن مقارنة العناقيد التي تم إنشاؤها بواسطة الخوارزمية بهذه التصنيفات الفعلية لتقييم أداء الخوارزمية.

تلميح: عندما تجري اختباراً، ماذا تستخدم لتقييم مدى دقة نتائجك؟

اشرح دور `AgglomerativeClustering(linkage='ward', n_clusters=7)` في المقطع البرمجي المقدم.

الإجابة: يقوم هذا السطر بإعداد أداة التجميع التكتلي (Agglomerative Clustering) باستخدام طريقة وارد (`linkage='ward'`) لتحديد 7 عناقيد (`n_clusters=7`)، وتطبيقها على البيانات النصية المعالجة (`text_tfidf.toarray()`).

الشرح: هذه الدالة هي التي تقوم فعلياً بعملية التجميع الهرمي. تحديد `linkage='ward'` يعني استخدام طريقة وارد، و `n_clusters=7` يحدد أننا نريد تقسيم البيانات إلى 7 مجموعات نهائية.

تلميح: ما هي الوظيفة الرئيسية لهذه العبارة في لغة البرمجة؟ وما هما المعاملان الأساسيان اللذان يحددان سلوكها؟