التعلم غير الموجه وتقنيات التجميع باستخدام مجموعة بيانات BBC - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة مفهوم التعلم غير الموجه في تعلم الآلة، مع التركيز على تقنيات التجميع (Clustering) التي تهدف إلى اكتشاف الأنماط والعلاقات المخفية في البيانات دون توجيه مسبق. يتم توضيح أهمية هذه التقنيات في تحليل مجموعات البيانات الكبيرة، خاصة النصوص غير المتراكبة حيث يكون التحليل اليدوي غير عملي.

يتم استخدام مجموعة بيانات BBC العامة كمثال تطبيقي، حيث تحتوي على مقالات إخبارية من خمسة أقسام مختلفة: الأعمال التجارية، والسياسة، والرياضة، والتقنية، والترفيه. يتم تحميل البيانات ومعالجتها باستخدام كود برمجي في بيئة Jupyter Notebook، مع شرح خطوات استخراج النصوص وتسميتها وتوزيعها عشوائيًا.

يُعرّف العنقود (Cluster) على أنه مجموعة من الأشياء المتشابهة، ويشرح التجميع كعملية تجميع البيانات غير المعنونة في عناقيد متجانسة. يتم دعم الشرح برسم توضيحي (شكل 3.16) يظهر تمثيلاً مرئيًا للعنقود، مما يساعد في فهم المفهوم بشكل أفضل.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

وإحدى المزايا الرئيسية لاستخدام التعلم غير الموجه هي أنه يمكن استخدامه للكشف عن الأنماط والعلاقات التي قد لا تبدو واضحة على الفور للمراقب البشري. وقد يكون هذا مفيدًا بشكل خاص في فهم مجموعات البيانات الكبيرة المكونة من النصوص غير المتراكبة، حيث يكون التحليل اليدوي غير عملي. في هذه الوحدة، ستستخدم مجموعة بيانات متوافرة للعامة من المقالات الإخبارية من هيئة الإذاعة البريطانية (BBC) بواسطة جرين وكونينجهام (Greene & Cunningham, 2006) لتوضيح بعض التقنيات الرئيسية للتعلم غير الموجه. يُستخدم المقطع البرمجي التالي لتحميل مجموعة البيانات، المنظمة في خمسة مجلدات إخبارية مختلفة تمثل مقالات من أقسام إخبارية مختلفة، هي: الأعمال التجارية، والسياسة، والرياضة، والتقنية، والترفيه. لن تستخدم القيم الخمسة في توجيه أي من الخوارزميات المستخدمة في هذه الوحدة. وبدلاً من ذلك، ستستخدم فقط لأغراض التصوير والمصادقة. يتضمن كل مجلد إخباري مئات الملفات النصية. وكل ملف يتضمن محتوى مقالة واحدة محددة. وقد حُمّلت مجموعة البيانات بالفعل إلى مفكرة جوبيتر (Jupyter Notebook) وستقوم لبنة التعليمات البرمجية بفتح واستخراج كل المستندات والقيم المطلوبة في تركيبتين لبيانات القوائم، على التوالي.

العنقود (Cluster):

نوع: محتوى تعليمي

العنقود هو مجموعة من الأشياء المتشابهة. وفي تعلم الآلة، يشير التجميع (Clustering) إلى عملية تجميع البيانات غير المعنونة في عناقيد متجانسة.

نوع: FIGURE_REFERENCE

شكل 3.16: تمثيل عنقود

نوع: METADATA

BBC open dataset
https://www.kaggle.com/datasets/shivamkushwaha/bbc-full-text-document-classification
D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. All rights, including copyright, in the content of the original articles are owned by the BBC.

نوع: محتوى تعليمي

# used to list all the files and subfolders in a given folder
from os import listdir
# used for generating random number
import random shuffling lists
bbc_docs=[] # holds the text of the articles
bbc_labels=[] # holds the news section for each article
for folder in listdir('bbc'): # for each news-section folder
    for file in listdir('bbc/'+folder): # for each text file in this folder

        # open the text file, use encoding='utf8' because articles may include non-ascii characters
        with open('bbc/'+folder+'/'+file,encoding='utf8',errors='ignore') as f:
            bbc_docs.append(f.read()) # read the text of the article and append to the docs list
            # use the name of the folder (news section) as a label for this doc
            bbc_labels.append(folder)
# shuffle the docs and labels lists in parallel
merged = list(zip(bbc_docs, bbc_labels)) # link the two lists
random.shuffle(merged) # shuffle them in parallel (with the same random order)
bbc_docs, bbc_labels = zip(*merged) # separate them again into individual lists.

نوع: METADATA

وزارة التعليم
155
Ministry of Education
2023 - 1447

🔍 عناصر مرئية

شكل 3.16: تمثيل عنقود

A diagram illustrating a cluster, with a central blue circle connected by radiating lines to multiple smaller blue circles arranged in a larger circular pattern around it. This visual represents the concept of a data cluster where similar items are grouped around a central point or theme, as described in the accompanying text.

📄 النص الكامل للصفحة

وإحدى المزايا الرئيسية لاستخدام التعلم غير الموجه هي أنه يمكن استخدامه للكشف عن الأنماط والعلاقات التي قد لا تبدو واضحة على الفور للمراقب البشري. وقد يكون هذا مفيدًا بشكل خاص في فهم مجموعات البيانات الكبيرة المكونة من النصوص غير المتراكبة، حيث يكون التحليل اليدوي غير عملي. في هذه الوحدة، ستستخدم مجموعة بيانات متوافرة للعامة من المقالات الإخبارية من هيئة الإذاعة البريطانية (BBC) بواسطة جرين وكونينجهام (Greene & Cunningham, 2006) لتوضيح بعض التقنيات الرئيسية للتعلم غير الموجه. يُستخدم المقطع البرمجي التالي لتحميل مجموعة البيانات، المنظمة في خمسة مجلدات إخبارية مختلفة تمثل مقالات من أقسام إخبارية مختلفة، هي: الأعمال التجارية، والسياسة، والرياضة، والتقنية، والترفيه. لن تستخدم القيم الخمسة في توجيه أي من الخوارزميات المستخدمة في هذه الوحدة. وبدلاً من ذلك، ستستخدم فقط لأغراض التصوير والمصادقة. يتضمن كل مجلد إخباري مئات الملفات النصية. وكل ملف يتضمن محتوى مقالة واحدة محددة. وقد حُمّلت مجموعة البيانات بالفعل إلى مفكرة جوبيتر (Jupyter Notebook) وستقوم لبنة التعليمات البرمجية بفتح واستخراج كل المستندات والقيم المطلوبة في تركيبتين لبيانات القوائم، على التوالي.--- SECTION: العنقود (Cluster): --- العنقود هو مجموعة من الأشياء المتشابهة. وفي تعلم الآلة، يشير التجميع (Clustering) إلى عملية تجميع البيانات غير المعنونة في عناقيد متجانسة.شكل 3.16: تمثيل عنقودBBC open dataset https://www.kaggle.com/datasets/shivamkushwaha/bbc-full-text-document-classification D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. All rights, including copyright, in the content of the original articles are owned by the BBC.# used to list all the files and subfolders in a given folder from os import listdir
# used for generating random number import random shuffling lists bbc_docs=[] # holds the text of the articles bbc_labels=[] # holds the news section for each article for folder in listdir('bbc'): # for each news-section folder for file in listdir('bbc/'+folder): # for each text file in this folder# open the text file, use encoding='utf8' because articles may include non-ascii characters with open('bbc/'+folder+'/'+file,encoding='utf8',errors='ignore') as f:
bbc_docs.append(f.read()) # read the text of the article and append to the docs list
# use the name of the folder (news section) as a label for this doc bbc_labels.append(folder)
# shuffle the docs and labels lists in parallel merged = list(zip(bbc_docs, bbc_labels)) # link the two lists random.shuffle(merged) # shuffle them in parallel (with the same random order)
bbc_docs, bbc_labels = zip(*merged) # separate them again into individual lists.2023 - 1447--- VISUAL CONTEXT ---
**DIAGRAM**: شكل 3.16: تمثيل عنقود
Description: A diagram illustrating a cluster, with a central blue circle connected by radiating lines to multiple smaller blue circles arranged in a larger circular pattern around it. This visual represents the concept of a data cluster where similar items are grouped around a central point or theme, as described in the accompanying text.
Context: This diagram visually explains the definition of a 'cluster' in the context of machine learning and data analysis, showing how data points can be grouped together based on similarity.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هو تعريف 'العنقود' (Cluster) في سياق تعلم الآلة؟

الإجابة: العنقود هو مجموعة من الأشياء المتشابهة. وفي تعلم الآلة، يشير التجميع (Clustering) إلى عملية تجميع البيانات غير المعنونة في عناقيد متجانسة.

الشرح: التعريف يشرح أن العنقود يمثل تكتلاً من العناصر المتشابهة، وأن عملية التجميع (Clustering) هي الآلية التي يتم من خلالها تكوين هذه المجموعات من البيانات التي لا تحمل تسميات مسبقة.

تلميح: فكر في الهدف الأساسي من عملية التجميع في تعلم الآلة، وما الذي يتم البحث عنه في البيانات.

ما هي الفائدة الرئيسية لاستخدام التعلم غير الموجه في تحليل البيانات؟

الإجابة: يمكن استخدامه للكشف عن الأنماط والعلاقات التي قد لا تبدو واضحة على الفور للمراقب البشري، وهو مفيد بشكل خاص في فهم مجموعات البيانات الكبيرة المكونة من نصوص غير متراكبة حيث يكون التحليل اليدوي غير عملي.

الشرح: التعلم غير الموجه يتميز بقدرته على استخلاص رؤى وأنماط قد لا تكون ظاهرة للمحلل البشري، خاصة مع حجم البيانات الكبير وطبيعتها المعقدة.

تلميح: ما هي القدرة التي يمنحنا إياها التعلم غير الموجه فيما يتعلق بالأنماط المخفية في البيانات؟

ما هي مجموعة البيانات المستخدمة في الوحدة، وما مصدرها؟

الإجابة: تُستخدم مجموعة بيانات متوفرة للعامة من مقالات إخبارية من هيئة الإذاعة البريطانية (BBC) بواسطة جرين وكونينجهام (Greene & Cunningham, 2006).

الشرح: تم تحديد مصدر البيانات بشكل واضح في النص، وهو مجموعة مقالات من BBC، مما يساعد الطالب على فهم بيئة التطبيق العملي لتقنيات التعلم غير الموجه.

تلميح: ابحث عن اسم المنظمة الإخبارية والمؤلفين المذكورين في سياق وصف مجموعة البيانات.

كيف تم تنظيم مجموعة بيانات مقالات BBC في هذا السياق؟

الإجابة: تم تنظيمها في خمسة مجلدات إخبارية مختلفة تمثل مقالات من أقسام إخبارية مختلفة، هي: الأعمال التجارية، والسياسة، والرياضة، والتقنية، والترفيه. كل مجلد إخباري يتضمن مئات الملفات النصية، وكل ملف يتضمن محتوى مقالة واحدة محددة.

الشرح: يوضح هذا السؤال كيفية تقسيم البيانات إلى فئات منطقية (أقسام الأخبار)، مما يسهل عملية التحليل ويوفر سياقاً للبيانات.

تلميح: فكر في الطريقة التي تم بها تصنيف المقالات الإخبارية لتسهيل فهمها.

ما هو دور الأقسام الإخبارية الخمسة (الأعمال التجارية، السياسة، الرياضة، التقنية، الترفيه) عند استخدامها لتوجيه خوارزميات التعلم غير الموجه في هذه الوحدة؟

الإجابة: لن تُستخدم القيم الخمسة في توجيه أي من الخوارزميات المستخدمة في هذه الوحدة، بل ستُستخدم فقط لأغراض التصوير والمصادقة.

الشرح: يؤكد هذا على طبيعة التعلم غير الموجه، حيث لا يتم تقديم البيانات مصنفة للخوارزمية لتتعلم منها (وهو ما يحدث في التعلم الموجه)، بل تستخدم التصنيفات لاحقاً للتحقق من النتائج أو لعرضها.

تلميح: هل يتم استخدام هذه الأقسام كـ 'إجابات صحيحة' للخوارزمية، أم لغرض آخر؟