تمرينات على مفاهيم التعلم الآلي ومعالجة البيانات - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: تمارين وأسئلة

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتضمن هذه الصفحة تمرينات تقييمية متنوعة في مجال التعلم الآلي ومعالجة البيانات، مقسمة إلى ثلاثة أقسام رئيسية. القسم الأول يقدم أسئلة تحديد صحة الجمل حول مواضيع مثل التعلم الموجه، البرمجة الاتجاهية، المصفوفات المتباعدة والكثيفة، خوارزمية مصنف بايز الساذج، وتمثيل أهمية الكلمات في النصوص. القسم الثاني يطلب شرحاً مقارناً بين المصفوفة الكثيفة والمتباعدة من حيث استهلاك الذاكرة، مما يتطلب فهم هياكل البيانات في الحوسبة. القسم الثالث يركز على تحليل استخدام عامل تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لتحديد أهمية الكلمات في النصوص، وهو مفهوم أساسي في معالجة اللغة الطبيعية. هذه التمرينات تهدف إلى تعزيز الفهم العملي للمفاهيم النظرية وتطوير مهارات التحليل والتفسير لدى الطلاب.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: METADATA

تمرينات

1

نوع: QUESTION

حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:
في التعلم الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.
البرمجة الاتجاهية هي تقنية لتحويل البيانات من تنسيق متجه رقمي إلى بيانات أولية.
تتطلب المصفوفة المتباعدة ذاكرة أقل بكثير من المصفوفة الكثيفة.
تُستخدم خوارزمية مصنف بايز الساذج لبناء خط أنابيب التنبؤ.
تكرار الكلمة في المستند يُعد التمثيل الدقيق الوحيد لأهمية هذه الكلمة.

2

نوع: QUESTION

اشرح لماذا تتطلب المصفوفة الكثيفة مساحة من الذاكرة أكبر من المصفوفة المتباعدة.

3

نوع: QUESTION

حلل كيف يُستخدم العاملان الرياضيان في تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لتحديد أهمية الكلمة في النص.

نوع: METADATA

وزارة التعليم
Ministry of Education
2023 - 1447

نوع: METADATA

152

📄 النص الكامل للصفحة

تمرينات--- SECTION: 1 --- حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:
في التعلم الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.
البرمجة الاتجاهية هي تقنية لتحويل البيانات من تنسيق متجه رقمي إلى بيانات أولية.
تتطلب المصفوفة المتباعدة ذاكرة أقل بكثير من المصفوفة الكثيفة.
تُستخدم خوارزمية مصنف بايز الساذج لبناء خط أنابيب التنبؤ.
تكرار الكلمة في المستند يُعد التمثيل الدقيق الوحيد لأهمية هذه الكلمة.--- SECTION: 2 --- اشرح لماذا تتطلب المصفوفة الكثيفة مساحة من الذاكرة أكبر من المصفوفة المتباعدة.--- SECTION: 3 --- حلل كيف يُستخدم العاملان الرياضيان في تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لتحديد أهمية الكلمة في النص.2023 - 1447

✅ حلول أسئلة الكتاب الرسمية

عدد الأسئلة: 3

سؤال 1: حدد الجملة الصحيحة والجملة الخاطئة فيما يلي: 1. في التعلم الموجه تُستخدم مجموعات البيانات المعنونة لتدريب النموذج. 2. البرمجة الاتجاهية هي تقنية لتحويل البيانات من تنسيق متجه رقمي إلى بيانات أولية. 3. تتطلب المصفوفة المتباعدة ذاكرة أقل بكثير من المصفوفة الكثيفة. 4. تُستخدم خوارزمية مُصنِّف بايز الساذج لبناء خط أنابيب التنبؤ. 5. تكرار الكلمة في المستند يُعدُّ التمثيل الدقيق الوحيد لأهمية هذه الكلمة.

الإجابة: س1: 1) ✓ صح س1: 2) ✗ خطأ س1: 3) ✓ صح س1: 4) ✓ صح س1: 5) ✗ خطأ

خطوات الحل:

**الشرح:** لنفهم هذا السؤال. لدينا خمس جمل متعلقة بمفاهيم في علوم الحاسب والتعلم الآلي، والمطلوب تحديد صحتها أو خطئها. **الجملة 1:** تتحدث عن التعلم الموجه (Supervised Learning). في هذا النوع من التعلم، النموذج يتعلم من أمثلة مُعلَّمة (Labeled Data)، أي بيانات معروفة نتيجتها الصحيحة. لذلك، هذه الجملة **صحيحة**. **الجملة 2:** تتحدث عن البرمجة الاتجاهية (Vectorization). هذه التقنية هي في الواقع عكس ما ذكرته الجملة؛ فهي تحول البيانات الأولية (مثل النصوص) إلى تمثيل رقمي متجهي (Vector) ليكون مناسباً للمعالجة الحاسوبية. لذلك، هذه الجملة **خاطئة**. **الجملة 3:** تتحدث عن المصفوفة المتباعدة (Sparse Matrix) والمصفوفة الكثيفة (Dense Matrix). المصفوفة المتباعدة تخزن فقط القيم غير الصفرية، بينما الكثيفة تخزن كل القيم بما فيها الأصفار. عندما تكون معظم القيم صفراً (كما في تمثيل النصوص)، فإن المصفوفة المتباعدة تستخدم ذاكرة أقل بكثير. لذلك، هذه الجملة **صحيحة**. **الجملة 4:** تتحدث عن خوارزمية مُصنِّف بايز الساذج (Naive Bayes Classifier). هذه الخوارزمية هي بالفعل أحد النماذج الشائعة التي يمكن استخدامها في خط أنابيب (Pipeline) للتنبؤ، خاصة في مهام مثل تصنيف النصوص. لذلك، هذه الجملة **صحيحة**. **الجملة 5:** تتحدث عن تكرار الكلمة (Term Frequency) كتمثيل لأهميتها. تكرار الكلمة في مستند واحد (TF) هو عامل مهم، ولكنه ليس العامل الوحيد أو التمثيل الدقيق الوحيد. هناك عوامل أخرى مثل IDF (تكرار المستند العكسي) في أسلوب TF-IDF، أو عوامل السياق في النماذج الحديثة. لذلك، هذه الجملة **خاطئة**. إذن، الإجابة هي: 1) ✓ صح 2) ✗ خطأ 3) ✓ صح 4) ✓ صح 5) ✗ خطأ

سؤال 2: اشرح لماذا تتطلب المصفوفة الكثيفة مساحة من الذاكرة أكبر من المصفوفة المتباعدة.

الإجابة: س2: لأن المصفوفة الكثيفة تخزن جميع القيم (حتى الصفرية) فتحتاج ذاكرة لكل عنصر. س2: أما المتباعدة فتخزن القيم غير الصفرية فقط، وبما أن أغلب القيم تكون صفراً س2: في بيانات مثل النصوص، فإنها توفر ذاكرة كبيرة.

خطوات الحل:

**الخطوة 1 (المفهوم):** نتذكر أن المصفوفة (Matrix) هي هيكل بيانات لتخزين الأرقام في صفوف وأعمدة. هناك نوعان رئيسيان: المصفوفة الكثيفة (Dense Matrix) والمصفوفة المتباعدة (Sparse Matrix).
**الخطوة 2 (التطبيق):** المصفوفة الكثيفة تخزن قيمة لكل عنصر في المصفوفة، حتى لو كانت القيمة صفراً. تخيل مصفوفة كبيرة تمثل كلمات في مستندات: معظم الخلايا ستكون صفراً لأن معظم الكلمات لا تظهر في معظم المستندات. ومع ذلك، المصفوفة الكثيفة ستخصص مساحة ذاكرة لكل خلية من هذه الخلايا الصفرية. أما المصفوفة المتباعدة، فبدلاً من تخزين كل القيم، تخزن فقط القيم غير الصفرية مع مؤشرات توضح مكانها في المصفوفة. هذا يعني أنها تتجاهل تخزين الأصفار تماماً.
**الخطوة 3 (النتيجة):** لذلك، في الحالات التي تحتوي على الكثير من الأصفار (مثل تمثيل النصوص)، فإن المصفوفة الكثيفة تحتاج مساحة ذاكرة أكبر لأنها تخزن كل شيء، بينما المصفوفة المتباعدة توفر ذاكرة كبيرة لأنها تخزن فقط البيانات المهمة (غير الصفرية).

سؤال 3: حلِّل كيف يُستخدم العاملان الرياضيان في تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لتحديد أهمية الكلمة في النص.

الإجابة: س3: يعتمد TF-IDF على TF (تكرار المصطلح) الذي يزيد وزن الكلمة بتكرارها في المستند. س3: و IDF (تكرار عكسي) الذي يرفع وزن الكلمات النادرة ويقلل وزن الشائعة. س3: فتكون القيمة عالية للكلمات التي تتكرر في مستند معين وتكون نادرة في غيره.

خطوات الحل:

**الخطوة 1 (المفهوم):** TF-IDF هو أسلوب شائع في معالجة اللغات الطبيعية لقياس أهمية كلمة في مستند بالنسبة لمجموعة من المستندات (كوربس). يتكون من عاملين: 1. **TF (تكرار المصطلح):** يقيس عدد مرات ظهور الكلمة في مستند معين. 2. **IDF (التكرار العكسي للمستند):** يقيس مدى ندرة أو شيوع الكلمة عبر جميع المستندات في المجموعة.
**الخطوة 2 (التطبيق):** لنرى كيف يعمل كل عامل: - **عامل TF:** إذا تكررت كلمة كثيراً في مستند معين، فمن المحتمل أنها مهمة في ذلك المستند. لذا، يزيد TF من وزن (أهمية) تلك الكلمة لذلك المستند. - **عامل IDF:** إذا ظهرت كلمة في كثير من المستندات (مثل كلمات "الـ"، "و"، "في")، فهي كلمة شائعة ولا تميز مستنداً عن آخر، لذا يكون وزنها IDF منخفضاً. أما إذا كانت الكلمة نادرة الظهور عبر المستندات، فهي قد تكون مميزة، لذا يكون وزنها IDF مرتفعاً. يتم دمج العاملين بضربهما معاً: **TF-IDF = TF × IDF**.
**الخطوة 3 (النتيجة):** إذن، تحدد أهمية الكلمة في النص من خلال هذا المزيج: - تحصل الكلمة على قيمة TF-IDF **عالية** إذا كانت **تتكرر كثيراً في المستند الحالي (TF عالي)** وكانت **نادرة في المستندات الأخرى (IDF عالي)**. هذه هي الكلمات المميزة والمهمة حقاً للمحتوى. - تحصل على قيمة **منخفضة** إذا كانت نادرة في المستند الحالي أو شائعة جداً عبر جميع المستندات. لذلك، لا يعتمد TF-IDF على التكرار وحده، بل يوازن بين أهمية الكلمة داخل المستند وتميزها عبر مجموعة المستندات.

📝 أسئلة اختبارية

عدد الأسئلة: 8

سؤال 1: حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:

الإجابة الصحيحة: انظر الأسئلة الفرعية

الشرح: هذا سؤال رئيسي يحتوي على أسئلة فرعية

تلميح: راجع الأسئلة الفرعية أدناه

سؤال 2: اشرح لماذا تتطلب المصفوفة الكثيفة مساحة من الذاكرة أكبر من المصفوفة المتباعدة.

أ) لأن المصفوفة الكثيفة تحتوي على أعداد أكبر من العناصر.
ب) لأن المصفوفة الكثيفة تخزن جميع القيم بما فيها الأصفار.
ج) لأن المصفوفة المتباعدة تستخدم ضغط البيانات.
د) لأن المصفوفة الكثيفة تتطلب معالجة أسرع.

الإجابة الصحيحة: المصفوفة الكثيفة تخزن جميع القيم بما فيها الأصفار، بينما المصفوفة المتباعدة تخزن فقط القيم غير الصفرية، مما يوفر مساحة ذاكرة.

الشرح: المصفوفة الكثيفة (dense matrix) تستخدم ذاكرة لكل عنصر في المصفوفة، حتى لو كان صفراً، بينما المصفوفة المتباعدة (sparse matrix) تستخدم هياكل بيانات فعالة لتخزين القيم غير الصفرية فقط، مما يقلل استخدام الذاكرة.

تلميح: قارن بين كيفية تخزين القيم في كل نوع من المصفوفات.

سؤال 3: حلل كيف يُستخدم العاملان الرياضيان في تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لتحديد أهمية الكلمة في النص.

أ) TF يقيس طول النص، وIDF يقيس عدد الكلمات الفريدة.
ب) TF يقيس تكرار الكلمة في المستند، وIDF يقيس ندرة الكلمة عبر المستندات.
ج) TF يقيس دقة الكلمة، وIDF يقيس سرعة المعالجة.
د) TF يقيس أهمية الكلمة في اللغة، وIDF يقيس تكرارها في القاموس.

الإجابة الصحيحة: TF يقيس تكرار الكلمة في المستند، وIDF يقيس ندرة الكلمة عبر المستندات، ويتم دمجهما في TF-IDF لإعطاء وزن يعكس الأهمية.

الشرح: TF (Term Frequency) يحسب تكرار الكلمة في مستند معين، مما يعطي أهمية محلية. IDF (Inverse Document Frequency) يحسب عكس تكرار الكلمة عبر جميع المستندات، مما يعطي أهمية عالمية بمعاقبة الكلمات الشائعة. حاصل ضربهما (TF-IDF) يعطي وزنًا مركبًا يحدد أهمية الكلمة بدقة.

تلميح: فكر في دور كل من TF وIDF في تقييم الكلمة.

سؤال 1: في التعلم الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

الإجابة الصحيحة: صحيح

الشرح: نعم، التعلم الموجه يعتمد على مجموعات بيانات معنونة (labeled data) لتدريب النماذج.

تلميح: ما هو التعلم الموجه؟

سؤال 1: البرمجة الاتجاهية هي تقنية لتحويل البيانات من تنسيق متجه رقمي إلى بيانات أولية.

الإجابة الصحيحة: خطأ

الشرح: البرمجة الاتجاهية (Vectorization) هي تقنية لتحويل البيانات الأولية إلى تنسيق متجه رقمي، وليس العكس.

تلميح: ما هو اتجاه تحويل البيانات في البرمجة الاتجاهية؟

سؤال 1: تتطلب المصفوفة المتباعدة ذاكرة أقل بكثير من المصفوفة الكثيفة.

الإجابة الصحيحة: صحيح

الشرح: نعم، المصفوفة المتباعدة (sparse matrix) تخزن فقط القيم غير الصفرية، مما يوفر ذاكرة مقارنة بالمصفوفة الكثيفة التي تخزن جميع القيم.

تلميح: كيف تخزن المصفوفة المتباعدة البيانات؟

سؤال 1: تُستخدم خوارزمية مصنف بايز الساذج لبناء خط أنابيب التنبؤ.

الإجابة الصحيحة: صحيح

الشرح: نعم، مصنف بايز الساذج (Naive Bayes) هو خوارزمية شائعة تستخدم في خطوط أنابيب التنبؤ، خاصة في معالجة النصوص.

تلميح: ما هي تطبيقات مصنف بايز الساذج؟

سؤال 1: تكرار الكلمة في المستند يُعد التمثيل الدقيق الوحيد لأهمية هذه الكلمة.

الإجابة الصحيحة: خطأ

الشرح: تكرار الكلمة (Term Frequency) ليس التمثيل الوحيد؛ هناك طرق أخرى مثل TF-IDF التي تأخذ في الاعتبار تكرار المستند العكسي.

تلميح: هل هناك مقاييس أخرى لأهمية الكلمة؟

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

في أي نوع من أنواع التعلم الآلي تُستخدم مجموعات البيانات المعنونة لتدريب النموذج؟

الإجابة: في التعلم الموجه (Supervised Learning) تُستخدم مجموعات البيانات المعنونة لتدريب النموذج.

الشرح: التعلم الموجه هو أحد أنواع التعلم الآلي حيث يتم تدريب النموذج باستخدام بيانات تتضمن المدخلات والمخرجات المرغوبة (الملصقات أو العناوين)، مما يسمح للنموذج بتعلم كيفية التنبؤ بالمخرجات للبيانات الجديدة.

تلميح: فكر في نوع التعلم الذي يعتمد على وجود 'إجابات صحيحة' مسبقاً في البيانات.

ما هي تقنية تحويل البيانات من تنسيق متجه رقمي إلى بيانات أولية؟

الإجابة: البرمجة الاتجاهية (Vectorization) هي تقنية لتحويل البيانات، مثل النصوص، من شكلها الأصلي (بيانات أولية) إلى تمثيل رقمي في صورة متجهات.

الشرح: تُعد البرمجة الاتجاهية خطوة أساسية في معالجة اللغات الطبيعية ومعظم تطبيقات الذكاء الاصطناعي، حيث تسمح للنماذج الحاسوبية بفهم ومعالجة البيانات غير الرقمية مثل النصوص.

تلميح: ابحث عن المصطلح الذي يشير إلى عملية تمثيل الكلمات أو النصوص كأرقام في فضاء متعدد الأبعاد.

لماذا تتطلب المصفوفة المتباعدة (Sparse Matrix) ذاكرة أقل بكثير من المصفوفة الكثيفة (Dense Matrix)؟

الإجابة: تتطلب المصفوفة المتباعدة ذاكرة أقل لأنها تخزن فقط القيم غير الصفرية وعناوينها، بينما تخزن المصفوفة الكثيفة جميع العناصر، بما في ذلك الأصفار.

الشرح: في المصفوفات المتباعدة، حيث تكون معظم القيم أصفاراً، فإن تخزين كل صفر بشكل صريح يكون هدراً كبيراً للذاكرة. لذلك، يتم اللجوء إلى تقنيات تخزين خاصة لا تسجل سوى القيم غير الصفرية ومواقعها.

تلميح: فكر في كيفية تخزين البيانات التي تحتوي على نسبة عالية من القيم المتشابهة (مثل الصفر).

ما هي الخوارزمية التي تُستخدم غالباً لبناء خط أنابيب التنبؤ (Prediction Pipeline) في بعض تطبيقات الذكاء الاصطناعي؟

الإجابة: خوارزمية مصنف بايز الساذج (Naive Bayes Classifier) تُستخدم أحياناً في بناء خطوط أنابيب التنبؤ، خاصة في مهام تصنيف النصوص.

الشرح: مصنف بايز الساذج هو خوارزمية تصنيف سريعة وفعالة، وتُعتبر أساسية في العديد من خطوط أنابيب التعلم الآلي، خاصة عندما تكون سرعة الأداء ووضوح النموذج من الأولويات.

تلميح: ابحث عن خوارزمية تصنيف بسيطة تعتمد على نظرية الاحتمالات.

هل تكرار الكلمة في المستند هو التمثيل الوحيد والدقيق لأهمية هذه الكلمة؟ وضح ذلك.

الإجابة: لا، تكرار الكلمة في المستند (Term Frequency - TF) ليس التمثيل الوحيد والدقيق لأهمية الكلمة. الأهمية الحقيقية تعتمد أيضاً على مدى ندرة الكلمة في المستندات الأخرى (Inverse Document Frequency - IDF).

الشرح: تكرار الكلمة (TF) يشير إلى مدى تكرار كلمة معينة في مستند واحد، لكن هذا التكرار قد يكون مضللاً إذا كانت الكلمة شائعة في اللغة بشكل عام. لذا، يتم استخدام مؤشر IDF (تكرار المستند العكسي) لتقليل وزن الكلمات الشائعة جداً وزيادة وزن الكلمات النادرة والمميزة للمستند.

تلميح: فكر في الكلمات الشائعة جداً في اللغة، مثل 'و' و 'في'. هل تكرارها يعني بالضرورة أهمية سياقية كبيرة؟