تمرينات على مفاهيم التعلم غير الموجه وتقنيات البرمجة الاتجاهية - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: تمارين وأسئلة

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

ملخص صفحة التمارين

تمرينات

1. حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:

1.1. في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

* الخيارات: صحيحة / خاطئة

* التحليل: التعلم غير الموجه (Unsupervised Learning) يعمل على البيانات غير المعنونة (unlabeled data) لاكتشاف الأنماط والهياكل المخفية فيها. استخدام البيانات المعنونة هو سمة التعلم الموجه (Supervised Learning).

* الإجابة الصحيحة: خاطئة

1.2. يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.

* الخيارات: صحيحة / خاطئة

* التحليل: البرمجة الاتجاهية (Vectorization) هي عملية تحويل البيانات النصية أو الفئوية إلى تمثيل رقمي (متجهات) يمكن للخوارزميات الرياضية معالجته. معظم خوارزميات التعلم الآلي، بما في ذلك خوارزميات التجميع في التعلم غير الموجه، تتطلب بيانات في صورة رقمية، وبالتالي تحتاج إلى برمجة اتجاهية.

* الإجابة الصحيحة: صحيحة

1.3. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.

* الخيارات: صحيحة / خاطئة

* التحليل: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مصممة لتمثيل الجمل والفقرات (أجزاء نصية كاملة) وليس الكلمات الفردية. نموذج مثل Word2Vec هو الأكثر شيوعًا لبرمجة الكلمات اتجاهيًا. لذلك، المقارنة مع TF-IDF في سياق برمجة الكلمات غير دقيقة.

* الإجابة الصحيحة: خاطئة

1.4. يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

* الخيارات: صحيحة / خاطئة

* التحليل: التجميع التكتلي (Agglomerative Clustering) هو نوع من التجميع الهرمي التصاعدي (bottom-up)، حيث يبدأ كل عنصر بيانات في عنقود منفرد، ثم يتم دمج العناقيد الأكثر تشابهًا تدريجيًا حتى الوصول إلى العدد المطلوب من العناقيد. منهجية "أعلى إلى أسفل" (top-down) هي سمة التجميع التقسيمي (Partitioning).

* الإجابة الصحيحة: خاطئة

1.5. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتين دلالياً.

* الخيارات: صحيحة / خاطئة

* التحليل: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة على مهمة التنبؤ بتشابه الجمل (Sentence Similarity)، أي تحديد ما إذا كانت جملتان متشابهتين دلاليًا أم لا، وليس مختلفتين.

* الإجابة الصحيحة: خاطئة

2. استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.

هذا سؤال مفتوح يتطلب من الطالب استدعاء معرفته السابقة. الإجابة النموذجية تشمل:

* التطبيقات:

* تصور البيانات: عرض البيانات عالية الأبعاد في فضاء ثنائي أو ثلاثي الأبعاد لفهم بنيتها (مثل استخدام PCA أو t-SNE).

* معالجة الصور والرؤية الحاسوبية: تقليل أبعاد بيانات البكسل للتعرف على الوجوه أو الأشياء.

* معالجة اللغة الطبيعية: تقليل أبعاد مصفوفات الكلمات-المستندات الكبيرة (مثل استخدام SVD أو LDA).

* تحسين أداء نموذج التعلم الآلي: إزالة السمات الزائدة عن الحاجة أو المترابطة لتسريع التدريب وتجنب الإفراط في التخصيص (Overfitting).

* التقنيات: تقنيات تقليص الأبعاد الخطية (مثل تحليل المكونات الرئيسية PCA، وتحليل القيم المفردة SVD) وغير الخطية (مثل تضمين الجار العشوائي الموزع على شكل T t-SNE، والتضمين متعدد الأبعاد MDS).

3. اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF).

وظيفة قياس TF-IDF في البرمجة الاتجاهية للنصوص هي تحويل كل مستند نصي إلى متجه رقمي يعكس أهمية كل كلمة (مصطلح) داخل ذلك المستند بالنسبة لمجموعة المستندات بأكملها (المجموعة). يعمل من خلال دليلين:

تكرار المصطلح (TF): يقيس عدد مرات ظهور كلمة في مستند معين. يعطي وزنًا أعلى للكلمات الأكثر تكرارًا في ذلك المستند.

تكرار المستند العكسي (IDF): يقيس مدى ندرة أو شيوع الكلمة عبر جميع المستندات في المجموعة. يعطي وزنًا أعلى للكلمات النادرة (التي تظهر في عدد قليل من المستندات) لأنها أكثر تمييزًا.

النتيجة النهائية (TF * IDF) هي متجه لكل مستند، حيث تكون قيمة كل عنصر (كلمة) مرتفعة إذا كانت الكلمة شائعة في ذلك المستند المحدد ولكنها غير شائعة في المستندات الأخرى، مما يجعلها كلمة مميزة وذات دلالة قوية.

س: 4- يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

ج: العبارة خاطئة. التجميع التكتلي (K-Means Clustering) هو خوارزمية تعلم غير خاضع للإشراف تتبع منهجية من أسفل إلى أعلى (Bottom-up) أو ما يُعرف بالتجميع التراكمي. تبدأ الخوارزمية بتعيين نقاط البيانات عشوائيًا إلى عناقيد أولية، ثم تقوم بتكراريًا بإعادة حساب مراكز العناقيد وإعادة تعيين النقاط إلى أقرب مركز، بهدف تقليل التباين داخل كل عنقود. منهجية "من أعلى إلى أسفل" (Top-down) هي منهجية مختلفة تُستخدم في خوارزميات أخرى مثل التجميع التقسيمي (Divisive Clustering).

---

س: 5- تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتان دلالياً.

ج: العبارة صحيحة. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (Sentence-BERT أو SBERT) هي تعديل على نموذج BERT مُصمم خصيصًا لاشتقاق تمثيلات متجهية ذات دلالة للجمل بأكملها. يتم تدريب SBERT باستخدام أهداف مثل التصنيف الثلاثي (Triplet Loss) أو التصنيف الزوجي (Siamese Network) على مهام مثل استنتاج اللغة الطبيعية (NLI)، حيث يتعلم النموذج تحديد ما إذا كانت زوج من الجمل متطابقة، متناقضة، أو محايدة (غير مترابطة) من الناحية الدلالية. هذا يسمح له بإنشاء تمثيلات متجهية تحافظ على المعنى الدلالي، مما يجعلها فعالة في مهام مثل البحث الدلالي وتجميع النصوص.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

تمرينات

نوع: محتوى تعليمي

تمرينات

1

نوع: QUESTION

حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:

1

نوع: QUESTION

1. في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

2

نوع: QUESTION

2. يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.

3

نوع: QUESTION

3. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.

4

نوع: QUESTION

4. يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

5

نوع: QUESTION

5. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتين دلالياً.

2

نوع: QUESTION

استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.

3

نوع: QUESTION

اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF).

نوع: NON_EDUCATIONAL

وزارة التعليم
Ministry of Education
2025 - 1447

نوع: NON_EDUCATIONAL

170

📄 النص الكامل للصفحة

تمرينات

--- SECTION: 1 ---
حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:

--- SECTION: 1 ---
1. في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

--- SECTION: 2 ---
2. يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.

--- SECTION: 3 ---
3. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.

--- SECTION: 4 ---
4. يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

--- SECTION: 5 ---
5. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتين دلالياً.

--- SECTION: 2 ---
استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.

--- SECTION: 3 ---
اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF).

وزارة التعليم
Ministry of Education
2025 - 1447

170

✅ حلول أسئلة الكتاب الرسمية

عدد الأسئلة: 7

سؤال س 1 :(1): 1. في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

الإجابة: س 1 :(1) خطأ X

خطوات الحل:

**الخطوة 1 (المفهوم):** يعتمد التعلم غير الموجه (Unsupervised Learning) على اكتشاف الأنماط والهياكل المخفية في البيانات دون وجود توجيه مسبق أو أهداف محددة.
**الخطوة 2 (التطبيق):** البيانات المعنونة (Labeled Data) هي السمة الأساسية للتعلم الموجه (Supervised Learning)، حيث يتم إعطاء النموذج الإجابات الصحيحة ليتعلم منها، بينما في التعلم غير الموجه تكون البيانات غير معنونة.
**الخطوة 3 (النتيجة):** لذلك العبارة: **خطأ X**

سؤال س 1 :(2): 2. يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.

الإجابة: س 1 :(2) ✓ صح

خطوات الحل:

**الخطوة 1 (المفهوم):** البيانات الخام (مثل النصوص أو الصور) لا يمكن للخوارزميات معالجتها مباشرة بشكلها الطبيعي.
**الخطوة 2 (التطبيق):** لذا، نحتاج لتحويل هذه البيانات إلى تمثيلات رقمية أو متجهات (Vectors) لتمكين النموذج من حساب المسافات والتشابه بين البيانات في الفضاء الاتجاهي.
**الخطوة 3 (النتيجة):** لذلك العبارة: **✓ صح**

سؤال س 1 :(3): 3. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.

الإجابة: س 1 :(3) ✓ صح

خطوات الحل:

**الخطوة 1 (المفهوم):** تقنية TF-IDF تعتمد على تكرار الكلمات فقط ولا تفهم السياق، بينما SBERT تعتمد على المحولات (Transformers) التي تفهم المعنى العميق للجمل.
**الخطوة 2 (التطبيق):** بما أن SBERT تأخذ في الاعتبار ترتيب الكلمات والسياق ثنائي الاتجاه، فإنها تعطي تمثيلاً أدق وأكثر ذكاءً للعلاقات الدلالية بين الكلمات والجمل.
**الخطوة 3 (النتيجة):** لذلك العبارة: **✓ صح**

سؤال س 1 :(4): 4. يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

الإجابة: س 1 :(4) X خطأ

خطوات الحل:

**الخطوة 1 (المفهوم):** التجميع التكتلي (Agglomerative Clustering) يبدأ باعتبار كل نقطة بيانات بمثابة عنقود منفصل.
**الخطوة 2 (التطبيق):** ثم يبدأ بدمج هذه العناقيد الصغيرة تدريجياً حتى نصل إلى عنقود واحد كبير، وهذا المسار يسمى منهجية "من أسفل إلى أعلى" (Bottom-up).
**الخطوة 3 (النتيجة):** لذلك العبارة: **X خطأ**

سؤال س 1 :(5): 5. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتين دلالياً.

الإجابة: س 1 :(5) ✓ صح

خطوات الحل:

**الخطوة 1 (المفهوم):** نماذج SBERT هي نسخة مطورة من نماذج BERT، مصممة خصيصاً للتعامل مع تمثيلات الجمل الكاملة.
**الخطوة 2 (التطبيق):** يتم تدريب هذه النماذج باستخدام هياكل معينة (مثل شبكات السيامي) لتقليل المسافة بين الجمل المتشابهة دلالياً وزيادتها بين الجمل المختلفة.
**الخطوة 3 (النتيجة):** لذلك العبارة: **✓ صح**

سؤال س:2: استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.

الإجابة: س:2 تصوير البيانات (Visualization) وتمثيلات النصوص (TF-IDF/SBERT) لفهم التوزيع والعناقيد. س:2 تحسين أداء النماذج وتقليل وقت التدريب عبر تقنيات مثل PCA و Truncated SVD. س:2 إزالة الضوضاء واستخراج السمات الأهم (مثل استخدام Autoencoders).

خطوات الحل:

**الشرح:** تقليص الأبعاد هو عملية تقليل عدد المتغيرات العشوائية قيد النظر، وله تطبيقات حيوية في علوم البيانات. من أهم هذه التطبيقات "تصوير البيانات" (Visualization) حيث يصعب على البشر فهم البيانات في أبعاد تتجاوز الثلاثة، فنقوم بتقليصها إلى بُعدين أو ثلاثة لرؤية العناقيد والتوزيعات. كما يُستخدم لتحسين أداء النماذج وتقليل وقت التدريب عبر التخلص من الميزات غير الضرورية، بالإضافة إلى إزالة الضوضاء (Noise) من البيانات. أما بالنسبة للتقنيات المستخدمة، فنجد تقنية تحليل المكونات الرئيسية (PCA) التي تحول البيانات إلى مجموعة من القيم الخطية غير المرتبطة، وتقنية (Truncated SVD) الشائعة في معالجة النصوص، وأيضاً المشفرات التلقائية (Autoencoders) التي تعتمد على الشبكات العصبية لضغط البيانات واسترجاعها. إذن الإجابة تشمل: **تصوير البيانات، تحسين الأداء، وإزالة الضوضاء باستخدام تقنيات مثل PCA و SVD و Autoencoders.**

سؤال س:3: اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح-تكرار المستند العكسي (TF-IDF).

الإجابة: س:3 تحويل النص لتمثيلات رقمية TF (تكرار المصطلح) يقيس أهمية الكلمة في المستند. س:3 IDF (تكرار المستند العكسي) يقلل وزن الكلمات الشائعة. المعادلة: TF-IDF = TF * IDF. س:3 يُستخدم في حساب تشابه النصوص، استرجاع المعلومات، والتصنيف.

خطوات الحل:

**الشرح:** تعمل تقنية TF-IDF على قياس أهمية الكلمة بالنسبة لمستند معين ضمن مجموعة من المستندات. الوظيفة الأولى هي حساب (TF) أو تكرار المصطلح، وهو يقيس مدى تكرار الكلمة في المستند الواحد؛ فكلما زاد التكرار زادت الأهمية. الوظيفة الثانية هي حساب (IDF) أو تكرار المستند العكسي، وهو يقلل من قيمة الكلمات الشائعة جداً (مثل حروف الجر) التي تظهر في معظم المستندات ولا تعطي تميزاً للمحتوى. من خلال دمج هذين المقياسين في المعادلة: $$TF-IDF = TF \times IDF$$ نحصل على تمثيل رقمي دقيق يُستخدم في محركات البحث لاسترجاع المعلومات، وفي تصنيف النصوص، وحساب مدى التشابه بين الوثائق المختلفة. إذن الوظائف الأساسية هي: **تحويل النص لتمثيلات رقمية، تقييم أهمية الكلمات، وتقليل أثر الكلمات الشائعة لتحسين البحث والتصنيف.**

📝 أسئلة اختبارية

عدد الأسئلة: 8

سؤال 1: في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.

الإجابة الصحيحة: خطأ

الشرح: التعلم غير الموجه يستخدم بيانات غير معنونة (غير مصنفة)، بينما التعلم الموجه هو الذي يستخدم بيانات معنونة.

تلميح: تذكر الفرق بين التعلم الموجه وغير الموجه

سؤال 1: يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.

الإجابة الصحيحة: خطأ

الشرح: التعلم غير الموجه لا يتطلب بالضرورة البرمجة الاتجاهية، حيث يمكن استخدامه على البيانات الخام، لكن البرمجة الاتجاهية قد تحسن الأداء.

تلميح: فكر في متطلبات التعلم غير الموجه الأساسية

سؤال 1: حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:

الإجابة الصحيحة: انظر الأسئلة الفرعية

الشرح: هذا سؤال رئيسي يحتوي على أسئلة فرعية من نوع صح/خطأ

تلميح: راجع كل جملة على حدة لتحديد صحتها بناءً على مفاهيم التعلم غير الموجه والبرمجة الاتجاهية

سؤال 2: استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.

أ) تطبيقات: التعرف على الصور، تقنيات: PCA وt-SNE
ب) تطبيقات: تحليل النصوص فقط، تقنيات: TF-IDF
ج) تطبيقات: الألعاب الإلكترونية، تقنيات: الشبكات العصبية
د) تطبيقات: قواعد البيانات العلائقية، تقنيات: SQL

الإجابة الصحيحة: تطبيقات تقليص الأبعاد تشمل: 1) معالجة الصور (مثل PCA للتعرف على الوجوه)، 2) معالجة النصوص (مثل LSA أو t-SNE للتصور)، 3) البيانات الكبيرة (مثل تقليل أبعاد الميزات لتحسين الأداء). التقنيات تشمل: PCA (تحليل المكونات الرئيسية)، t-SNE (تضمين الجوار العشوائي t)، LDA (تحليل التمييز الخطي).

الشرح: تقليص الأبعاد يُستخدم لتبسيط البيانات مع الحفاظ على المعلومات المهمة، ويطبق في مجالات مثل الرؤية الحاسوبية ومعالجة اللغة الطبيعية.

تلميح: فكر في مجالات مثل الذكاء الاصطناعي وتحليل البيانات

سؤال 3: اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF).

أ) وظائف: تحويل النصوص إلى أرقام باستخدام TF للتكرار وIDF للأهمية
ب) وظائف: ترجمة النصوص فقط، لا علاقة لها بالتكرار
ج) وظائف: ضغط البيانات لتقليل الحجم
د) وظائف: تصنيف المستندات تلقائياً دون تحليل

الإجابة الصحيحة: وظائف TF-IDF: 1) TF (تكرار المصطلح) يقيس مدى تكرار مصطلح في مستند معين، 2) IDF (تكرار المستند العكسي) يقيس أهمية المصطلح عبر مجموعة المستندات، بحيث يعطي وزنًا أعلى للمصطلحات النادرة. البرمجة الاتجاهية تستخدم TF-IDF لتحويل النصوص إلى تمثيلات رقمية قابلة للتحليل.

الشرح: TF-IDF يجمع بين التكرار المحلي (TF) والعالمي (IDF) لتمثيل الكلمات بشكل فعال في معالجة النصوص.

تلميح: ركز على مكونات TF وIDF وكيفية حسابهما

سؤال 1: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.

الإجابة الصحيحة: صحيح

الشرح: SBERT يعطي تمثيلات دلالية أفضل من TF-IDF لأنه يأخذ في الاعتبار سياق الكلمات والعلاقات بينها، مما يحسن نتائج التجميع كما ورد في النص.

تلميح: راجع نتائج التجميع المذكورة في النص السابق

سؤال 1: يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.

الإجابة الصحيحة: خطأ

الشرح: التجميع التكتلي يتبع منهجية من أسفل إلى أعلى (تجميعية)، حيث يبدأ بكل نقطة كعنقود منفصل ثم يدمجها تدريجياً.

تلميح: تذكر خوارزميات التجميع التكتلي مثل AgglomerativeClustering

سؤال 1: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتان دلالياً.

الإجابة الصحيحة: صحيح

الشرح: SBERT مُدرب على مهام فهم الجمل، بما في ذلك التنبؤ بالتشابه الدلالي بين الجمل، مما يجعله فعالاً في تمثيل النصوص.

تلميح: فكر في مهام تدريب نماذج المحولات مثل BERT

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

في أي نوع من أنواع التعلم الآلي تُستخدم مجموعات البيانات المعنونة لتدريب النموذج؟

الإجابة: في التعلم الموجه (Supervised Learning) تُستخدم مجموعات البيانات المعنونة لتدريب النموذج.

الشرح: التعلم الموجه يعتمد على بيانات تحتوي على مدخلات ومخرجاتها الصحيحة (معنونة) لتعليم النموذج كيفية التنبؤ بالمخرجات لبيانات جديدة. التعلم غير الموجه يتعامل مع بيانات غير معنونة.

تلميح: فكر في نوع التعلم الذي يعتمد على وجود 'إجابات صحيحة' معروفة مسبقاً.

ما هي التقنية التي تتطلب البرمجة الاتجاهية للبيانات في سياق التعلم الآلي؟

الإجابة: عادةً ما يرتبط التعلم غير الموجه (Unsupervised Learning) بالتعامل مع بيانات غير معنونة، وقد يتطلب طرقًا مختلفة للبرمجة الاتجاهية للبيانات مقارنة بالتعلم الموجه الذي قد يعتمد على توجيه صريح.

الشرح: التعلم غير الموجه يبحث عن أنماط وهياكل مخفية في البيانات دون وجود تصنيفات مسبقة. هذا قد يتطلب تحليلاً وتوجيهاً مختلفًا للبيانات.

تلميح: ابحث عن نوع التعلم الذي لا يعتمد على إجابات محددة مسبقًا.

بين تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) وتقنية تكرار المصطلح - تكرار المستند العكسي (TF-IDF) من حيث فعاليتهما في البرمجة الاتجاهية للكلمات.

الإجابة: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات لأن SBERT تأخذ في الاعتبار سياق الكلمات والجمل بشكل أعمق، مما يؤدي إلى تمثيلات دلالية أغنى مقارنة بـ TF-IDF الذي يعتمد على تكرار الكلمات فقط.

الشرح: TF-IDF يقيس أهمية الكلمة في مستند بالنسبة لمجموعة المستندات، لكنه يتجاهل ترتيب الكلمات وسياقها. SBERT، كونه يعتمد على المحولات، يمكنه فهم العلاقات الدلالية بين الكلمات والجمل بشكل أفضل.

تلميح: فكّر في أي من التقنيتين تلتقط معنى الجملة ككل وليس فقط تكرار الكلمات الفردية.

ما هي المنهجية التي يتبعها التجميع التكتلي (Clustering) في تحديد العناقيد؟

الإجابة: يتبع التجميع التكتلي منهجية 'التصميم من الأسفل إلى الأعلى' (Bottom-Up) أو 'التصميم من الأعلى إلى الأسفل' (Top-Down) لتحديد العناقيد. (الجملة في التمرين تشير إلى 'أعلى إلى أسفل'، مما قد يتطلب تحديد طبيعة التمرين في سياق أوسع لتأكيد صحتها أو خطئها بشكل قطعي.)

الشرح: هناك طريقتان رئيسيتان للتجميع: التجميع التكتلي التراكمي (Agglomerative Clustering) الذي يبدأ بكل نقطة كعنقود ثم يدمجها (من الأسفل إلى الأعلى)، والتجميع التكتلي التقسيمي (Divisive Clustering) الذي يبدأ بكل البيانات كعنقود واحد ثم يقسمها (من الأعلى إلى الأسفل).

تلميح: هل يبدأ التجميع بتجميع النقاط الصغيرة معًا، أم بتقسيم البيانات الكبيرة؟

ما هو الهدف من تدريب تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)؟

الإجابة: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بمدى التشابه الدلالي بين جملتين، وليس بالضرورة التنبؤ بما إذا كانت جملتين مختلفتين دلالياً بشكل صارم، بل لقياس درجة التشابه أو الاختلاف.

الشرح: SBERT تم تدريبه بطرق تجعله جيدًا في إنتاج متجهات تمثل معاني الجمل، مما يسمح بقياس التشابه الدلالي بينها. هذا يتجاوز مجرد التنبؤ بالاختلاف، ويركز على قياس مدى القرب أو البعد الدلالي.

تلميح: فكر في كيف يمكن لنموذج أن يقارن بين معاني جملتين.