ملخص صفحة التمارين
تمرينات
1. حدد الجملة الصحيحة والجملة الخاطئة فيما يلي:
1.1. في التعلم غير الموجه تستخدم مجموعات البيانات المعنونة لتدريب النموذج.
* الخيارات: صحيحة / خاطئة
* التحليل: التعلم غير الموجه (Unsupervised Learning) يعمل على البيانات غير المعنونة (unlabeled data) لاكتشاف الأنماط والهياكل المخفية فيها. استخدام البيانات المعنونة هو سمة التعلم الموجه (Supervised Learning).
* الإجابة الصحيحة: خاطئة
1.2. يتطلب التعلم غير الموجه البرمجة الاتجاهية للبيانات.
* الخيارات: صحيحة / خاطئة
* التحليل: البرمجة الاتجاهية (Vectorization) هي عملية تحويل البيانات النصية أو الفئوية إلى تمثيل رقمي (متجهات) يمكن للخوارزميات الرياضية معالجته. معظم خوارزميات التعلم الآلي، بما في ذلك خوارزميات التجميع في التعلم غير الموجه، تتطلب بيانات في صورة رقمية، وبالتالي تحتاج إلى برمجة اتجاهية.
* الإجابة الصحيحة: صحيحة
1.3. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تُعد أفضل من تكرار المصطلح - تكرار المستند العكسي (TF-IDF) للبرمجة الاتجاهية للكلمات.
* الخيارات: صحيحة / خاطئة
* التحليل: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مصممة لتمثيل الجمل والفقرات (أجزاء نصية كاملة) وليس الكلمات الفردية. نموذج مثل Word2Vec هو الأكثر شيوعًا لبرمجة الكلمات اتجاهيًا. لذلك، المقارنة مع TF-IDF في سياق برمجة الكلمات غير دقيقة.
* الإجابة الصحيحة: خاطئة
1.4. يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.
* الخيارات: صحيحة / خاطئة
* التحليل: التجميع التكتلي (Agglomerative Clustering) هو نوع من التجميع الهرمي التصاعدي (bottom-up)، حيث يبدأ كل عنصر بيانات في عنقود منفرد، ثم يتم دمج العناقيد الأكثر تشابهًا تدريجيًا حتى الوصول إلى العدد المطلوب من العناقيد. منهجية "أعلى إلى أسفل" (top-down) هي سمة التجميع التقسيمي (Partitioning).
* الإجابة الصحيحة: خاطئة
1.5. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتين دلالياً.
* الخيارات: صحيحة / خاطئة
* التحليل: تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة على مهمة التنبؤ بتشابه الجمل (Sentence Similarity)، أي تحديد ما إذا كانت جملتان متشابهتين دلاليًا أم لا، وليس مختلفتين.
* الإجابة الصحيحة: خاطئة
2. استعرض بعض التطبيقات التي يستخدم فيها تقليص الأبعاد، وصف التقنيات المستخدمة فيه.
هذا سؤال مفتوح يتطلب من الطالب استدعاء معرفته السابقة. الإجابة النموذجية تشمل:
* التطبيقات:
* تصور البيانات: عرض البيانات عالية الأبعاد في فضاء ثنائي أو ثلاثي الأبعاد لفهم بنيتها (مثل استخدام PCA أو t-SNE).
* معالجة الصور والرؤية الحاسوبية: تقليل أبعاد بيانات البكسل للتعرف على الوجوه أو الأشياء.
* معالجة اللغة الطبيعية: تقليل أبعاد مصفوفات الكلمات-المستندات الكبيرة (مثل استخدام SVD أو LDA).
* تحسين أداء نموذج التعلم الآلي: إزالة السمات الزائدة عن الحاجة أو المترابطة لتسريع التدريب وتجنب الإفراط في التخصيص (Overfitting).
* التقنيات: تقنيات تقليص الأبعاد الخطية (مثل تحليل المكونات الرئيسية PCA، وتحليل القيم المفردة SVD) وغير الخطية (مثل تضمين الجار العشوائي الموزع على شكل T t-SNE، والتضمين متعدد الأبعاد MDS).
3. اشرح وظائف البرمجة الاتجاهية لقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF).
وظيفة قياس TF-IDF في البرمجة الاتجاهية للنصوص هي تحويل كل مستند نصي إلى متجه رقمي يعكس أهمية كل كلمة (مصطلح) داخل ذلك المستند بالنسبة لمجموعة المستندات بأكملها (المجموعة). يعمل من خلال دليلين:
تكرار المصطلح (TF): يقيس عدد مرات ظهور كلمة في مستند معين. يعطي وزنًا أعلى للكلمات الأكثر تكرارًا في ذلك المستند.
تكرار المستند العكسي (IDF): يقيس مدى ندرة أو شيوع الكلمة عبر جميع المستندات في المجموعة. يعطي وزنًا أعلى للكلمات النادرة (التي تظهر في عدد قليل من المستندات) لأنها أكثر تمييزًا.
النتيجة النهائية (TF * IDF) هي متجه لكل مستند، حيث تكون قيمة كل عنصر (كلمة) مرتفعة إذا كانت الكلمة شائعة في ذلك المستند المحدد ولكنها غير شائعة في المستندات الأخرى، مما يجعلها كلمة مميزة وذات دلالة قوية.
س: 4- يتبع التجميع التكتلي منهجية التصميم من أعلى إلى أسفل لتحديد العناقيد.
ج: العبارة خاطئة. التجميع التكتلي (K-Means Clustering) هو خوارزمية تعلم غير خاضع للإشراف تتبع منهجية من أسفل إلى أعلى (Bottom-up) أو ما يُعرف بالتجميع التراكمي. تبدأ الخوارزمية بتعيين نقاط البيانات عشوائيًا إلى عناقيد أولية، ثم تقوم بتكراريًا بإعادة حساب مراكز العناقيد وإعادة تعيين النقاط إلى أقرب مركز، بهدف تقليل التباين داخل كل عنقود. منهجية "من أعلى إلى أسفل" (Top-down) هي منهجية مختلفة تُستخدم في خوارزميات أخرى مثل التجميع التقسيمي (Divisive Clustering).
---
س: 5- تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مُدربة للتنبؤ بما إذا كانت جملتان مختلفتان دلالياً.
ج: العبارة صحيحة. تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (Sentence-BERT أو SBERT) هي تعديل على نموذج BERT مُصمم خصيصًا لاشتقاق تمثيلات متجهية ذات دلالة للجمل بأكملها. يتم تدريب SBERT باستخدام أهداف مثل التصنيف الثلاثي (Triplet Loss) أو التصنيف الزوجي (Siamese Network) على مهام مثل استنتاج اللغة الطبيعية (NLI)، حيث يتعلم النموذج تحديد ما إذا كانت زوج من الجمل متطابقة، متناقضة، أو محايدة (غير مترابطة) من الناحية الدلالية. هذا يسمح له بإنشاء تمثيلات متجهية تحافظ على المعنى الدلالي، مما يجعلها فعالة في مهام مثل البحث الدلالي وتجميع النصوص.