تحليل تضمينات الكلمات - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تقدم هذه الصفحة درسًا حول تحليل تضمينات الكلمات في نماذج معالجة اللغة الطبيعية. يبدأ الدرس بمثال عملي يوضح الأبعاد العشرة الأولى للتضمين العددي لكلمة 'fox'، مما يشرح كيفية تمثيل الكلمات كمتجهات رقمية في فضاء متعدد الأبعاد.

يتناول الدرس بعد ذلك تقييم درجة التشابه بين الكلمات باستخدام تضمينات الكلمات، مع تقديم مثال يوضح مقارنة كلمة 'car' مع كلمات أخرى مثل 'minivan' و'bicycle' و'airplane' و'street' و'apple'، حيث تظهر قيم التشابه تناقصًا يعكس العلاقات الدلالية بين الكلمات.

يشرح الدرس أيضًا كيفية العثور على الكلمات المشابهة لكلمة معينة باستخدام مقطع برمجي، مع مثال لكلمة 'apple' التي تُظهر كلمات مثل 'apples' و'pear' و'fruit' كأكثر الكلمات تشابهًا. أخيرًا، يذكر الدرس استخدام التصوير، مثل تقنية T-SNE، للتحقق من صحة تضمينات النماذج المدربة مسبقًا عن طريق تخفيض الأبعاد وعرضها في مخططات ثنائية الأبعاد.

📄 النص الكامل للصفحة

الأبعاد العشرة الأولى للتضمين العددي لكلمة fox (ثعلب) موضحة بالأسفل:fox_emb[:10]array([-0.08203125, -0.01379395, -0.3125 , -0.04125977, 0.05493164,
-0.12988281, -0.10107422, -0.00164795, 0.15917969, 0.12402344],
dtype=float32)يُستخدم النموذج تضمينات الكلمات لتقييم درجة التشابه. فكر في المثال التالي حيث تظهر المقارنة بين كلمة car (السيارة) والكلمات الأخرى درجة التشابه من خلال تناقص قيم التشابه. علمًا بأن قيم التشابه تقع دوماً بين 0 و 1.pairs = [
('car', 'minivan'),
('car', 'bicycle'),
('car', 'airplane'),
('car', 'street'),
('car', 'apple'),
]
for w1, w2 in pairs:
print(w1, w2, model_wv.similarity(w1, w2))car minivan 0.69070363
car bicycle 0.5364484
car airplane 0.42435578
car street 0.33141237
car apple 0.12830706يُمكن استخدام المقطع البرمجي التالي للعثور على الكلمات الخمسة المشابهة لإحدى الكلمات:print(model_wv.most_similar(positive=['apple'], topn=5))[('apples', 0.720359742641449), ('pear', 0.6450697183609009), ('fruit', 0.6410146355628967), ('berry', 0.6302295327186584), ('pears',
0.613396167755127)]يُمكن استخدام التصوير في التحقق من صحة تضمينات هذا النموذج المدرب مسبقًا. ويُمكن تحقيق ذلك عبر:
• تحديد نماذج الكلمات من مجموعة بيانات هيئة الإذاعة البريطانية.
• استخدام تضمين المجاور العشوائي الموزع على شكل T (T-SNE) لتخفيض التضمين ذي الـ 300 بعد لكل كلمة إلى نقطة ثنائية الأبعاد.
• تصوير النقاط في مخطط الانتشار في الفضاء ثنائي الأبعاد.2025 - 1447

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هي الوظيفة الأساسية للدالة `model_wv.most_similar(positive=['apple'], topn=5)`؟

الإجابة: تُستخدم هذه الدالة للعثور على الكلمات الخمس الأكثر تشابهاً مع كلمة 'apple' (تفاحة) بناءً على تضمينات الكلمات في النموذج.

الشرح: تأخذ الدالة قائمة بالكلمات الإيجابية (في هذه الحالة 'apple') وتُرجع قائمة بالكلمات الأكثر ارتباطاً بها دلالياً، مع تحديد العدد الأقصى للنتائج المطلوبة (`topn`).

تلميح: إذا أردت أن تجد الأشياء التي تشبه التفاح، بماذا ستبدأ؟

ما هو الهدف الرئيسي من استخدام تضمينات الكلمات (Word Embeddings) في نماذج الذكاء الاصطناعي؟

الإجابة: تُستخدم تضمينات الكلمات لتقييم درجة التشابه بين الكلمات، مما يسمح بفهم العلاقات الدلالية بينها.

الشرح: تُحول تضمينات الكلمات الكلمات إلى متجهات رقمية في فضاء متعدد الأبعاد، حيث تكون الكلمات ذات المعاني المتشابهة قريبة من بعضها البعض. وهذا ما يسمح بقياس درجة التشابه بينها.

تلميح: فكر في كيفية تمثيل الكلمات كأرقام وكيف يساعد ذلك في قياس مدى قربها من بعضها البعض.

ما هي طبيعة قيم التشابه بين الكلمات في نماذج تضمينات الكلمات؟

الإجابة: تقع قيم التشابه دائماً بين 0 و 1، حيث تشير القيمة الأقرب إلى 1 إلى درجة تشابه أعلى.

الشرح: تمثل قيم التشابه احتمالية أو درجة تطابق، ولهذا فهي محصورة بين القيمة الدنيا 0 (لا يوجد تشابه) والقيمة القصوى 1 (تشابه تام).

تلميح: ما هو المدى الذي تتراوح فيه النسب المئوية أو الاحتمالات؟

كيف يمكن استخدام المقطع البرمجي `model_wv.similarity(w1, w2)`؟

الإجابة: يُستخدم لحساب وقياس درجة التشابه بين كلمتين معينتين (`w1` و `w2`) باستخدام نموذج تضمينات الكلمات المدرب مسبقًا (`model_wv`).

الشرح: هذا المقطع البرمجي هو دالة برمجية ضمن مكتبات تعلم الآلة تسمح بمقارنة المتجهات التي تمثل الكلمات، وبالتالي تحديد مدى تشابه معانيها.

تلميح: ماذا يعني مصطلح 'similarity' (تشابه) في سياق معالجة اللغات الطبيعية؟

ما هي الخطوات الرئيسية المستخدمة في التحقق من صحة نماذج تضمينات الكلمات باستخدام التصوير؟

الإجابة: تتضمن الخطوات تحديد نماذج الكلمات، استخدام تقنية T-SNE لخفض الأبعاد، ثم تصوير النقاط الناتجة في مخطط انتشار ثنائي الأبعاد.

الشرح: تُعتبر تقنية T-SNE (t-Distributed Stochastic Neighbor Embedding) أداة لتقليل الأبعاد تهدف إلى الحفاظ على البنية المحلية للبيانات، مما يجعلها مناسبة لتصوير تضمينات الكلمات عالية الأبعاد في فضاء ثنائي أو ثلاثي الأبعاد.

تلميح: كيف يمكننا تحويل بيانات معقدة (عالية الأبعاد) إلى شيء يمكننا رؤيته وفهمه بسهولة؟