البرمجة الاتجاهية للكلمات باستخدام الشبكات العصبية

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة موضوع البرمجة الاتجاهية للكلمات باستخدام الشبكات العصبية، مع التركيز على نموذج Word2Vec كحل للقيود في الطرائق التقليدية المستندة إلى التكرار.

تشرح الصفحة أولاً القيود الكبيرة في البرمجة الاتجاهية التقليدية التي تعتمد على حساب تكرار الكلمات، حيث تتجاهل هذه الطرق العلاقة الدلالية بين الكلمات. على سبيل المثال، لا تتعرف على الترادف بين كلمات مثل 'رحلة' و'نزهة'، ولا تأخذ في الاعتبار العلاقات الدلالية مثل أن 'تفاحة' نوع من 'فاكهة'.

ثم تقدم الصفحة نموذج Word2Vec كحل لهذه المشكلات، حيث يستخدم هذا النموذج الشبكات العصبية لتعلم التضمينات الكلامية التي تأخذ بعين الاعتبار التشابه الدلالي بين الكلمات. يعتمد Word2Vec على فكرة أن الكلمات المتشابهة دلاليًا تحاط بكلمات مماثلة في السياق نفسه.

تتضمن الصفحة أيضًا شرحًا للكلمات المستبعدة (Stopwords) التي تستبعد أثناء المعالجة المسبقة للنصوص، وتعريفًا للتضمين (Embedding) الذي يعبر عن الكلمات في فضاء المتجه المستمر. كما تقدم مثالاً عمليًا باستخدام مكتبة جينسيم لتحميل نموذج Word2Vec مدرب مسبقًا على مجموعة أخبار جوجل.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

البرمجة الاتجاهية للكلمات باستخدام الشبكات العصبية

Word Vectorization with Neural Networks

نوع: محتوى تعليمي

Word Vectorization with Neural Networks

نوع: محتوى تعليمي

تستند إلى حساب تكرار الكلمات ومعالجتها عبر المستندات في مجموعة البيانات. بالرغم من أن هذا يحقق نتائج جيدة، إلا أن القيود الكبيرة تعيق الطرائق المستندة إلى التكرار. فهي تتجاهل تمامًا العلاقة الدلالية بين الكلمات. على سبيل المثال، على الرغم من أن كلمتي (رحلة) journey و (نزهة) trip مترادفتان، إلا أن البرمجة الاتجاهية المستندة إلى التكرار ستتعامل معهما باعتبارهما كلمتان منفصلتان تمامًا ولهما خصائص مستقلة. وبالمثل، بالرغم من أن كلمتي apple (تفاحة) و fruit (فاكهة) مترابطتان دلاليًا؛ لأن التفاح نوع من الفاكهة إلا أن ذلك لن يؤخذ بعين الاعتبار أيضًا.

نوع: محتوى تعليمي

تؤثر هذه القيود كثيرًا على التطبيقات التي تستخدم هذا النوع من البرمجة الاتجاهية. فكر في الجملتين التاليتين:
• لدي حمى شديدة، ويجب علي زيارة الطبيب. (I have a very high fever, so I have to visit a doctor)
• ارتفعت درجة حرارة جسمي كثيرًا، ويجب علي زيارة أخصائي الرعاية الصحية. (My body temperature has risen significantly, so I need to see a healthcare professional)
بالرغم من أن الجملتين تصفان الحالة نفسها إلا أنهما لا تتشاركان أي كلمات دلالية. ولذلك، ستفشل خوارزميات التجميع المستندة إلى تكرار المصطلح تكرار المستند العكسي (TF-IDF) أو أي برمجة اتجاهية (تستند إلى التكرار) في رؤية التشابه بين الكلمات، ومن المحتمل ألا تضعها في نفس العنقود.

نموذج الكلمة إلى المتجه Word2Vec

نوع: محتوى تعليمي

نموذج الكلمة إلى المتجه Word2Vec

نوع: محتوى تعليمي

يمكن معالجة هذه القيود بالطرائق التي تأخذ بعين الاعتبار التشابه الدلالي بين الكلمات. إحدى الطرائق الشهيرة المتبعة في هذا الصدد هي نموذج الكلمة إلى المتجه (Word2Vec) التي تستخدم بنية تستند إلى الشبكات العصبية. يستند نموذج الكلمة إلى المتجه (Word2Vec) إلى فكرة أن الكلمات المتشابهة دلاليًا تحاط بكلمات مماثلة في السياق نفسه. ولذلك، نجد الشبكات العصبية تستخدم التضمين الخفي لكل كلمة للتنبؤ بالسياق، مع ضرورة إنشاء الروابط بين الكلمات والتضمينات الشبيهة. عمليًا، يخضع نموذج الكلمة إلى المتجه (Word2Vec) للتدريب المسبق على ملايين المستندات لتعلم التضمين عالي الدقة للكلمات. يمكن تحميل النماذج المدربة مسبقًا واستخدامها في التطبيقات المستندة إلى النصوص. يستخدم المقطع البرمجي التالي مكتبة جينسيم (Gensim) لتحميل نموذج مدرب مسبقًا على مجموعة كبيرة جدًا من أخبار قوقل (Google News):

الكلمات المستبعدة (Stopwords):

نوع: تعريف

الكلمات المستبعدة هي كلمات شائعة في اللغات تستبعد عادة أثناء المعالجة المسبقة للنصوص ضمن مهام معالجة اللغات الطبيعية (NPL) مثل البرمجة الاتجاهية للكلمات. هذه الكلمات تشمل أدوات التعريف، وحروف العطف، وحروف الجر، والكلمات التي لا تكون مفيدة لتحديد معنى النص، أو سياقه.

التضمين (Embedding):

نوع: تعريف

التضمين يعبر عن الكلمات أو الرموز في فضاء المتجه المستمر حيث ترتبط الكلمات المتشابهة دلاليًا مع النقاط القريبة.

نوع: محتوى تعليمي

import gensim.downloader as api
model_wv = api.load('word2vec-google-news-300')
fox_emb=model_wv['fox']
print(len(fox_emb))

نوع: محتوى تعليمي

300

نوع: محتوى تعليمي

هذا النموذج يربط كل كلمة بتضمين مكون من 300 بعد.

نوع: METADATA

وزارة التعليم
Ministry of Education
163
2025 - 1447

🔍 عناصر مرئية

Python Code Snippet for Word2Vec

A Python code snippet demonstrating how to load a pre-trained Word2Vec model using the gensim library. It loads the 'word2vec-google-news-300' model, extracts the embedding vector for the word 'fox', and then prints the length (dimension) of this embedding.

Word Embedding Dimension Illustration

A diagram showing an arrow originating from the numerical output '300' (from the code snippet) and pointing to a blue text box. The text box explains that 'This model links each word to an embedding composed of 300 dimensions.'

📄 النص الكامل للصفحة

البرمجة الاتجاهية للكلمات باستخدام الشبكات العصبية--- SECTION: Word Vectorization with Neural Networks ---
Word Vectorization with Neural Networksتستند إلى حساب تكرار الكلمات ومعالجتها عبر المستندات في مجموعة البيانات. بالرغم من أن هذا يحقق نتائج جيدة، إلا أن القيود الكبيرة تعيق الطرائق المستندة إلى التكرار. فهي تتجاهل تمامًا العلاقة الدلالية بين الكلمات. على سبيل المثال، على الرغم من أن كلمتي (رحلة) journey و (نزهة) trip مترادفتان، إلا أن البرمجة الاتجاهية المستندة إلى التكرار ستتعامل معهما باعتبارهما كلمتان منفصلتان تمامًا ولهما خصائص مستقلة. وبالمثل، بالرغم من أن كلمتي apple (تفاحة) و fruit (فاكهة) مترابطتان دلاليًا؛ لأن التفاح نوع من الفاكهة إلا أن ذلك لن يؤخذ بعين الاعتبار أيضًا.تؤثر هذه القيود كثيرًا على التطبيقات التي تستخدم هذا النوع من البرمجة الاتجاهية. فكر في الجملتين التاليتين:
• لدي حمى شديدة، ويجب علي زيارة الطبيب. (I have a very high fever, so I have to visit a doctor)
• ارتفعت درجة حرارة جسمي كثيرًا، ويجب علي زيارة أخصائي الرعاية الصحية. (My body temperature has risen significantly, so I need to see a healthcare professional)
بالرغم من أن الجملتين تصفان الحالة نفسها إلا أنهما لا تتشاركان أي كلمات دلالية. ولذلك، ستفشل خوارزميات التجميع المستندة إلى تكرار المصطلح تكرار المستند العكسي (TF-IDF) أو أي برمجة اتجاهية (تستند إلى التكرار) في رؤية التشابه بين الكلمات، ومن المحتمل ألا تضعها في نفس العنقود.--- SECTION: نموذج الكلمة إلى المتجه Word2Vec --- نموذج الكلمة إلى المتجه Word2Vecيمكن معالجة هذه القيود بالطرائق التي تأخذ بعين الاعتبار التشابه الدلالي بين الكلمات. إحدى الطرائق الشهيرة المتبعة في هذا الصدد هي نموذج الكلمة إلى المتجه (Word2Vec) التي تستخدم بنية تستند إلى الشبكات العصبية. يستند نموذج الكلمة إلى المتجه (Word2Vec) إلى فكرة أن الكلمات المتشابهة دلاليًا تحاط بكلمات مماثلة في السياق نفسه. ولذلك، نجد الشبكات العصبية تستخدم التضمين الخفي لكل كلمة للتنبؤ بالسياق، مع ضرورة إنشاء الروابط بين الكلمات والتضمينات الشبيهة. عمليًا، يخضع نموذج الكلمة إلى المتجه (Word2Vec) للتدريب المسبق على ملايين المستندات لتعلم التضمين عالي الدقة للكلمات. يمكن تحميل النماذج المدربة مسبقًا واستخدامها في التطبيقات المستندة إلى النصوص. يستخدم المقطع البرمجي التالي مكتبة جينسيم (Gensim) لتحميل نموذج مدرب مسبقًا على مجموعة كبيرة جدًا من أخبار قوقل (Google News):--- SECTION: الكلمات المستبعدة (Stopwords): --- الكلمات المستبعدة هي كلمات شائعة في اللغات تستبعد عادة أثناء المعالجة المسبقة للنصوص ضمن مهام معالجة اللغات الطبيعية (NPL) مثل البرمجة الاتجاهية للكلمات. هذه الكلمات تشمل أدوات التعريف، وحروف العطف، وحروف الجر، والكلمات التي لا تكون مفيدة لتحديد معنى النص، أو سياقه.--- SECTION: التضمين (Embedding): --- التضمين يعبر عن الكلمات أو الرموز في فضاء المتجه المستمر حيث ترتبط الكلمات المتشابهة دلاليًا مع النقاط القريبة.import gensim.downloader as api model_wv = api.load('word2vec-google-news-300')
fox_emb=model_wv['fox']
print(len(fox_emb))هذا النموذج يربط كل كلمة بتضمين مكون من 300 بعد.2025 - 1447--- VISUAL CONTEXT ---
**FIGURE**: Python Code Snippet for Word2Vec Description: A Python code snippet demonstrating how to load a pre-trained Word2Vec model using the gensim library. It loads the 'word2vec-google-news-300' model, extracts the embedding vector for the word 'fox', and then prints the length (dimension) of this embedding.
Key Values: import gensim.downloader as api, model_wv = api.load('word2vec-google-news-300'), fox_emb=model_wv['fox'], print(len(fox_emb))
Context: This code block provides a practical example of how to implement Word2Vec for obtaining word embeddings, illustrating the use of the gensim library and showing the output dimension of the embedding.**DIAGRAM**: Word Embedding Dimension Illustration Description: A diagram showing an arrow originating from the numerical output '300' (from the code snippet) and pointing to a blue text box. The text box explains that 'This model links each word to an embedding composed of 300 dimensions.'
Key Values: 300, هذا النموذج يربط كل كلمة بتضمين مكون من 300 بعد.
Context: This diagram visually connects the numerical output of the code (300) to the conceptual understanding of a word embedding having 300 dimensions, reinforcing the key characteristic of the Word2Vec model used.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هو القيد الرئيسي للطرق التقليدية في البرمجة الاتجاهية للكلمات (مثل TF-IDF) فيما يتعلق بالمعنى الدلالي للكلمات؟

الإجابة: تتجاهل الطرق التقليدية المستندة إلى التكرار تمامًا العلاقة الدلالية بين الكلمات، وتتعامل مع الكلمات المترادفة أو المترابطة دلاليًا ككلمات منفصلة تمامًا لا تحمل أي علاقة بينها.

الشرح: على سبيل المثال، لا يمكن لهذه الطرق اكتشاف أن كلمتي 'رحلة' و 'نزهة' مترادفتان، أو أن 'تفاحة' و 'فاكهة' مترابطتان دلاليًا.

تلميح: فكر في كيفية التعامل مع الكلمات المتشابهة في المعنى أو المرتبطة ببعضها البعض.

ما هي فكرة نموذج الكلمة إلى المتجه (Word2Vec) في معالجة قيود الطرق التقليدية؟

الإجابة: يستند Word2Vec إلى فكرة أن الكلمات المتشابهة دلاليًا غالبًا ما تظهر في سياقات متشابهة، وتستخدم الشبكات العصبية التضمين الخفي لكل كلمة للتنبؤ بسياقها، مما يخلق روابط بين الكلمات والتضمينات المتشابهة.

الشرح: من خلال تدريب الشبكة على التنبؤ بالكلمات المحيطة بكلمة معينة، تتعلم Word2Vec تمثيلات متجهة (تضمينات) تعكس المعنى الدلالي للكلمة.

تلميح: كيف يمكن للشبكات العصبية أن تربط الكلمات بناءً على استخدامها؟

ما هي فائدة استخدام نماذج Word2Vec المدربة مسبقًا؟

الإجابة: يمكن تحميل النماذج المدربة مسبقًا على مجموعات بيانات ضخمة (مثل أخبار جوجل) واستخدامها مباشرة في التطبيقات المستندة إلى النصوص، مما يوفر الوقت والموارد الحاسوبية اللازمة للتدريب من الصفر، وتوفر تضمينات عالية الدقة للكلمات.

الشرح: النماذج المدربة مسبقًا تقدم تمثيلات غنية ودقيقة للكلمات، مما يسمح بتطبيقات فعالة لمعالجة اللغات الطبيعية دون الحاجة إلى تدريب مكثف.

تلميح: ما الذي توفره النماذج التي تم تدريبها بالفعل على كميات هائلة من البيانات؟

ما هو المقصود بـ 'التضمين' (Embedding) في سياق معالجة اللغات الطبيعية؟

الإجابة: التضمين هو تمثيل للكلمات أو الرموز في فضاء متجهات مستمر، حيث ترتبط الكلمات المتشابهة دلاليًا بنقاط متقاربة في هذا الفضاء.

الشرح: تحول التضمينات الكلمات إلى متجهات عددية، مما يسمح لخوارزميات التعلم الآلي بمعالجتها وفهم العلاقات بينها.

تلميح: كيف يمكن تمثيل الكلمات بطريقة تلتقط معناها وعلاقاتها؟

كم عدد الأبعاد التي يتكون منها التضمين في نموذج Word2Vec المستخدم في المثال البرمجي (word2vec-google-news-300)؟

الإجابة: يتكون التضمين في هذا النموذج من 300 بعد.

الشرح: اسم النموذج 'word2vec-google-news-300' يشير مباشرة إلى عدد الأبعاد التي يتكون منها كل تضمين كلمة.

تلميح: انظر إلى اسم النموذج المستخدم في المقطع البرمجي.