توليد الصور بالشبكة التوليدية التنافسية (GANs) وتوليد الصور بالانتشار المستقر (Stable Diffusion) - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

الفصل: 4

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

تتناول هذه الصفحة تقنيتين رئيسيتين لتوليد الصور باستخدام الذكاء الاصطناعي: الشبكة التوليدية التنافسية (GANs) والانتشار المستقر (Stable Diffusion).

الشبكة التوليدية التنافسية (GANs) تتكون من مكونين رئيسيين: المولّد الذي يقوم بتوليد صور زائفة، والمميّز الذي يحاول تمييز الصور المولّدة من الصور الحقيقية. يتم تدريب هذين المكونين بشكل تنافسي حيث يحاول المولّد خداع المميّز بينما يحاول المميّز تحسين قدرته على اكتشاف الصور الزائفة. تتميز هذه التقنية بقدرتها على توليد صور عالية الجودة والواقعية، لكنها تواجه تحديات مثل عدم التقارب ونقص التنوع في المخرجات.

الانتشار المستقر (Stable Diffusion) هو نموذج تعلم عميق لتوليد الصور من النصوص، ويتكون من مرمّز النص الذي يحول المدخلات النصية إلى تضمينات رقمية، ومفكك الترميز المرئي الذي يستخدم هذه التضمينات لتوليد الصور. يتم تدريب النموذج بمقارنة الصور المولّدة بالصور الحقيقية وحساب الخسارة لتحديث متغيرات النموذج وتحسين الأداء.

تتضمن الصفحة أيضاً رسماً توضيحياً يوضح معمارية الشبكة التوليدية التنافسية وجدولاً يشرح خطوات تدريب نموذج الانتشار المستقر، مما يوفر فهماً شاملاً لهذه التقنيات المتقدمة في مجال توليد الصور بالذكاء الاصطناعي.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

توليد الصور بالشبكة التوليدية التنافسية (GANs)

نوع: محتوى تعليمي

توليد الصور بالشبكة التوليدية التنافسية (GANs)
Generating Images with Generative Adversarial Networks (GANs)

نوع: محتوى تعليمي

الشبكة التوليدية التنافسية هي فئة من النماذج التوليدية التي تتكون من مكونين رئيسيين وهما: المولّد (Generator) والمميّز (Discriminator). حيث يقوم المولّد بتوليد صور زائفة، بينما يحاول المميّز تمييز الصور المولّدة من الصور الحقيقية. ويدرّب هذان المكونان تدريباً تنافسياً، إذ يحاول المولّد أن "يخدع" المميّز، ويحاول المميّز أن يصبح أفضل في اكتشاف الصور الزائفة. تتمثل إحدى المزايا الرئيسية للشبكة التوليدية التنافسية في قدرتها على توليد صور عالية الجودة وواقعية يصعب تمييزها عن الصور الحقيقية، ولكن يوجد بها أيضاً بعض القيود مثل: عدم التقارب (Non-convergence) أو بعبارة أخرى، فشل شبكتي المولّد والمميّز في التحسن مع مرور الوقت، ونقص التنوع (Mode collapse) في المخرجات، حيث ينتج النموذج نفس المخرجات المتشابهة مراراً وتكراراً بغض النظر عن المدخلات.

نوع: محتوى تعليمي

يُطبق المولّد والمميّز في الشبكة التوليدية التنافسية في العادة باستخدام الشبكات العصبية الترشيحية (CNNs) أو أي معمارية مشابهة.

شكل 4.28: معمارية الشبكة التوليدية التنافسية

نوع: FIGURE_REFERENCE

شكل 4.28: معمارية الشبكة التوليدية التنافسية

توليد الصور بالانتشار المستقر (Stable Diffusion)

نوع: محتوى تعليمي

توليد الصور بالانتشار المستقر (Stable Diffusion)
Generating Images with Stable Diffusion

نوع: محتوى تعليمي

الانتشار المستقر هو نموذج تعلم عميق لتوليد صورة من نص، وتتكون هذه الطريقة من مكونين رئيسيين: مرمّز النص (Text Encoder) ومفكك الترميز المرئي (Visual Decoder). ويدرّب مرمّز النص ومفكك الترميز المرئي معاً على مجموعة بيانات مكونة من بيانات نصوص وبيانات صور مقترنة ببعضها؛ حيث يقترن كل مدخل نصي بصورة مقابلة أو أكثر. مرمّز النص هو شبكة عصبية تأخذ مدخلات نصية مثل: جملة أو فقرة وتحوّلها إلى تضمين (Embedding)، والتضمين هو متجه عددي له عدد ثابت من القيم، ويلتقط تمثيل التضمين هذا معنى النص المدخل. يتم استخدام نهج مشابه في نموذج الكلمة إلى المتجه (Word2Vec) ونموذج ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) اللذين تم توضيحهما في الوحدة الثالثة، حيث يولّدان تضمينات للكلمات والجمل الفردية على الترتيب. ويمرّر بعد ذلك تضمين النص (Text Embedding) الذي أنشأه مرمّز النص عبر مفكك الترميز المرئي لتوليد صورة. ومفكك الترميز المرئي هو أيضاً نوع من الشبكات العصبية وينفّذ عادةً باستخدام شبكة عصبية ترشيحية (CNN) أو معمارية مشابهة، وتُقارن الصورة المولّدة بالصورة الحقيقية المقابلة لها الموجودة في مجموعة البيانات، ويُستخدم الفرق بينهما لحساب الخسارة (Loss)، ثم تُستخدم الخسارة لتحديث متغيرات مرمّز النص ومفكك الترميز المرئي؛ لتقليل الاختلاف بين الصور التي ولّدت والصور الحقيقية.

جدول 4.4: عملية تدريب الانتشار المستقر

نوع: محتوى تعليمي

جدول 4.4: عملية تدريب الانتشار المستقر

نوع: METADATA

وزارة التعليم
239
2023 - 1447

🔍 عناصر مرئية

شكل 4.28: معمارية الشبكة التوليدية التنافسية

A flowchart diagram illustrating the architecture of a Generative Adversarial Network (GAN). It shows the interaction between a Generator and a Discriminator.

جدول 4.4: عملية تدريب الانتشار المستقر

A table outlining the five steps involved in the training process of a Stable Diffusion model.

📄 النص الكامل للصفحة

--- SECTION: توليد الصور بالشبكة التوليدية التنافسية (GANs) --- توليد الصور بالشبكة التوليدية التنافسية (GANs)
Generating Images with Generative Adversarial Networks (GANs)الشبكة التوليدية التنافسية هي فئة من النماذج التوليدية التي تتكون من مكونين رئيسيين وهما: المولّد (Generator) والمميّز (Discriminator). حيث يقوم المولّد بتوليد صور زائفة، بينما يحاول المميّز تمييز الصور المولّدة من الصور الحقيقية. ويدرّب هذان المكونان تدريباً تنافسياً، إذ يحاول المولّد أن "يخدع" المميّز، ويحاول المميّز أن يصبح أفضل في اكتشاف الصور الزائفة. تتمثل إحدى المزايا الرئيسية للشبكة التوليدية التنافسية في قدرتها على توليد صور عالية الجودة وواقعية يصعب تمييزها عن الصور الحقيقية، ولكن يوجد بها أيضاً بعض القيود مثل: عدم التقارب (Non-convergence) أو بعبارة أخرى، فشل شبكتي المولّد والمميّز في التحسن مع مرور الوقت، ونقص التنوع (Mode collapse) في المخرجات، حيث ينتج النموذج نفس المخرجات المتشابهة مراراً وتكراراً بغض النظر عن المدخلات.يُطبق المولّد والمميّز في الشبكة التوليدية التنافسية في العادة باستخدام الشبكات العصبية الترشيحية (CNNs) أو أي معمارية مشابهة.--- SECTION: شكل 4.28: معمارية الشبكة التوليدية التنافسية --- شكل 4.28: معمارية الشبكة التوليدية التنافسية--- SECTION: توليد الصور بالانتشار المستقر (Stable Diffusion) --- توليد الصور بالانتشار المستقر (Stable Diffusion)
Generating Images with Stable Diffusionالانتشار المستقر هو نموذج تعلم عميق لتوليد صورة من نص، وتتكون هذه الطريقة من مكونين رئيسيين: مرمّز النص (Text Encoder) ومفكك الترميز المرئي (Visual Decoder). ويدرّب مرمّز النص ومفكك الترميز المرئي معاً على مجموعة بيانات مكونة من بيانات نصوص وبيانات صور مقترنة ببعضها؛ حيث يقترن كل مدخل نصي بصورة مقابلة أو أكثر. مرمّز النص هو شبكة عصبية تأخذ مدخلات نصية مثل: جملة أو فقرة وتحوّلها إلى تضمين (Embedding)، والتضمين هو متجه عددي له عدد ثابت من القيم، ويلتقط تمثيل التضمين هذا معنى النص المدخل. يتم استخدام نهج مشابه في نموذج الكلمة إلى المتجه (Word2Vec) ونموذج ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) اللذين تم توضيحهما في الوحدة الثالثة، حيث يولّدان تضمينات للكلمات والجمل الفردية على الترتيب. ويمرّر بعد ذلك تضمين النص (Text Embedding) الذي أنشأه مرمّز النص عبر مفكك الترميز المرئي لتوليد صورة. ومفكك الترميز المرئي هو أيضاً نوع من الشبكات العصبية وينفّذ عادةً باستخدام شبكة عصبية ترشيحية (CNN) أو معمارية مشابهة، وتُقارن الصورة المولّدة بالصورة الحقيقية المقابلة لها الموجودة في مجموعة البيانات، ويُستخدم الفرق بينهما لحساب الخسارة (Loss)، ثم تُستخدم الخسارة لتحديث متغيرات مرمّز النص ومفكك الترميز المرئي؛ لتقليل الاختلاف بين الصور التي ولّدت والصور الحقيقية.--- SECTION: جدول 4.4: عملية تدريب الانتشار المستقر --- جدول 4.4: عملية تدريب الانتشار المستقر2023 - 1447--- VISUAL CONTEXT ---
**DIAGRAM**: شكل 4.28: معمارية الشبكة التوليدية التنافسية
Description: A flowchart diagram illustrating the architecture of a Generative Adversarial Network (GAN). It shows the interaction between a Generator and a Discriminator.
Data: The diagram starts with 'ضوضاء عشوائية' (Random Noise) feeding into 'المولّد' (Generator). The Generator produces 'صور زائفة' (Fake Images). Both 'صور زائفة' and 'صور حقيقية' (Real Images) feed into 'المميّز' (Discriminator). The Discriminator outputs 'عناوين تم التنبؤ بها' (Predicted Labels). A 'الخسارة' (Loss) component is shown, indicating the calculation of loss based on the Discriminator's output.
Key Values: ضوضاء عشوائية (Random Noise), المولّد (Generator), صور زائفة (Fake Images), صور حقيقية (Real Images), المميّز (Discriminator), عناوين تم التنبؤ بها (Predicted Labels), الخسارة (Loss)
Context: This diagram visually explains the components and data flow within a Generative Adversarial Network, a key concept in AI for image generation.**TABLE**: جدول 4.4: عملية تدريب الانتشار المستقر
Description: A table outlining the five steps involved in the training process of a Stable Diffusion model.
Table Structure:
Headers: N/A Rows:
Row 1: 1. مرّر المدخلات النصية عبر مرمّز النص للحصول على تضمين النص.
Row 2: 2. مرّر تضمين النص عبر مفكك الترميز المرئي لتوليد صورة.
Row 3: 3. احسب الخسارة (الاختلاف) بين الصورة المولّدة والصورة الحقيقية المقابلة لها الموجودة في مجموعة البيانات.
Row 4: 4. استخدم الخسارة لتحديث متغيرات مرمّز النص ومفكك الترميز المرئي، وعندما يكون المستوى عاليًا يتضمن ذلك مكافأة (Rewarding) الخلايا العصبية التي ساعدت على تقليل الخسارة ومعاقبة (Punishing) الخلايا العصبية التي ساهمت في زيادتها.
Row 5: 5. كرّر الخطوات المذكورة سابقًا مع أزواج متعددة من النصوص والصور في مجموعة البيانات.
Data: The table lists sequential steps for training Stable Diffusion, from text embedding to iterative updates based on loss calculation.
Context: This table provides a step-by-step guide to understanding the training methodology for Stable Diffusion models, detailing the process from input to model optimization.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هي المكونات الرئيسية للشبكة التوليدية التنافسية (GANs) وكيف تعمل معًا؟

الإجابة: تتكون الشبكة التوليدية التنافسية (GANs) من مكونين رئيسيين: المولّد (Generator) والمميّز (Discriminator). يقوم المولّد بتوليد صور زائفة، بينما يحاول المميّز تمييز الصور المولّدة من الصور الحقيقية. يتم تدريبهما تدريباً تنافسياً، حيث يحاول المولّد خداع المميّز، ويحاول المميّز اكتشاف الصور الزائفة.

الشرح: هذه الإجابة توضح الدورين الأساسيين للمولّد والمميّز في بنية GANs وآلية عملهما التنافسية.

تلميح: فكر في الأدوار المتضادة التي يلعبها كل من المكونين في عملية توليد الصور.

ما هي القيود الرئيسية التي تواجه الشبكات التوليدية التنافسية (GANs)؟

الإجابة: من القيود الرئيسية للشبكات التوليدية التنافسية (GANs): عدم التقارب (Non-convergence)، حيث تفشل الشبكتان في التحسن مع مرور الوقت، ونقص التنوع (Mode collapse)، حيث ينتج النموذج نفس المخرجات المتشابهة بشكل متكرر بغض النظر عن المدخلات.

الشرح: توضح هذه الإجابة التحديات التي قد تواجه نماذج GANs، مما يساعد على فهم حدودها.

تلميح: ما هي المشاكل التي قد تحدث أثناء عملية التدريب التنافسي بين المولّد والمميّز؟

ما هي المكونات الرئيسية لنموذج الانتشار المستقر (Stable Diffusion) وكيف يتم توليد الصور؟

الإجابة: يتكون نموذج الانتشار المستقر (Stable Diffusion) من مرمّز النص (Text Encoder) ومفكك الترميز المرئي (Visual Decoder). يقوم مرمّز النص بتحويل المدخلات النصية إلى تضمين (Embedding)، ثم يمرر هذا التضمين عبر مفكك الترميز المرئي لتوليد صورة.

الشرح: هذه الإجابة تفصل المكونات الأساسية لنموذج Stable Diffusion وتشرح آلية توليد الصورة من النص.

تلميح: فكر في كيفية تحويل النص إلى تمثيل رقمي ثم استخدامه لإنشاء الصورة.

ما هو دور مرمّز النص (Text Encoder) في نموذج الانتشار المستقر (Stable Diffusion)؟

الإجابة: يقوم مرمّز النص (Text Encoder) في نموذج الانتشار المستقر بأخذ المدخلات النصية (مثل جملة أو فقرة) وتحويلها إلى تضمين (Embedding)، وهو متجه عددي يلتقط معنى النص المدخل.

الشرح: هذه الإجابة تركز على وظيفة مرمّز النص ودوره في تحويل النص إلى صيغة يمكن للنموذج فهمها.

تلميح: ما هي الخطوة الأولى التي تحدث للنص قبل أن يتم استخدامه لتوليد صورة؟

كيف يتم تدريب مفكك الترميز المرئي (Visual Decoder) في نموذج الانتشار المستقر (Stable Diffusion)؟

الإجابة: يتم تدريب مفكك الترميز المرئي (Visual Decoder) عن طريق مقارنة الصورة المولّدة بالصورة الحقيقية المقابلة لها في مجموعة البيانات. يُستخدم الفرق بينهما لحساب الخسارة (Loss)، ثم تُستخدم هذه الخسارة لتحديث متغيرات مفكك الترميز المرئي (ومرمّز النص) بهدف تقليل الاختلاف بين الصور المولّدة والحقيقية.

الشرح: توضح هذه الإجابة عملية التدريب والمحسنات التي تحدث لمفكك الترميز المرئي لجعله أكثر دقة في توليد الصور.

تلميح: ما هي الآلية التي يتم بها تقييم أداء مفكك الترميز المرئي وتصحيح أخطائه؟