تطبيق عملي لتوليد الصور من النص باستخدام Python وDiffusers - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

يقدم هذا الدرس تطبيقًا عمليًا لتوليد الصور باستخدام النماذج القائمة على الانتشار (Diffusion-Based)، مع التركيز على مكتبة diffusers كأفضل مكتبة مفتوحة المصدر لهذا الغرض. يتم شرح كيفية تثبيت المكتبات اللازمة مثل diffusers وtransformers وaccelerate، بالإضافة إلى استخدام matplotlib وPIL لمعالجة الصور.

يتضمن القسم الرئيسي "توليد الصورة من نص" مثالًا عمليًا باستخدام نموذج stable-diffusion-v1-4 لتوليد صورة بناءً على توجيه نصي، حيث يتم توليد صورة لأسد أبيض في الغابة. يتم توضيح كيفية تحميل النموذج وتوجيهه لاستخدام وحدات معالجة الرسومات (GPUs) عبر CUDA للحصول على أداء أفضل.

يحتوي الدرس أيضًا على قسم معلومات يشرح معمارية CUDA كمنصة حوسبة موازية تتيح استخدام وحدات معالجة الرسومات، بالإضافة إلى سياق بصري يوضح شكل الصورة المولدة ويشرح قدرات النموذج في توليد صور واقعية من الأوصاف النصية.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

حقق كل من نموذج الشبكة التوليدية التنافسية ونموذج الانتشار المستقر نتائج مبهرة في مجال توليد الصور، ويركز الجزء المتبقي من هذا الدرس على تقديم أمثلة عملية بالبايثون على النهج القائم على الانتشار (Diffusion-Based) والذي يُعدّ حاليًا أحدث ما توصلت إليه التقنية. كما تم التوضيح من قبل، يُعدّ توليد الصور مهمة حاسوبية، ولذلك نوصيك بشدة بأن تطبق جميع أمثلة البايثون على نظام قوقل كولاب الأساسي أو أي بنية أساسية مختلفة تدعمها وحدة معالجة رسومات يكون لديك حق الوصول إليها.
يستخدم هذا الفصل مكتبة diffusers التي تُعدّ حاليًا أفضل مكتبة مفتوحة المصدر للنماذج القائمة على الانتشار، ويقوم المقطع البرمجي التالي بتثبيت المكتبة، وكذلك بعض المكتبات الإضافية المطلوبة:

نوع: محتوى تعليمي

%capture
!pip install diffusers
!pip install transformers
!pip install accelerate

import matplotlib.pyplot as plt
from PIL import Image # used to represent images

توليد الصورة من نص

نوع: محتوى تعليمي

توليد الصورة من نص

نوع: محتوى تعليمي

يوضح هذا القسم الطريقة التي يمكن بها استخدام مكتبة diffusers لتوليد صور تعتمد على التوجيه النصي الذي يقدمه المستخدم، وتستخدم الأمثلة الواردة في هذا القسم نموذج stable-diffusion-v1-4 (الانتشار- المستقر - الإصدار 4-1 )، وهو نموذج شائع مدرب مسبقًا لتوليد الصورة من نص.

نوع: محتوى تعليمي

# a tool used to generate images using stable diffusion
from diffusers import DiffusionPipeline
generator = DiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")
# specifies what GPUs should be used for this generation
generator.to("cuda")

image = generator("A photo of a white lion in the jungle.").images[0]
plt.imshow(image);

نوع: محتوى تعليمي

A photo of a white lion in the jungle يستجيب النموذج للتوجيه
(صورة أسد أبيض في الغابة) بصورة مبهرة وواقعية جدًا، كما هو موضح في الشكل 4.29. ويُعدّ التجريب باستخدام التوجيهات الإبداعية هو أفضل طريقة لاكتساب الخبرة وفهم قدرات هذا النهج ونقاط ضعفه.

معلومة

نوع: محتوى تعليمي

معمارية أجهزة الحاسب الموحد (Compute Unified Device Architecture - CUDA)
هي منصة حوسبة موازية تتيح استخدام وحدات معالجة الرسومات (GPUs).

نوع: METADATA

وزارة التعليم
Ministry of Education
2025 - 1447

نوع: METADATA

240

🔍 عناصر مرئية

شكل 4.29: صورة مولدة لأسد أبيض في الغابة

A generated image of a white lion standing on a rock in a jungle setting. The lion is facing forward, looking towards the viewer, with green foliage and trees in the background. The image demonstrates the output of a text-to-image generation model.

📄 النص الكامل للصفحة

حقق كل من نموذج الشبكة التوليدية التنافسية ونموذج الانتشار المستقر نتائج مبهرة في مجال توليد الصور، ويركز الجزء المتبقي من هذا الدرس على تقديم أمثلة عملية بالبايثون على النهج القائم على الانتشار (Diffusion-Based) والذي يُعدّ حاليًا أحدث ما توصلت إليه التقنية. كما تم التوضيح من قبل، يُعدّ توليد الصور مهمة حاسوبية، ولذلك نوصيك بشدة بأن تطبق جميع أمثلة البايثون على نظام قوقل كولاب الأساسي أو أي بنية أساسية مختلفة تدعمها وحدة معالجة رسومات يكون لديك حق الوصول إليها.
يستخدم هذا الفصل مكتبة diffusers التي تُعدّ حاليًا أفضل مكتبة مفتوحة المصدر للنماذج القائمة على الانتشار، ويقوم المقطع البرمجي التالي بتثبيت المكتبة، وكذلك بعض المكتبات الإضافية المطلوبة:%capture
!pip install diffusers
!pip install transformers
!pip install accelerate import matplotlib.pyplot as plt from PIL import Image # used to represent images--- SECTION: توليد الصورة من نص --- توليد الصورة من نص يوضح هذا القسم الطريقة التي يمكن بها استخدام مكتبة diffusers لتوليد صور تعتمد على التوجيه النصي الذي يقدمه المستخدم، وتستخدم الأمثلة الواردة في هذا القسم نموذج stable-diffusion-v1-4 (الانتشار- المستقر - الإصدار 4-1 )، وهو نموذج شائع مدرب مسبقًا لتوليد الصورة من نص.# a tool used to generate images using stable diffusion from diffusers import DiffusionPipeline generator = DiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")
# specifies what GPUs should be used for this generation generator.to("cuda")image = generator("A photo of a white lion in the jungle.").images[0]
plt.imshow(image);A photo of a white lion in the jungle يستجيب النموذج للتوجيه
(صورة أسد أبيض في الغابة) بصورة مبهرة وواقعية جدًا، كما هو موضح في الشكل 4.29. ويُعدّ التجريب باستخدام التوجيهات الإبداعية هو أفضل طريقة لاكتساب الخبرة وفهم قدرات هذا النهج ونقاط ضعفه.--- SECTION: معلومة --- معمارية أجهزة الحاسب الموحد (Compute Unified Device Architecture - CUDA)
هي منصة حوسبة موازية تتيح استخدام وحدات معالجة الرسومات (GPUs).2025 - 1447--- VISUAL CONTEXT ---
**IMAGE**: شكل 4.29: صورة مولدة لأسد أبيض في الغابة
Description: A generated image of a white lion standing on a rock in a jungle setting. The lion is facing forward, looking towards the viewer, with green foliage and trees in the background. The image demonstrates the output of a text-to-image generation model.
Context: This image serves as a visual example of the output produced by the 'Text-to-Image Generation' process using the `stable-diffusion-v1-4` model, based on the text prompt 'A photo of a white lion in the jungle.' It illustrates the model's capability to generate realistic and impressive visuals from textual descriptions.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هي المكتبة المفتوحة المصدر الأفضل حاليًا للنماذج القائمة على الانتشار (Diffusion-Based) والتي تم استخدامها في هذا الفصل؟

الإجابة: مكتبة diffusers.

الشرح: تم ذكر أن مكتبة diffusers هي أفضل مكتبة مفتوحة المصدر حاليًا للنماذج القائمة على الانتشار، وتم استخدامها في الأمثلة البرمجية.

تلميح: ابحث عن اسم المكتبة التي تم تثبيتها وتُعدّ الأفضل للتعامل مع نماذج الانتشار.

ما هو النموذج المستخدم في الأمثلة لتوليد الصورة من نص؟

الإجابة: نموذج stable-diffusion-v1-4.

الشرح: النص يوضح صراحة أن الأمثلة تستخدم نموذج stable-diffusion-v1-4 لتوليد الصور من النص.

تلميح: ابحث عن اسم النموذج المحدد المدرب مسبقًا والمذكور في قسم 'توليد الصورة من نص'.

ما هي أهمية استخدام Google Colab أو بنية تحتية مشابهة تدعم وحدات معالجة الرسوميات (GPUs) عند تطبيق أمثلة توليد الصور؟

الإجابة: توليد الصور مهمة حاسوبية تتطلب قوة معالجة كبيرة، ووحدات معالجة الرسوميات (GPUs) توفر هذه القدرة لتحسين الأداء وتسريع العملية.

الشرح: تم التأكيد على أن توليد الصور مهمة حاسوبية، وأن استخدام وحدات معالجة الرسوميات (GPUs) ضروري لتنفيذها بكفاءة.

تلميح: فكر في نوع المهمة التي تقوم بها نماذج توليد الصور وما هي المكونات الحاسوبية التي تسهلها.

اشرح بإيجاز مفهوم CUDA.

الإجابة: CUDA هي منصة حوسبة موازية تتيح استخدام وحدات معالجة الرسوميات (GPUs) لتسريع العمليات الحسابية.

الشرح: تم تعريف CUDA بوضوح في قسم 'معلومة' على أنها منصة حوسبة موازية تستفيد من GPUs.

تلميح: ما هي التقنية التي تمكن من استخدام قوة معالجة وحدات الرسوميات في مهام الحوسبة؟

ماذا يعني مصطلح 'التوجيه النصي' (Text Prompt) في سياق توليد الصور من نص؟

الإجابة: التوجيه النصي هو النص الذي يقدمه المستخدم للنموذج ليستخدمه كإرشادات لإنشاء صورة.

الشرح: النص يوضح أن توليد الصورة يعتمد على 'التوجيه النصي الذي يقدمه المستخدم'، مما يعني أنه النص الذي يوصف به ما يريد المستخدم رؤيته في الصورة.

تلميح: عندما يطلب النموذج 'توجيهًا نصيًا'، ماذا يحتاج المستخدم لتقديمه؟