بناء خط أنابيب التنبؤ

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

يقدم هذا الدرس خطوات بناء خط أنابيب تنبؤ في تعلم الآلة لتحليل النصوص، مع التركيز على استخدام مصنف بايز الساذج (Naive Bayes Classifier). يبدأ الدرس بتمثيل بيانات التدريب بالمتجهات، ثم يشرح مفهوم المصنف كأداة لتصنيف نقاط البيانات إلى فئات مختلفة بناءً على بيانات تدريب معنونة.

يتم توضيح تطبيق مصنف بايز الساذج متعدد الحدود (Multinomial NB) من مكتبة سكيليرن (Sklearn) لتدريب نموذج على بيانات التدريب IMDb، مع ذكر افتراض استقلالية الكلمات الذي يجعل الخوارزمية سريعة وفعالة. يوضح الدرس كيفية إنشاء خط أنابيب تنبؤ يجمع بين عملية التجهيز (vectorization) والتصنيف باستخدام دالة `make_pipeline`.

يختتم الدرس بمثال عملي يظهر كيفية استخدام خط الأنابيب للتنبؤ بتقييمات الأفلام، حيث يُرمز للنتائج برقم 1 للتقييم الإيجابي و0 للتقييم السلبي، مما يعزز الفهم التطبيقي للمفاهيم المطروحة.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

وبحسب المتوقع تحتاج المصفوفة المتباعدة إلى ذاكرة أقل بكثير وتحديدًا 0.000048 ميجابايت، بينما تشغل المصفوفة الكثيفة 7 جيجابايت، كما أن هذه المصفوفة لن تُستخدم مرة أخرى وبالتالي يمكن حذفها لتوفير الحجم الكبير من الذاكرة:

نوع: محتوى تعليمي

# delete the dense matrix.
del X_train_v1_dense

نوع: محتوى تعليمي

بناء خط أنابيب التنبؤ
Building a Prediction Pipeline

نوع: محتوى تعليمي

الآن بعد أن تمكنت من تمثيل بيانات التدريب بالمتجهات فإن الخطوة التالية هي بناء خط أنابيب التنبؤ الأول. وللقيام بذلك، ستُستخدم نوعًا من المصنفات يسمى مصنف بايز الساذج (Naive Bayes Classifier)، حيث يستخدم هذا المصنف احتمالات الكلمات أو العبارات المحددة الواردة في النص للتنبؤ باحتمال انتمائه إلى تصنيف محدد. جاءت كلمة الساذج (Naive) في اسم المصنف من افتراض أن وجود كلمة بعينها في النص مستقل عن وجود أي كلمة أخرى. وهذا افتراض قوي، ولكنه يسمح بتدريب الخوارزمية بسرعة وفعالية كبيرة.

المصنف (Classifier)

نوع: تعريف

المصنف (Classifier):
المصنف في تعلم الآلة هو نموذج يُستخدم لتمييز نقاط البيانات في فئات أو تصنيفات مختلفة. الهدف من المصنف هو التعلم من بيانات التدريب المعنونة، ومن ثم القيام بالتنبؤات حول قيم التصنيف لبيانات جديدة.

نوع: محتوى تعليمي

يستخدم المقطع البرمجي التالي تطبيق مصنف بايز الساذج (Multinomial NB) من مكتبة سكيليرن (Sklearn Library) لتدريب نموذج التعلم الموجه على بيانات التدريب IMDb بالمتجهات:

نوع: محتوى تعليمي

from sklearn.naive_bayes import MultinomialNB

model_v1=MultinomialNB() # a Naive Bayes Classifier

model_v1.fit(X_train_v1, Y_train) # fit the classifier on the vectorized training data.

from sklearn.pipeline import make_pipeline

# create a prediction pipeline: first vectorize using vectorizer_v1, then use model_v1 to predict.
prediction_pipeline_v1 = make_pipeline(vectorizer_v1, model_v1)

نوع: محتوى تعليمي

على سبيل المثال، سينتج هذا المقطع البرمجي مصفوفة نتائج يرمز فيها الرقم 1 للتقييم الإيجابي و 0 للتقييم السلبي:

نوع: محتوى تعليمي

prediction_pipeline_v1.predict(['One of the best movies of the year. Excellent cast and very interesting plot.',
                                 'I was very disappointed with his film. I lost all interest after 30 minutes' ])

نوع: محتوى تعليمي

array([[1, 0]], dtype=int64)

نوع: METADATA

وزارة التعليم
139
Ministry of Education
2025 - 1447

📄 النص الكامل للصفحة

# delete the dense matrix.
del X_train_v1_dense--- SECTION: بناء خط أنابيب التنبؤ --- بناء خط أنابيب التنبؤ
Building a Prediction Pipelineالآن بعد أن تمكنت من تمثيل بيانات التدريب بالمتجهات فإن الخطوة التالية هي بناء خط أنابيب التنبؤ الأول. وللقيام بذلك، ستُستخدم نوعًا من المصنفات يسمى مصنف بايز الساذج (Naive Bayes Classifier)، حيث يستخدم هذا المصنف احتمالات الكلمات أو العبارات المحددة الواردة في النص للتنبؤ باحتمال انتمائه إلى تصنيف محدد. جاءت كلمة الساذج (Naive) في اسم المصنف من افتراض أن وجود كلمة بعينها في النص مستقل عن وجود أي كلمة أخرى. وهذا افتراض قوي، ولكنه يسمح بتدريب الخوارزمية بسرعة وفعالية كبيرة.--- SECTION: المصنف (Classifier) --- المصنف (Classifier):
المصنف في تعلم الآلة هو نموذج يُستخدم لتمييز نقاط البيانات في فئات أو تصنيفات مختلفة. الهدف من المصنف هو التعلم من بيانات التدريب المعنونة، ومن ثم القيام بالتنبؤات حول قيم التصنيف لبيانات جديدة.يستخدم المقطع البرمجي التالي تطبيق مصنف بايز الساذج (Multinomial NB) من مكتبة سكيليرن (Sklearn Library) لتدريب نموذج التعلم الموجه على بيانات التدريب IMDb بالمتجهات:from sklearn.naive_bayes import MultinomialNB model_v1=MultinomialNB() # a Naive Bayes Classifier model_v1.fit(X_train_v1, Y_train) # fit the classifier on the vectorized training data.from sklearn.pipeline import make_pipeline# create a prediction pipeline: first vectorize using vectorizer_v1, then use model_v1 to predict.
prediction_pipeline_v1 = make_pipeline(vectorizer_v1, model_v1)على سبيل المثال، سينتج هذا المقطع البرمجي مصفوفة نتائج يرمز فيها الرقم 1 للتقييم الإيجابي و 0 للتقييم السلبي:prediction_pipeline_v1.predict(['One of the best movies of the year. Excellent cast and very interesting plot.',
'I was very disappointed with his film. I lost all interest after 30 minutes' ])array([[1, 0]], dtype=int64)2025 - 1447

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

ما هو المصنف (Classifier) في تعلم الآلة؟

الإجابة: المصنف في تعلم الآلة هو نموذج يُستخدم لتمييز نقاط البيانات في فئات أو تصنيفات مختلفة، بهدف التعلم من بيانات التدريب المعنونة والتنبؤ بقيم التصنيف لبيانات جديدة.

الشرح: يعمل المصنف كأداة لتصنيف البيانات بناءً على ما تعلمه من بيانات تدريب سابقة.

تلميح: فكر في الدور الذي يقوم به النموذج عند التعامل مع البيانات غير المعروفة.

اشرح الافتراض الأساسي وراء تسمية مصنف بايز الساذج (Naive Bayes Classifier) بهذا الاسم.

الإجابة: جاءت كلمة 'الساذج' (Naive) في اسم المصنف من افتراضه أن وجود كلمة بعينها في النص مستقل عن وجود أي كلمة أخرى، وهذا افتراض قوي ولكنه يسمح بالتدريب السريع والفعال.

الشرح: يعتمد المصنف على افتراض الاستقلالية بين الكلمات للتسهيل وتسريع عملية الحساب والاحتمالات.

تلميح: ما هو الافتراض الذي يتم وضعه بشأن الكلمات المختلفة في النص؟

ما هو الهدف من بناء خط أنابيب التنبؤ (Prediction Pipeline)؟

الإجابة: يهدف خط أنابيب التنبؤ إلى ربط عملية تمثيل البيانات (مثل تحويلها إلى متجهات) مع نموذج التصنيف (مثل مصنف بايز الساذج) لتسهيل عملية التنبؤ.

الشرح: يجمع خط الأنابيب بين خطوات معالجة البيانات والنمذجة في عملية واحدة سلسة.

تلميح: ما هي الخطوات المتتابعة التي يجب أن تحدث قبل التنبؤ الفعلي؟

في سياق استخدام مكتبة Sklearn، ما هو الغرض من `make_pipeline(vectorizer_v1, model_v1)`؟

الإجابة: الغرض هو إنشاء خط أنابيب تنبؤ يجمع أولاً بين أداة تحويل البيانات (vectorizer_v1) ثم نموذج التصنيف (model_v1)، بحيث يتم تطبيقها بالتسلسل.

الشرح: تسمح `make_pipeline` بتجميع خطوات متعددة في كائن واحد يمكن استخدامه بسهولة، مما يضمن تطبيق الخطوات بالترتيب الصحيح.

تلميح: فكر في وظيفة كل مكون (vectorizer و model) وكيف يرتبان معاً.

عند استخدام `prediction_pipeline_v1.predict()` على نص، ماذا يعني الرقم `1` والرقم `0` في مصفوفة النتائج؟

الإجابة: في هذا السياق (بيانات IMDb)، يرمز الرقم `1` إلى التقييم الإيجابي (positive review) ويرمز الرقم `0` إلى التقييم السلبي (negative review).

الشرح: يمثل الخرج `array([[1, 0]])` أن العبارة الأولى تم تصنيفها كـ 'إيجابية' (1) والثانية كـ 'سلبية' (0).

تلميح: ارجع إلى مثال التقييمات المعطاة وكيف تم تفسير النتائج.