صفحة 129 - كتاب علم البيانات - الصف 11 - الفصل 1 - المملكة العربية السعودية

الكتاب: كتاب علم البيانات - الصف 11 - الفصل 1 | المادة: علم البيانات | المرحلة: الصف 11 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب علم البيانات - الصف 11 - الفصل 1 | المادة: علم البيانات | المرحلة: الصف 11 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

📝 ملخص الصفحة

📚 تمرينات تطبيقية في معالجة البيانات

المفاهيم الأساسية

كائن المتسلسلة (Series): هيكل بيانات أحادي البعد يستخدم في هذه التمرينات لاحتواء عدد السياح الوافدين من دول مجلس التعاون الخليجي.

إطار البيانات (DataFrame): هيكل بيانات ثنائي الأبعاد يستخدم لقراءة وتحليل ورقة العمل "18" من ملف Excel.

خريطة المفاهيم

```markmap

تمرينات مراجعة مفاهيم علم البيانات

المقارنة بين هياكل البيانات

كائن المتسلسلة (Series)

إطار البيانات (DataFrame)

عمليات معالجة البيانات

فهرسة البيانات (Indexing)

تصفية البيانات (Filtering)

خطوات تحليل البيانات

تنظيف البيانات

#### أهمية التنظيف قبل التحليل

#### التعامل مع القيم غير المناسبة والمفقودة

#### التعامل مع الصفوف المكررة

تمرينات تطبيقية

التمرين 4: توليد أرقام عشوائية

#### استيراد مكتبة random

#### استخدام random.randrange(1, 100)

التمرين 5: استكشاف مجموعة بيانات

#### فتح ملف Excel في جوبيتر

#### قراءة ورقة عمل محددة (18) إلى DataFrame

#### طباعة شكل DataFrame (shape)

#### طباعة أنواع بيانات الأعمدة (dtypes)

#### طباعة أسماء الأعمدة (columns)

التمرين 6: معالجة متسلسلة

#### إنشاء متسلسلة جديدة من بيانات سابقة

#### إيجاد القيم القصوى والدنيا ومواقعها

#### التحقق من القيم غير المناسبة والمفقودة وإزالة صفوفها

#### ترتيب القيم تنازلياً مع تصفية (قيم > 500)

التمرين 7: تنظيف وتحليل إطار بيانات

#### فتح ورقة عمل "18" من ملف "tourist-indicators.xlsx"

#### فحص البيانات للقيم المكررة والمفقودة

#### طباعة عدد القيم المفقودة والصفوف المكررة

#### إزالة الصفوف المكررة والصفوف ذات القيم المفقودة

#### تجميع البيانات حسب الشهر

#### تحديد الشهر الأكثر جذباً للزوار لكل منطقة

```

نقاط مهمة

  • تتضمن التمرينات عمليتين رئيسيتين: معالجة متسلسلة (Series)، وتنظيف وتحليل إطار بيانات (DataFrame).
  • خطوات تنظيف البيانات تشمل: فحص القيم المفقودة والمكررة، ثم إزالتها.
  • من عمليات التحليل الأساسية: إيجاد القيم القصوى والدنيا، التصفية، الترتيب، والتجميع (Grouping).

📄 النص الكامل للصفحة

استخدم مجموعة البيانات التي استوردتها في التمرين السابق وقم بالتالي: > أنشئ كائن متسلسلة جديد يحتوي على عدد السياح الوافدين من دول مجلس التعاون الخليجي. > أوجد الحد الأقصى والحد الأدنى لعدد السياح وفي أي صفوف من المتسلسلة تحدث هذه القيم؟ > تحقق من المتسلسلة لمعرفة القيم غير المناسبة والمفقودة، وإذا كان هناك أي منها ، قم بإزالة تلك الصفوف. > اطبع عدد السياح بالترتيب التنازلي لقيم أكبر من 500. افتح ورقة العمل "18" من الملف "tourist-indicators.xlsx" واقرأها في إطار بيانات جديد، ثم: > تفقد مجموعة البيانات بأكملها لمعرفة القيم المكررة والمفقودة. > اطبع عدد القيم المفقودة وعدد الصفوف المكررة. > قم بإزالة الصفوف المكررة والصفوف ذات القيم المفقودة. > قم بتجميع إطار البيانات بناء على الشهر، وحدد الشهر الذي استقطب أكبر عدد من الزوار لكل منطقة. وزارة التعليم mistry of Education 2025-1447

✅ حلول أسئلة الكتاب الرسمية

عدد الأسئلة: 2

سؤال 6: استخدم مجموعة البيانات التي استوردتها في التمرين السابق وقم بالتالي: > أنشئ كائن متسلسلة جديد يحتوي على عدد السياح الوافدين من دول مجلس التعاون الخليجي. > أوجد الحد الأقصى والحد الأدنى لعدد السياح وفي أي صفوف من المتسلسلة تحدث هذه القيم؟ > تحقق من المتسلسلة لمعرفة القيم غير المناسبة والمفقودة، وإذا كان هناك أي منها ، قم بإزالة تلك الصفوف. > اطبع عدد السياح بالترتيب التنازلي لقيم أكبر من 500.

الإجابة: س6: - إنشاء المتسلسلة: حدّد سجلات دول مجلس التعاون واستخرج عمود "عدد السياح" ليكون Series. - الحد الأقصى والأدنى: استخدم max/idxmax للقيم العظمى و min/idxmin للقيم الصغرى. - التحقق والإزالة: اكشف القيم المفقودة (isna) وغير المناسبة (سالبة/نصية) واحذف صفوفها. - الطباعة: صفّ القيم > 500 ورتّبها تنازلياً (sort_values).

خطوات الحل:

  1. **الخطوة 1 (المعطيات):** لنفهم هذا السؤال: لدينا مجموعة بيانات تحتوي على معلومات عن السياح الوافدين من دول مختلفة. المطلوب هو: 1. إنشاء كائن متسلسلة (Series) يحتوي فقط على عدد السياح من دول مجلس التعاون الخليجي. 2. إيجاد أكبر وأصغر عدد للسياح، ومعرفة في أي صفوف توجد هذه القيم. 3. التحقق من وجود قيم غير مناسبة (مثل أرقام سالبة أو نص) أو قيم مفقودة، وإزالة الصفوف التي تحتوي عليها. 4. طباعة أعداد السياح التي تزيد عن 500 مرتبة من الأكبر إلى الأصغر.
  2. **الخطوة 2 (الخطوات العملية):** لنبدأ بالخطوة الأولى: - نستخدم البيانات المستوردة من التمرين السابق. - نحدد الصفوف التي تنتمي إلى دول مجلس التعاون الخليجي (مثل السعودية، الإمارات، الكويت، إلخ). - نستخرج عمود "عدد السياح" من هذه الصفوف فقط، وننشئ منه كائن Series. الخطوة الثانية: - نستخدم الدالة `max()` لإيجاد الحد الأقصى لعدد السياح. - نستخدم `idxmax()` لمعرفة فهرس الصف الذي يحتوي على هذا الحد الأقصى. - نستخدم `min()` و `idxmin()` لإيجاد الحد الأدنى وفهرسه. الخطوة الثالثة: - نستخدم `isna()` للكشف عن القيم المفقودة (NaN). - نتحقق من القيم غير المناسبة (مثل الأرقام السالبة أو النصوص) باستخدام شروط منطقية. - نستخدم `drop()` أو `dropna()` لإزالة الصفوف التي تحتوي على هذه القيم. الخطوة الرابعة: - نستخدم شرطاً لتصفية القيم الأكبر من 500. - نستخدم `sort_values(ascending=False)` لترتيبها تنازلياً. - نطبع النتيجة.
  3. **الخطوة 3 (النتيجة):** إذن، بعد تنفيذ هذه الخطوات، سنحصل على: - متسلسلة جديدة تحتوي على أعداد السياح من دول مجلس التعاون فقط. - القيم القصوى والدنيا وفهارسها. - متسلسلة نظيفة بعد إزالة القيم غير المناسبة والمفقودة. - قائمة مرتبة تنازلياً لأعداد السياح التي تزيد عن 500.

سؤال 7: افتح ورقة العمل "18" من الملف "tourist-indicators.xlsx" واقرأها في إطار بيانات جديد، ثم: > تفقد مجموعة البيانات بأكملها لمعرفة القيم المكررة والمفقودة. > اطبع عدد القيم المفقودة وعدد الصفوف المكررة. > قم بإزالة الصفوف المكررة والصفوف ذات القيم المفقودة. > قم بتجميع إطار البيانات بناء على الشهر، وحدد الشهر الذي استقطب أكبر عدد من الزوار لكل منطقة.

الإجابة: س7: - قراءة 18: حمّل البيانات من ورقة '18' في ملف Excel. - الفحص: تحقق من القيم المفقودة (isna) والمكررة (duplicated) واطبع أعدادها. - التنظيف: احذف الصفوف المكررة (drop_duplicates) والمفقودة (dropna). - التجميع: جمّع البيانات (groupby) حسب المنطقة والشهر، ثم حدد الشهر الأعلى زواراً لكل منطقة.

خطوات الحل:

  1. **الخطوة 1 (المعطيات):** لنفهم هذا السؤال: المطلوب هو العمل مع ورقة عمل محددة في ملف Excel. الخطوات هي: 1. فتح ورقة العمل رقم "18" من الملف "tourist-indicators.xlsx" وقراءتها في إطار بيانات (DataFrame). 2. فحص البيانات للكشف عن القيم المكررة والمفقودة. 3. طباعة عدد القيم المفقودة وعدد الصفوف المكررة. 4. إزالة الصفوف المكررة والصفوف التي تحتوي على قيم مفقودة. 5. تجميع البيانات بناءً على الشهر، وتحديد الشهر الذي استقطب أكبر عدد من الزوار لكل منطقة.
  2. **الخطوة 2 (الخطوات العملية):** الخطوة الأولى: - نستخدم مكتبة مثل pandas في Python لقراءة ملف Excel. - نحدد اسم الورقة كـ "18" ونقرأها إلى DataFrame جديد. الخطوة الثانية: - نستخدم `isna().sum()` لحساب عدد القيم المفقودة في كل عمود أو بشكل عام. - نستخدم `duplicated().sum()` لحساب عدد الصفوف المكررة. - نطبع هذه الأرقام. الخطوة الثالثة: - نستخدم `drop_duplicates()` لإزالة الصفوف المكررة. - نستخدم `dropna()` لإزالة الصفوف التي تحتوي على قيم مفقودة. الخطوة الرابعة: - نستخدم `groupby()` لتجميع البيانات حسب المنطقة والشهر. - داخل كل مجموعة، نستخدم `sum()` أو `max()` على عمود عدد الزوار لتحديد الشهر الذي لديه أكبر عدد. - نستخرج هذه المعلومات لكل منطقة.
  3. **الخطوة 3 (النتيجة):** إذن، بعد تنفيذ هذه الخطوات، سنحصل على: - إطار بيانات نظيف بعد إزالة المكرر والمفقود. - معلومات مطبوعة عن عدد القيم المفقودة والمكررة. - قائمة توضح لكل المنطقة الشهر الذي استقطب أكبر عدد من الزوار.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 2 بطاقة لهذه الصفحة

عند العمل مع مجموعة بيانات في Pandas، إذا أردت إنشاء كائن Series يحتوي على عدد السياح من دول مجلس التعاون الخليجي فقط، ثم إيجاد الحد الأقصى والأدنى ومعرفة فهارسها، فما هي الخطوات الصحيحة بالترتيب؟

  • أ) استخدام .describe() للحصول على الإحصاءات، ثم .loc للوصول إلى القيم القصوى والدنيا.
  • ب) تصفية البيانات حسب المنطقة، استخراج العمود، استخدام .max() و .idxmax() ثم .min() و .idxmin()
  • ج) تحويل العمود إلى قائمة، استخدام الدالة max() و min() المدمجة في Python، ثم البحث عن الفهرس يدوياً.
  • د) استخدام .groupby() على المنطقة، ثم تطبيق .agg(['max', 'min']) للحصول على النتائج.

الإجابة الصحيحة: b

الإجابة: تصفية البيانات حسب المنطقة، استخراج العمود، استخدام .max() و .idxmax() ثم .min() و .idxmin()

الشرح: ١. تصفية DataFrame لاستخراج الصفوف الخاصة بدول مجلس التعاون. ٢. استخراج عمود 'عدد السياح' من النتيجة لإنشاء Series. ٣. استخدام Series.max() للحصول على القيمة القصوى. ٤. استخدام Series.idxmax() للحصول على فهرس القيمة القصوى. ٥. استخدام Series.min() للحصول على القيمة الدنيا. ٦. استخدام Series.idxmin() للحصول على فهرس القيمة الدنيا.

تلميح: تذكر أن Series هو كائن أحادي البعد، وأن .idxmax() و .idxmin() تعيدان الفهرس وليس القيمة.

التصنيف: صيغة/خطوات | المستوى: متوسط

عند قراءة ورقة عمل من ملف Excel إلى DataFrame في Pandas، ما هي الخطوات الصحيحة لفحص وإزالة القيم المكررة والمفقودة قبل التجميع؟

  • أ) استخدام .unique() لإزالة التكرارات، واستخدام .fillna(0) لملء القيم المفقودة.
  • ب) استخدام .info() للحصول على ملخص، ثم حذف الأعمدة التي تحتوي على قيم مفقودة.
  • ج) استخدام .isna().sum() و .duplicated().sum() للفحص، ثم .dropna() و .drop_duplicates() للإزالة.
  • د) استخدام حلقة for للتكرار على الصفوف وحذف الصفوف التي تحتوي على NaN أو تكرار يدوياً.

الإجابة الصحيحة: c

الإجابة: استخدام .isna().sum() و .duplicated().sum() للفحص، ثم .dropna() و .drop_duplicates() للإزالة.

الشرح: ١. قراءة الورقة إلى DataFrame باستخدام pd.read_excel. ٢. فحص القيم المفقودة: DataFrame.isna().sum() لمعرفة عددها. ٣. فحص الصفوف المكررة: DataFrame.duplicated().sum() لمعرفة عددها. ٤. إزالة الصفوف ذات القيم المفقودة: DataFrame.dropna(inplace=True). ٥. إزالة الصفوف المكررة: DataFrame.drop_duplicates(inplace=True). ٦. الآن يمكن استخدام .groupby() للتجميع.

تلميح: تأكد من أن عمليات التنظيف (الإزالة) تتم قبل التجميع للحصول على نتائج دقيقة.

التصنيف: صيغة/خطوات | المستوى: متوسط