الشكل 3.34: حذف الصفوف الفارغة - كتاب علم البيانات - الصف 11 - الفصل 1 - المملكة العربية السعودية

الكتاب: كتاب علم البيانات - الصف 11 - الفصل 1 | المادة: علم البيانات | المرحلة: الصف 11 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

الدرس: الشكل 3.34: حذف الصفوف الفارغة

📚 معلومات الصفحة

الكتاب: كتاب علم البيانات - الصف 11 - الفصل 1 | المادة: علم البيانات | المرحلة: الصف 11 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

📝 ملخص الصفحة

📚 البيانات الخاطئة (Wrong Data)

المفاهيم الأساسية

البيانات الخاطئة: بيانات غير صحيحة أو غير منطقية ضمن سياق مجموعة البيانات (مثل وجود أرقام سالبة في عدد الطلبة).

خريطة المفاهيم

```markmap

استكشاف البيانات

المجموعات والتجميع (Grouping and Aggregating)

وظيفة Groupby

#### الغرض: تقسيم البيانات إلى مجموعات لإجراء حسابات وتحليل أفضل

#### التجميع حسب عمود واحد

##### مثال: `df.groupby('المنطقة الإدارية').sum()`

#### التجميع حسب عمودين

##### الكود: `data.groupby(['المنطقة الإدارية', 'المرحلة'], as_index=False)['مجموع الطلبة'].sum()`

###### معلمة `as_index=False`

####### الغرض: جعل الفهرس هو رقم الصف بدلاً من أسماء الأعمدة

#### التجميع وتحديد أعمدة للجمع

##### الكود: `studentsTeachers.groupby('المنطقة الإدارية')[['مجموع الطلبة', 'مجموع المعلمين']].sum()`

تنظيف البيانات (Data Cleaning)

أهمية التنظيف

#### ضمان صحة نتائج التحليل

#### إزالة البيانات المكررة أو المشوشة أو غير الدقيقة

وظائف التنظيف

#### duplicated()

##### الغرض: ترجع قيمة منطقية (True/False) لكل صف يحتوي على بيانات مكررة

#### value_counts()

##### الغرض: ترجع القيم الفريدة في مجموعة البيانات

#### isnull()

##### الغرض: ترجع قيمة منطقية لكل خلية فارغة

#### dropna()

##### الغرض: يحذف الصفوف الفارغة

مثال: الكشف عن البيانات المكررة

#### الكود: `dup = data.duplicated()`

#### الكود: `dup.value_counts()`

#### النتيجة: False 5426, True 171

حذف البيانات المكررة

#### الكود: `data = data.drop_duplicates()`

#### التحقق من النتيجة: `dup = data.duplicated(); dup.value_counts()`

#### النتيجة: False 5426

التعامل مع الخلايا الفارغة

#### الكشف عن الخلايا الفارغة

##### الكود: `missing_values_count = data.isnull().sum()`

##### النتيجة: عدد الخلايا الفارغة في كل عمود (مثال: 5، 6، 5، 4، 4، 4)

#### حذف الصفوف الفارغة

##### الكود: `data = data.dropna()`

التعامل مع البيانات الخاطئة (Wrong Data)

#### أمثلة على البيانات الخاطئة

##### أرقام سالبة في أعمدة لا تقبل القيم السالبة (مثل عدد الطلبة)

#### كيفية التحقق من البيانات الخاطئة

##### كتابة مقطع برمجي للكشف عنها

##### مثال للتحقق من الأرقام السالبة في عمود "مجموع الطلبة":

###### الكود: `data[data['مجموع الطلبة'] < 0].nunique()`

##### مثال للتحقق من الأرقام السالبة في عمود "مجموع المعلمين":

###### الكود: `data[data['مجموع المعلمين'] < 0].nunique()`

##### مثال للتحقق من الأرقام السالبة في عمود "مجموع الإداريين":

###### الكود: `data[data['مجموع الإداريين'] < 0].nunique()`

#### كيفية التعامل مع البيانات الخاطئة بعد اكتشافها

##### حذفها

##### استبدالها بقيم أخرى

```

نقاط مهمة

  • البيانات الخاطئة هي بيانات غير صحيحة ضمن سياقها (مثل وجود أرقام سالبة لعدد الطلبة).
  • يجب التحقق من وجود بيانات خاطئة عن طريق كتابة مقاطع برمجية (مثل التحقق من القيم السالبة).
  • بعد اكتشاف البيانات الخاطئة، يمكن حذفها أو استبدالها بقيم أخرى.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

# Drop the missing values data = data.dropna()

نوع: محتوى تعليمي

missing_values_count = data.isnull().sum() missing_values_count

نوع: محتوى تعليمي

المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64

نوع: محتوى تعليمي

لا يوجد خلايا فارغة.

الشكل 3.34: حذف الصفوف الفارغة

نوع: محتوى تعليمي

الشكل 3.34: حذف الصفوف الفارغة

البيانات الخاطئة Wrong Data

نوع: محتوى تعليمي

البيانات الخاطئة Wrong Data

نوع: محتوى تعليمي

في بعض الأحيان قد تحتوي مجموعة البيانات الخاصة بك على بيانات خاطئة. فعلى سبيل المثال، في مجموعة البيانات الخاصة بك لا يمكنك الحصول على أرقام سالبة في عدد الطلبة، وللتحقق مما إذا كانت مجموعة البيانات الخاصة بك تحتوي على بيانات خاطئة، عليك كتابة مقطع برمجي.

نوع: محتوى تعليمي

في هذا المثال ستتحقق من الأرقام السالبة في أعمدة مجموعة البيانات. عليك أن تقرر ماذا تفعل بهذه البيانات الخاطئة، فقد ترغب في حذفها أو استبدالها بقيم أخرى.

نوع: محتوى تعليمي

# Check if there are negative elements in the columns that have numbers data[data['مجموع الطلبة'] < 0].nunique()

نوع: محتوى تعليمي

المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64

نوع: محتوى تعليمي

data[data['مجموع المعلمين'] < 0].nunique()

نوع: محتوى تعليمي

المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64

نوع: محتوى تعليمي

data[data['مجموع الإداريين'] < 0].nunique()

نوع: محتوى تعليمي

المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64

الشكل 3.35: التحقق من الأرقام السالبة

نوع: محتوى تعليمي

الشكل 3.35: التحقق من الأرقام السالبة

نوع: METADATA

وزارة التعليم Ministry of Education 2025 - 1447

نوع: METADATA

126

📄 النص الكامل للصفحة

# Drop the missing values data = data.dropna() missing_values_count = data.isnull().sum() missing_values_count المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64 لا يوجد خلايا فارغة. --- SECTION: الشكل 3.34: حذف الصفوف الفارغة --- الشكل 3.34: حذف الصفوف الفارغة البيانات الخاطئة Wrong Data في بعض الأحيان قد تحتوي مجموعة البيانات الخاصة بك على بيانات خاطئة. فعلى سبيل المثال، في مجموعة البيانات الخاصة بك لا يمكنك الحصول على أرقام سالبة في عدد الطلبة، وللتحقق مما إذا كانت مجموعة البيانات الخاصة بك تحتوي على بيانات خاطئة، عليك كتابة مقطع برمجي. في هذا المثال ستتحقق من الأرقام السالبة في أعمدة مجموعة البيانات. عليك أن تقرر ماذا تفعل بهذه البيانات الخاطئة، فقد ترغب في حذفها أو استبدالها بقيم أخرى. # Check if there are negative elements in the columns that have numbers data[data['مجموع الطلبة'] < 0].nunique() المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64 data[data['مجموع المعلمين'] < 0].nunique() المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64 data[data['مجموع الإداريين'] < 0].nunique() المنطقة الإدارية المرحلة نوع المدرسة مجموع الطلبة مجموع المعلمين مجموع الإداريين dtype: int64 --- SECTION: الشكل 3.35: التحقق من الأرقام السالبة --- الشكل 3.35: التحقق من الأرقام السالبة وزارة التعليم Ministry of Education 2025 - 1447 126

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 4 بطاقة لهذه الصفحة

ما الهدف من استخدام الأمر `data.dropna()` في معالجة البيانات؟

  • أ) استبدال القيم المفقودة بقيمة افتراضية مثل الصفر.
  • ب) حذف جميع الأعمدة التي تحتوي على قيم مفقودة من مجموعة البيانات.
  • ج) حذف جميع الصفوف التي تحتوي على قيم مفقودة (فارغة) من مجموعة البيانات.
  • د) ترتيب البيانات تصاعدياً بناءً على أحد الأعمدة.

الإجابة الصحيحة: c

الإجابة: حذف جميع الصفوف التي تحتوي على قيم مفقودة (فارغة) من مجموعة البيانات.

الشرح: 1. الأمر `dropna()` هو دالة في مكتبة pandas. 2. وظيفتها البحث عن القيم المفقودة (NaN أو None) في DataFrame. 3. تقوم بحذف أي صف يحتوي على قيمة مفقودة واحدة على الأقل. 4. النتيجة هي مجموعة بيانات نظيفة من الصفوف الفارغة.

تلميح: يركز هذا الأمر على التعامل مع البيانات الناقصة.

التصنيف: مفهوم جوهري | المستوى: سهل

كيف يمكن التحقق من وجود بيانات خاطئة (مثل أرقام سالبة) في عمود 'مجموع الطلبة' باستخدام pandas؟

  • أ) باستخدام الأمر: `data['مجموع الطلبة'].mean()`
  • ب) باستخدام الأمر: `data[data['مجموع الطلبة'] < 0]`
  • ج) باستخدام الأمر: `data.dropna(subset=['مجموع الطلبة'])`
  • د) باستخدام الأمر: `data['مجموع الطلبة'].fillna(0)`

الإجابة الصحيحة: b

الإجابة: باستخدام الأمر: `data[data['مجموع الطلبة'] < 0]`

الشرح: 1. `data['مجموع الطلبة'] < 0` ينشئ سلسلة من القيم المنطقية (True/False). 2. `data[...]` تستخدم هذه السلسلة لفلترة DataFrame. 3. النتيجة هي DataFrame جديد يحتوي فقط على الصفوف التي تحقق الشرط (أي التي يكون فيها مجموع الطلبة سالباً).

تلميح: يستخدم الأمر فلترة للبيانات بناءً على شرط منطقي.

التصنيف: صيغة/خطوات | المستوى: متوسط

ما المقصود بـ 'البيانات الخاطئة' (Wrong Data) في سياق علم البيانات؟

  • أ) هي البيانات التي تم إدخالها يدوياً بدلاً من آلياً.
  • ب) هي البيانات المخزنة بتنسيق خاطئ مثل نص بدلاً من رقم.
  • ج) هي بيانات غير منطقية أو مستحيلة في سياقها، مثل وجود أرقام سالبة في عمود يمثل عدداً للأشخاص (كالطلبة أو المعلمين).
  • د) هي البيانات التي تم جمعها من مصادر غير موثوقة.

الإجابة الصحيحة: c

الإجابة: هي بيانات غير منطقية أو مستحيلة في سياقها، مثل وجود أرقام سالبة في عمود يمثل عدداً للأشخاص (كالطلبة أو المعلمين).

الشرح: 1. البيانات الخاطئة هي قيم قد تكون صحيحة من ناحية التخزين (رقم سالب) لكنها غير منطقية في سياق المجال. 2. مثال: عدد الطلبة لا يمكن أن يكون سالباً. 3. اكتشافها يتطلب فهم طبيعة البيانات والمجال. 4. معالجتها تتطلب قراراً (حذف، استبدال، تصحيح).

تلميح: تتعلق بمصداقية وقابلية تطبيق القيمة في العالم الحقيقي.

التصنيف: تعريف | المستوى: سهل

بعد اكتشاف وجود بيانات خاطئة (كأرقام سالبة)، ما الخياران الرئيسيان لمعالجتها؟

  • أ) تجاهلها والمضي في التحليل كما هي.
  • ب) تغيير تسمية العمود الذي يحتوي عليها.
  • ج) حذف الصفوف التي تحتوي على هذه البيانات، أو استبدال القيم الخاطئة بقيم أخرى صحيحة.
  • د) تحويلها إلى بيانات نصية لتجنب الأخطاء الحسابية.

الإجابة الصحيحة: c

الإجابة: حذف الصفوف التي تحتوي على هذه البيانات، أو استبدال القيم الخاطئة بقيم أخرى صحيحة.

الشرح: 1. حذف البيانات: إزالة الصفوف أو الأعمدة التي تحتوي على القيم الخاطئة باستخدام `drop`. 2. استبدال البيانات: تعويض القيم الخاطئة بقيمة أخرى (كالوسيط، المتوسط، الصفر، أو قيمة مستنتجة). 3. يعتمد القرار على نسبة البيانات الخاطئة وأهميتها للتحليل.

تلميح: يتعلق القرار بتأثير الحذف على التحليل مقابل دقة الاستبدال.

التصنيف: مفهوم جوهري | المستوى: متوسط