📚 تنظيف البيانات (Data Cleaning)
المفاهيم الأساسية
وظيفة drop_duplicates(): طريقة لحذف الصفوف المكررة من مجموعة البيانات.
وظيفة isnull(): ترجع قيمة منطقية (True/False) لكل خلية في مجموعة البيانات؛ حيث تكون True للخلايا الفارغة.
وظيفة dropna(): طريقة لحذف الصفوف الفارغة من مجموعة البيانات.
خريطة المفاهيم
```markmap
استكشاف البيانات
المجموعات والتجميع (Grouping and Aggregating)
وظيفة Groupby
#### الغرض: تقسيم البيانات إلى مجموعات لإجراء حسابات وتحليل أفضل
#### التجميع حسب عمود واحد
##### مثال: `df.groupby('المنطقة الإدارية').sum()`
#### التجميع حسب عمودين
##### الكود: `data.groupby(['المنطقة الإدارية', 'المرحلة'], as_index=False)['مجموع الطلبة'].sum()`
###### معلمة `as_index=False`
####### الغرض: جعل الفهرس هو رقم الصف بدلاً من أسماء الأعمدة
#### التجميع وتحديد أعمدة للجمع
##### الكود: `studentsTeachers.groupby('المنطقة الإدارية')[['مجموع الطلبة', 'مجموع المعلمين']].sum()`
تنظيف البيانات (Data Cleaning)
أهمية التنظيف
#### ضمان صحة نتائج التحليل
#### إزالة البيانات المكررة أو المشوشة أو غير الدقيقة
وظائف التنظيف
#### duplicated()
##### الغرض: ترجع قيمة منطقية (True/False) لكل صف يحتوي على بيانات مكررة
#### value_counts()
##### الغرض: ترجع القيم الفريدة في مجموعة البيانات
#### isnull()
##### الغرض: ترجع قيمة منطقية لكل خلية فارغة
#### dropna()
##### الغرض: يحذف الصفوف الفارغة
مثال: الكشف عن البيانات المكررة
#### الكود: `dup = data.duplicated()`
#### الكود: `dup.value_counts()`
#### النتيجة: False 5426, True 171
حذف البيانات المكررة
#### الكود: `data = data.drop_duplicates()`
#### التحقق من النتيجة: `dup = data.duplicated(); dup.value_counts()`
#### النتيجة: False 5426
التعامل مع الخلايا الفارغة
#### الكشف عن الخلايا الفارغة
##### الكود: `missing_values_count = data.isnull().sum()`
##### النتيجة: عدد الخلايا الفارغة في كل عمود (مثال: 5، 6، 5، 4، 4، 4)
#### حذف الصفوف الفارغة
##### الكود: `data = data.dropna()`
```
نقاط مهمة
- بعد استخدام `drop_duplicates()` أو `dropna()`، يجب تحديث مجموعة البيانات والتحقق من إزالة الصفوف المطلوبة.
- تُستخدم `isnull().sum()` للحصول على عدد الخلايا الفارغة في كل عمود من أعمدة مجموعة البيانات.