صفحة 124 - كتاب علم البيانات - الصف 11 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب علم البيانات - الصف 11 - الفصل 1 | المادة: علم البيانات | المرحلة: الصف 11 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

📝 ملخص الصفحة

📚 تنظيف البيانات (Data Cleaning)

المفاهيم الأساسية

تنظيف البيانات (Data Cleaning): عملية إصلاح أو إزالة للبيانات غير الصحيحة أو المشوشة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة من مجموعة البيانات.

خريطة المفاهيم

```markmap

استكشاف البيانات

المجموعات والتجميع (Grouping and Aggregating)

وظيفة Groupby

#### الغرض: تقسيم البيانات إلى مجموعات لإجراء حسابات وتحليل أفضل

#### التجميع حسب عمود واحد

##### مثال: `df.groupby('المنطقة الإدارية').sum()`

#### التجميع حسب عمودين

##### الكود: `data.groupby(['المنطقة الإدارية', 'المرحلة'], as_index=False)['مجموع الطلبة'].sum()`

###### معلمة `as_index=False`

####### الغرض: جعل الفهرس هو رقم الصف بدلاً من أسماء الأعمدة

#### التجميع وتحديد أعمدة للجمع

##### الكود: `studentsTeachers.groupby('المنطقة الإدارية')[['مجموع الطلبة', 'مجموع المعلمين']].sum()`

تنظيف البيانات (Data Cleaning)

أهمية التنظيف

#### ضمان صحة نتائج التحليل

#### إزالة البيانات المكررة أو المشوشة أو غير الدقيقة

وظائف التنظيف

#### duplicated()

##### الغرض: ترجع قيمة منطقية (True/False) لكل صف يحتوي على بيانات مكررة

#### value_counts()

##### الغرض: ترجع القيم الفريدة في مجموعة البيانات

#### isnull()

##### الغرض: ترجع قيمة منطقية لكل خلية فارغة

#### dropna()

##### الغرض: يحذف الصفوف الفارغة

مثال: الكشف عن البيانات المكررة

#### الكود: `dup = data.duplicated()`

#### الكود: `dup.value_counts()`

#### النتيجة: False 5426, True 171

```

نقاط مهمة

يجب إزالة البيانات المكررة أو المشوشة أو غير الدقيقة قبل البدء بتحليل البيانات.
وظيفة `df.duplicated()` تعطي قيمة `True` للصفوف المكررة و `False` للصفوف غير المكررة.
يمكن استخدام `value_counts()` على نتيجة `duplicated()` لمعرفة عدد الصفوف المكررة مقابل غير المكررة.

📄 النص الكامل للصفحة

من المهم جدا أن تكون البيانات التي ستحللها صحيحة ، قبل البدء بتحليلها ، وهذا يعني أنه يجب إزالة
البيانات المكررة أو المشوشة أو غير الدقيقة من مجموعة البيانات الخاصة بك، وإذا بقيت هذه البيانات
كما هي، فلن تكون نتائج تحليلها صحيحة.

--- SECTION: تنظيف البيانات ---
:(Data cleaning)
تنظيف البيانات هو عملية إصلاح
أو إزالة للبيانات غير الصحيحة أو
المشوشة أو المنسقة بشكل غير صحيح
أو المكررة أو غير المكتملة من مجموعة
البيانات.

--- SECTION: الجدول 3.11 وظائف تنظيف البيانات ---


--- SECTION: البيانات المكررة Duplicated Data ---
للتحقق مما إذا كانت مجموعة البيانات الخاصة بك تحتوي على بيانات مكررة، فيمكنك أن تستخدم الوظيفة ( ) df.duplicated. وتعطي هذه
الوظيفة قيمة منطقية لكل صف حسب احتوائه على بيانات مكررة.
صواب (True) للبيانات المكررة.
> خطأ (False) : للبيانات غير المكررة.
سترى كيفية التعامل مع الصفوف المكررة في مجموعة البيانات.

dup = data.duplicated ()
# To see how many duplicated rows there are in the table
dup.value_counts ()
False 5426
True 171
dtype: int64

--- VISUAL CONTEXT ---
**TABLE**: وظائف تنظيف البيانات
Description: Table showing functions for data cleaning
Table Structure:
Headers: الوظيفة | المعنى
Rows:
Row 1: duplicated() | ترجع قيمة منطقية لكل صف يحتوي على بيانات مكررة.
Row 2: value_counts() | ترجع القيم الفريدة في مجموعة البيانات.
Row 3: isnull() | ترجع قيمة منطقية لكل خلية فارغة من مجموعة البيانات.
Row 4: dropna() | يحذف الصفوف الفارغة.
Context: Functions used for data cleaning

**DIAGRAM**: عملية تنظيف البيانات
Description: Diagram showing data cleaning process
Context: Illustrates the data cleaning process

**FIGURE**: استخدام وظيفة ( ) df.duplicated
Description: Figure showing the use of df.duplicated function
Data: Shows the number of duplicated rows
Key Values: False 5426, True 171, dtype: int64
Context: Demonstrates the use of duplicated function

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 4 بطاقة لهذه الصفحة

أي من الوظائف التالية في pandas تُستخدم تحديداً للكشف عن القيم المفقودة (الفارغة) في DataFrame؟

أ) الدالة `duplicated()`
ب) الدالة `value_counts()`
ج) الدالة `isnull()`
د) الدالة `dropna()`

الإجابة الصحيحة: c

الإجابة: الدالة `isnull()`

الشرح: تُرجع الدالة `isnull()` DataFrame بنفس الأبعاد يحتوي على قيم منطقية (True/False)، حيث تكون `True` في الخلايا التي تحتوي على قيم مفقودة (NaN أو None).

تلميح: تركز هذه الوظيفة على خلايا محددة قد لا تحتوي على بيانات.

التصنيف: مفهوم جوهري | المستوى: سهل

ما المقصود بعملية تنظيف البيانات (Data Cleaning) في علم البيانات؟

أ) هي عملية تحويل البيانات النصية إلى أرقام لتسهيل التحليل.
ب) هي عملية إصلاح أو إزالة للبيانات غير الصحيحة أو المشوشة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة من مجموعة البيانات.
ج) هي عملية إنشاء نماذج تنبؤية باستخدام خوارزميات التعلم الآلي.
د) هي عملية تصور البيانات باستخدام الرسوم البيانية والمخططات.

الإجابة الصحيحة: b

الإجابة: هي عملية إصلاح أو إزالة للبيانات غير الصحيحة أو المشوشة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة من مجموعة البيانات.

الشرح: تنظيف البيانات خطوة أساسية في تحضير البيانات للتحليل. تهدف إلى ضمان صحة ودقة البيانات من خلال معالجة المشاكل الشائعة مثل التكرار، والأخطاء، والقيم المفقودة، والتنسيق غير المتسق.

تلميح: تتعلق هذه العملية بتحسين جودة البيانات قبل تحليلها.

التصنيف: تعريف | المستوى: سهل

ما الغرض الأساسي من استخدام الدالة `df.duplicated()` في عملية تنظيف البيانات باستخدام pandas؟

أ) لحذف جميع الصفوف التي تحتوي على قيم مفقودة (NaN) من DataFrame.
ب) لحساب القيم الإحصائية الأساسية مثل المتوسط والوسيط للبيانات الرقمية.
ج) للكشف عن الصفوف المكررة في مجموعة البيانات، حيث تُرجع قيمة منطقية (True/False) لكل صف.
د) لدمج عمودين أو أكثر من أعمدة DataFrame في عمود واحد.

الإجابة الصحيحة: c

الإجابة: للكشف عن الصفوف المكررة في مجموعة البيانات، حيث تُرجع قيمة منطقية (True/False) لكل صف.

الشرح: تُستخدم `df.duplicated()` للتحقق من وجود تكرار في البيانات. تُرجع سلسلة من القيم المنطقية (Boolean Series) تشير إلى ما إذا كان كل صف مكرراً (True) أم فريداً (False). هذا يمكّن محلل البيانات من تحديد ومعالجة التكرار قبل التحليل.

تلميح: تركز هذه الدالة على مشكلة محددة في جودة البيانات.

التصنيف: مفهوم جوهري | المستوى: متوسط

إذا أظهرت نتيجة تنفيذ `dup.value_counts()` على DataFrame ما الناتج التالي: `False 5426` و `True 171`، فماذا يعني ذلك؟

أ) يوجد 171 صفاً يحتوي على قيم فارغة (NaN) و 5426 صفاً مكتملاً.
ب) يوجد 5426 صفاً مكرراً و 171 صفاً فريداً في مجموعة البيانات.
ج) يوجد 171 صفاً مكرراً و 5426 صفاً فريداً (غير مكرر) في مجموعة البيانات.
د) تم حذف 171 صفاً بنجاح من أصل 5426 صفاً في مجموعة البيانات.

الإجابة الصحيحة: c

الإجابة: يوجد 171 صفاً مكرراً و 5426 صفاً فريداً (غير مكرر) في مجموعة البيانات.

الشرح: تُرجع `value_counts()` عدد مرات ظهور كل قيمة فريدة. هنا، القيمة `False` (غير مكرر) تظهر 5426 مرة، مما يعني وجود 5426 صفاً فريداً. القيمة `True` (مكرر) تظهر 171 مرة، مما يعني وجود 171 صفاً مكرراً تم اكتشافه.

تلميح: ركز على تفسير الأرقام المرتبطة بالقيمتين المنطقيتين True و False.

التصنيف: تفكير ناقد | المستوى: متوسط