📝 ملخص الصفحة
📚 جمع البيانات وتجهيزها
المفاهيم الأساسية
جمع البيانات (Data Collection): عملية جمع القراءات أو الحقائق وتنسيقها، وتشمل الحصول عليها وتسميتها وتحسينها.
تنظيف البيانات (Data Cleaning): عملية متعددة المراحل لمراجعة البيانات وتصحيحها للتأكد من أنها في صيغة موحدة، ويتضمن ذلك معالجة القيم المفقودة والبيانات المشوشة، وحل التناقضات والتكرارات.
خريطة المفاهيم
```markmap
مقدمة في علم البيانات
العمليات
دورة حياة علم البيانات
#### 1. تعريف المشكلة وصياغتها
- فهم ماهية المشكلة وبيئتها والمتغيرات المؤثرة.
- تحديد الغاية المرجوة من الحل.
#### 2. جمع البيانات
- توفير مجموعة البيانات بعد تحديد الأهداف.
- جمع بيانات كافية للمعالجة.
- المصادر: أجهزة الاستشعار، تطبيقات الهاتف، منصات الويب.
- التخزين التلقائي في قواعد البيانات.
#### 3. تجهيز البيانات وتصحيحها
- أحد أهم المراحل في دورة حياة علم البيانات.
- تصحيح وتجهيز البيانات المجمعة للتأكد من مناسبتها للتحليل.
- معالجة مشاكل: التكرار، التداخل، التلف، التنسيق غير الصحيح، الأخطاء، النقص.
- أهمية التصحيح: تجنب استنتاجات خاطئة وصعوبة تحديد مصدر المشكلة (التحليل أم البيانات).
#### 4. التحليل الاستكشافي للبيانات
#### 5. تصوير البيانات
التعامل مع البيانات الضخمة
الحوكمة والسياسات
إدارة البيانات
مبادئ حوكمة البيانات
المخرجات
المهارات والأدوات المطلوبة
المهن والفرص الوظيفية
أهمية المجتمعات الرقمية
مجالات التطبيق
- التطبيقات التجارية والصناعية
- الرعاية الصحية والمعلوماتية الحيوية
- الاقتصاد الرقمي وتحليل وسائل التواصل
- المنازل والمدن والمواصلات الذكية
- التعليم الإلكتروني والترفيه
- الطاقة والاستدامة والمناخ
مثال تطبيقي
- منصة استشراف (مركز المعلومات الوطني)
مثال: أرامكو السعودية
```
نقاط مهمة
- بعد تحديد أهداف المشكلة، تأتي مرحلة توفير وجمع البيانات الكافية للمعالجة.
- يمكن جمع البيانات يدويًا أو آليًا من مصادر متنوعة مثل أجهزة الاستشعار والتطبيقات والمنصات الرقمية.
- تنظيف البيانات مرحلة حاسمة لضمان جودة التحليل والنتائج.
- مشاكل البيانات الشائعة التي يجب معالجتها: التكرار، التداخل، التلف، التنسيق الخاطئ، الأخطاء، النقص.
- تحليل بيانات غير نظيفة يؤدي إلى استنتاجات خاطئة ويصعب تشخيص مصدر الخطأ.
تنسيقات تخزين البيانات (جدول 1.5)
| الملفات المنسقة | قواعد البيانات العلائقية | قواعد البيانات غير العلائقية (NoSQL) | قواعد البيانات الرسومية | قواعد بيانات السلاسل الزمنية |
| :--- | :--- | :--- | :--- | :--- |
| JSON، XML، CSV، XLS | خادم مايكروسوفت SQL، أوراكل، MySQL | MongoDB، AWS DynamoDB، Azure Cosmos DB | Neo4j، AWS Neptune، Dgraph | InfluxDB، AWS Timescale |
🎴 بطاقات تعليمية للمراجعة
عدد البطاقات: 4 بطاقة لهذه الصفحة
ما هي عملية جمع البيانات (Data Collection) في علم البيانات؟
- أ) عملية تحليل البيانات واستخراج الأنماط منها باستخدام الخوارزميات.
- ب) عملية جمع القراءات أو الحقائق وتنسيقها، وتشمل الحصول عليها وتسميتها وتحسينها.
- ج) عملية تخزين البيانات في قواعد بيانات علائقية أو غير علائقية.
- د) عملية تصور البيانات وعرض النتائج باستخدام الرسوم البيانية.
الإجابة الصحيحة: b
الإجابة: عملية جمع القراءات أو الحقائق وتنسيقها، وتشمل الحصول عليها وتسميتها وتحسينها.
الشرح: 1. جمع البيانات هي المرحلة الثانية في دورة حياة علم البيانات. 2. هدفها توفير مجموعة بيانات كافية للمعالجة. 3. تشمل جمع القراءات والحقائق وتنسيقها. 4. تتضمن عمليات الحصول على البيانات وتسميتها وتحسينها. 5. يمكن أن تكون المصادر أجهزة استشعار أو تطبيقات أو منصات ويب.
تلميح: تذكر أنها المرحلة التي تلي تحديد الأهداف وتسبق تجهيز البيانات.
التصنيف: تعريف | المستوى: سهل
ما هي عملية تنظيف البيانات (Data Cleaning) في علم البيانات؟
- أ) عملية تحويل البيانات الخام إلى تنسيقات تخزين قياسية مثل JSON أو CSV.
- ب) عملية جمع البيانات من مصادر متعددة مثل أجهزة الاستشعار وتطبيقات الهاتف.
- ج) عملية متعددة المراحل لمراجعة البيانات وتصحيحها للتأكد من أنها في صيغة موحدة، ويتضمن ذلك معالجة القيم المفقودة والبيانات المشوشة وحل التناقضات والتكرارات.
- د) عملية استخدام الخوارزميات للتنبؤ بالاتجاهات المستقبلية بناءً على البيانات التاريخية.
الإجابة الصحيحة: c
الإجابة: عملية متعددة المراحل لمراجعة البيانات وتصحيحها للتأكد من أنها في صيغة موحدة، ويتضمن ذلك معالجة القيم المفقودة والبيانات المشوشة وحل التناقضات والتكرارات.
الشرح: 1. تنظيف البيانات هي عملية حاسمة في دورة حياة علم البيانات. 2. هدفها التأكد من مناسبة البيانات لمرحلة التحليل. 3. هي عملية متعددة المراحل تشمل المراجعة والتصحيح. 4. تهدف إلى توحيد صيغة البيانات. 5. تشمل معالجة القيم المفقودة والبيانات المشوشة والتناقضات والتكرارات.
تلميح: تذكر أن هذه العملية تهدف إلى ضمان جودة البيانات قبل التحليل.
التصنيف: تعريف | المستوى: متوسط
لماذا تُعد عملية تنظيف البيانات أمرًا مهمًا للغاية في دورة حياة علم البيانات؟
- أ) لأنها تجعل عملية تخزين البيانات في قواعد البيانات أسرع وأقل تكلفة.
- ب) لأنها تتيح استخدام أحدث الخوارزميات المعقدة في مرحلة التحليل.
- ج) لأن الرؤى أو الاستنتاجات المستمدة في مرحلة التحليل من البيانات غير النظيفة ستكون خاطئة، وسيصعب تحديد ما إذا كانت المشكلة ناشئة من أخطاء في التحليل أم من البيانات نفسها.
- د) لأنها تسمح بجمع كميات أكبر من البيانات من مصادر أكثر تنوعًا.
الإجابة الصحيحة: c
الإجابة: لأن الرؤى أو الاستنتاجات المستمدة في مرحلة التحليل من البيانات غير النظيفة ستكون خاطئة، وسيصعب تحديد ما إذا كانت المشكلة ناشئة من أخطاء في التحليل أم من البيانات نفسها.
الشرح: 1. تنظيف البيانات يضمن جودة البيانات المدخلة لمرحلة التحليل. 2. البيانات غير النظيفة (تالفة، غير صحيحة، مكررة، غير مكتملة) تؤدي إلى استنتاجات خاطئة. 3. يصعب تمييز سبب الخطأ: هل هو في خطوات التحليل أم في جودة البيانات الأصلية؟ 4. لذلك، تنظيف البيانات هو خطوة وقائية أساسية لضمان مصداقية النتائج النهائية.
تلميح: فكر في عواقب تحليل بيانات غير دقيقة أو غير مكتملة.
التصنيف: مفهوم جوهري | المستوى: متوسط
ما العملية التي تتضمن مراجعة البيانات وتصحيحها للتأكد من أنها في صيغة موحدة، ومعالجة القيم المفقودة وحل التناقضات والتكرارات؟
- أ) جمع البيانات (Data Collection)
- ب) تخزين البيانات (Data Storage)
- ج) تحليل البيانات (Data Analysis)
- د) تنظيف البيانات (Data Cleaning)
الإجابة الصحيحة: d
الإجابة: تنظيف البيانات (Data Cleaning)
الشرح: 1. تنظيف البيانات هو مرحلة أساسية تلي جمع البيانات وتسبق تحليلها.
2. تتضمن هذه العملية معالجة مشكلات تقنية مثل البيانات المفقودة، أو المكررة، أو المنسقة بشكل خاطئ.
3. تكمن أهميتها في ضمان دقة النتائج؛ لأن البيانات الخاطئة ستؤدي حتمًا إلى استنتاجات تحليلية خاطئة وصعبة التصحيح لاحقاً.
تلميح: فكر في المرحلة التي تهدف إلى إزالة الأخطاء وجعل البيانات جاهزة وموثوقة قبل بدء عملية التحليل.
التصنيف: مفهوم جوهري | المستوى: متوسط