📋 المحتوى المنظم
📖 محتوى تعليمي مفصّل
EMPTY
نوع: محتوى تعليمي
إحدى الخصائص الرئيسية لتقنية تضمين المجاور العشوائي الموزع على شكل T (T-SNE) هي محاولة الحفاظ على التركيب المحلي للبيانات قدر الإمكان، حتى تقارب نقاط البيانات الشبيهة في التمثيل منخفض الأبعاد، ويتحقق ذلك بتقليص التباعد بين التوزيعين المحتملين: توزيع البيانات عالية الأبعاد، وتوزيع البيانات منخفضة الأبعاد. مجموعة بيانات هيئة الإذاعة البريطانية الممثلة بالمتجهات تُصنّف بالتأكيد كبيانات عالية الأبعاد، لأنها تتضمن بعدًا مستقلاً أي عمودًا (Column) لكل كلمة فريدة تظهر في البيانات. يُحسب العدد الإجمالي للأبعاد كما يلي:
EMPTY
نوع: محتوى تعليمي
print('Number of unique words in the BBC documents vectors:', len(vectorizer.get_feature_names_out()))
EMPTY
نوع: محتوى تعليمي
Number of unique words in the BBC documents vectors: 5867
EMPTY
نوع: محتوى تعليمي
يُستخدم المقطع البرمجي التالي لإسقاط 5,867 بعدًا في محورين فقط وهما محوري X و Y في الرسم البياني. يُستخدم المقطع البرمجي التالي لتصميم مخطط الانتشار حيث يمثل كل لون أحد الأقسام الإخبارية الخمسة.
EMPTY
نوع: محتوى تعليمي
tsne = TSNEVisualizer(colors=['blue', 'green', 'red', 'yellow', 'brown'])
tsne.fit(text_tfidf,bbc_labels)
tsne.show();
شكل 3.18
نوع: FIGURE_REFERENCE
شكل 3.18: إسقاط تضمين المجاور العشوائي الموزع على شكل T (T-SNE)
EMPTY
نوع: محتوى تعليمي
يُستخدم هذا التصور قيمة ground-truth (بيانات الحقيقة المعتمدة) من القسم الإخباري (News Section) في كل مستند للكشف عن انتشار كل قيمة في إسقاط فضاء البرمجة الاتجاهية ثنائي الأبعاد. يوضح الشكل أنه على الرغم من ظهور بعض الشوائب في فراغات محددة من فضاء البيانات، إلا أن الأقسام الإخبارية الخمسة منفصلة بشكل جيد. وسنستعرض لاحقًا البرمجة الاتجاهية المحسّنة للحد من هذه الشوائب.
EMPTY
نوع: METADATA
وزارة التعليم
Ministry of Education
159
2025 - 1447
🔍 عناصر مرئية
TSNE Projection of 2225 Documents
A 2D scatter plot showing the t-SNE projection of 2225 documents, colored by their respective news categories. The plot displays distinct clusters for each category, indicating good separation, though some outliers are present.
📄 النص الكامل للصفحة
--- SECTION: EMPTY ---
إحدى الخصائص الرئيسية لتقنية تضمين المجاور العشوائي الموزع على شكل T (T-SNE) هي محاولة الحفاظ على التركيب المحلي للبيانات قدر الإمكان، حتى تقارب نقاط البيانات الشبيهة في التمثيل منخفض الأبعاد، ويتحقق ذلك بتقليص التباعد بين التوزيعين المحتملين: توزيع البيانات عالية الأبعاد، وتوزيع البيانات منخفضة الأبعاد. مجموعة بيانات هيئة الإذاعة البريطانية الممثلة بالمتجهات تُصنّف بالتأكيد كبيانات عالية الأبعاد، لأنها تتضمن بعدًا مستقلاً أي عمودًا (Column) لكل كلمة فريدة تظهر في البيانات. يُحسب العدد الإجمالي للأبعاد كما يلي:--- SECTION: EMPTY ---
print('Number of unique words in the BBC documents vectors:', len(vectorizer.get_feature_names_out()))--- SECTION: EMPTY ---
Number of unique words in the BBC documents vectors: 5867--- SECTION: EMPTY --- يُستخدم المقطع البرمجي التالي لإسقاط 5,867 بعدًا في محورين فقط وهما محوري X و Y في الرسم البياني. يُستخدم المقطع البرمجي التالي لتصميم مخطط الانتشار حيث يمثل كل لون أحد الأقسام الإخبارية الخمسة.--- SECTION: EMPTY ---
tsne = TSNEVisualizer(colors=['blue', 'green', 'red', 'yellow', 'brown'])
tsne.fit(text_tfidf,bbc_labels)
tsne.show();--- SECTION: شكل 3.18 --- شكل 3.18: إسقاط تضمين المجاور العشوائي الموزع على شكل T (T-SNE)--- SECTION: EMPTY --- يُستخدم هذا التصور قيمة ground-truth (بيانات الحقيقة المعتمدة) من القسم الإخباري (News Section) في كل مستند للكشف عن انتشار كل قيمة في إسقاط فضاء البرمجة الاتجاهية ثنائي الأبعاد. يوضح الشكل أنه على الرغم من ظهور بعض الشوائب في فراغات محددة من فضاء البيانات، إلا أن الأقسام الإخبارية الخمسة منفصلة بشكل جيد. وسنستعرض لاحقًا البرمجة الاتجاهية المحسّنة للحد من هذه الشوائب.--- SECTION: EMPTY --- 2025 - 1447--- VISUAL CONTEXT ---
**DIAGRAM**: TSNE Projection of 2225 Documents Description: A 2D scatter plot showing the t-SNE projection of 2225 documents, colored by their respective news categories. The plot displays distinct clusters for each category, indicating good separation, though some outliers are present.
Table Structure:
Headers: N/A Rows:
Calculation needed: EMPTY X-axis: EMPTY Y-axis: EMPTY Data: The plot shows 2225 data points, each representing a document, projected into a two-dimensional space. The points are colored according to their original classification into five news categories: business (blue), entertainment (green), politics (red), sport (yellow), and tech (brown). The visualization demonstrates that documents from the same category tend to cluster together, forming visually distinct groups, with some overlap or 'noise' in specific areas.
Key Values: business (blue), entertainment (green), politics (red), sport (yellow), tech (brown)
Context: This t-SNE projection demonstrates the effectiveness of dimensionality reduction in visualizing high-dimensional text data, showing how documents from different news categories can be separated into distinct clusters in a 2D space, aiding in understanding data structure and identifying potential outliers or noise.
🎴 بطاقات تعليمية للمراجعة
عدد البطاقات: 5 بطاقة لهذه الصفحة
ما هي الخاصية الرئيسية لتقنية تضمين المجاور العشوائي الموزع على شكل T (T-SNE) فيما يتعلق بالحفاظ على التركيب المحلي للبيانات؟
الإجابة: الخاصية الرئيسية هي محاولة الحفاظ على التركيب المحلي للبيانات قدر الإمكان، وذلك بتقليص التباعد بين التوزيعين الاحتماليين للبيانات عالية الأبعاد ومنخفضة الأبعاد، مما يؤدي إلى تقارب نقاط البيانات الشبيهة في التمثيل منخفض الأبعاد.
الشرح: تشرح هذه الخاصية كيف أن T-SNE تسعى للحفاظ على العلاقات بين النقاط المتقاربة في البيانات الأصلية عند إسقاطها إلى مساحة ذات أبعاد أقل، مما يجعلها مفيدة لتصور البيانات المعقدة.
تلميح: فكر في كيفية جعل النقاط المتشابهة قريبة من بعضها في المساحة الأقل بعدًا.
ماذا يمثل العدد 5867 في سياق بيانات هيئة الإذاعة البريطانية (BBC) الممثلة بالمتجهات؟
الإجابة: يمثل العدد 5867 العدد الإجمالي للكلمات الفريدة التي تظهر في بيانات هيئة الإذاعة البريطانية، حيث يعتبر كل منها بعدًا مستقلاً (عمودًا) في المتجهات.
الشرح: في تمثيل المتجهات للنصوص، عادة ما يمثل كل بُعد كلمة فريدة. لذلك، فإن عدد الأبعاد يساوي عدد الكلمات الفريدة الموجودة في مجموعة البيانات.
تلميح: تذكر كيف يتم تمثيل مستندات النص كمتجهات وكيف يؤثر عدد الكلمات الفريدة على أبعاد هذه المتجهات.
ما هو الهدف من استخدام المقطع البرمجي لتقنية TSNE في هذا السياق؟
الإجابة: الهدف هو إسقاط 5,867 بعدًا (عدد الكلمات الفريدة) في محورين فقط (محوري X و Y) لتمثيل البيانات في رسم بياني ثنائي الأبعاد، مما يسهل تصور العلاقات بين المستندات.
الشرح: تقنية T-SNE هي طريقة لتقليل الأبعاد تستخدم لتصور البيانات المعقدة وعالية الأبعاد في مساحة ذات أبعاد أقل (عادة 2 أو 3) مع محاولة الحفاظ على البنية المحلية.
تلميح: فكّر في السبب وراء الحاجة إلى تحويل بيانات عالية الأبعاد إلى مساحة ثنائية الأبعاد.
في مخطط الانتشار الناتج عن TSNE، ماذا يمثل كل لون من الألوان المختلفة؟
الإجابة: يمثل كل لون أحد الأقسام الإخبارية الخمسة (مثل الأعمال، الترفيه، السياسة، الرياضة، والتكنولوجيا)، مما يساعد على التمييز بين المستندات بناءً على فئتها الأصلية.
الشرح: استخدام الألوان لتمثيل فئات البيانات في التصورات ثنائية الأبعاد هو أسلوب شائع لتحديد ما إذا كانت الفئات منفصلة بشكل جيد في المساحة المخفضة الأبعاد.
تلميح: ارجع إلى وصف الشكل 3.18 والتعليمات الخاصة بتصميم مخطط الانتشار.
ماذا يوضح شكل 3.18 (TSNE Projection) بخصوص انفصال الأقسام الإخبارية؟
الإجابة: يوضح الشكل أنه على الرغم من ظهور بعض الشوائب أو التداخلات في فراغات محددة، إلا أن الأقسام الإخبارية الخمسة منفصلة بشكل جيد عن بعضها البعض في إسقاط فضاء البرمجة الاتجاهية ثنائي الأبعاد.
الشرح: يشير الفصل الجيد بين مجموعات الألوان إلى أن تقنية T-SNE نجحت في تمثيل البيانات بطريقة تحافظ على تمييز الفئات المختلفة، حتى في مساحة منخفضة الأبعاد.
تلميح: فكر في الانطباع العام الذي تحصل عليه من رؤية تجمعات الألوان المختلفة في الرسم البياني.