📋 المحتوى المنظم
📖 محتوى تعليمي مفصّل
نوع: محتوى تعليمي
لقد استخدمت في وقت سابق في هذه الوحدة أداة تضمين المجاور العشوائي الموزع على شكل T والتي هي (TSNEVisualizer) ، لتصوير المستندات الممثلة بالمتجهات المنتجة باستخدام أداة تكرار المصطلح - تكرار المستند العكسي (TF-IDF) . يمكن الآن استخدامها للتضمينات المنتجة بواسطة تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) :
نوع: محتوى تعليمي
tsne = TSNEVisualizer(colors=['blue', 'green', 'red', 'yellow', 'brown'])
tsne.fit(text_emb,bbc_labels)
tsne.show();
شكل 3.23
نوع: FIGURE_REFERENCE
شكل 3.23: إسقاط تضمين المجاور العشوائي الموزع على شكل T (T-SNE) للتضمينات المنتجة بواسطة تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)
نوع: محتوى تعليمي
يوضح الشكل أن تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تؤدي إلى فصل أكثر وضوحًا للأقسام الإخبارية المختلفة مع عدد أقل من الشوائب من تكرار المصطلح - تكرار المستند العكسي (TF-IDF). الخطوة التالية هي استخدام التضمينات لتدريب خوارزمية التجميع التكتلي:
نوع: محتوى تعليمي
plt.figure() # create a new figure.
# iteratively merge points and clusters until all points belong to a single cluster. Return the linkage of
the produced tree.
linkage_emb=hierarchy.linkage(text_emb, method='ward')
hierarchy.dendrogram(linkage_emb) # visualize the linkage.
plt.show() # show the figure.
شكل 3.24
نوع: FIGURE_REFERENCE
شكل 3.24: الرسم الشجري الهرمي لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)
نوع: METADATA
وزارة التعليم
Ministry of Education
2025 - 1447
نوع: METADATA
168
🔍 عناصر مرئية
TSNE Projection of 2225 Documents
A 2D projection of 2225 documents using t-SNE, colored by category. The legend indicates five categories: business (blue), entertainment (green), politics (red), sport (yellow), and tech (brown). The points are clustered visually, showing separation between the different categories.
الرسم الشجري الهرمي لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)
A dendrogram illustrating the hierarchical clustering of document embeddings. The y-axis represents the linkage distance or dissimilarity, ranging from 0 to 14. The x-axis represents individual data points or sub-clusters. The tree structure shows how smaller clusters merge into larger ones at increasing distances, revealing the hierarchical relationships between documents.
📄 النص الكامل للصفحة
لقد استخدمت في وقت سابق في هذه الوحدة أداة تضمين المجاور العشوائي الموزع على شكل T والتي هي (TSNEVisualizer) ، لتصوير المستندات الممثلة بالمتجهات المنتجة باستخدام أداة تكرار المصطلح - تكرار المستند العكسي (TF-IDF) . يمكن الآن استخدامها للتضمينات المنتجة بواسطة تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) :tsne = TSNEVisualizer(colors=['blue', 'green', 'red', 'yellow', 'brown'])
tsne.fit(text_emb,bbc_labels)
tsne.show();--- SECTION: شكل 3.23 --- شكل 3.23: إسقاط تضمين المجاور العشوائي الموزع على شكل T (T-SNE) للتضمينات المنتجة بواسطة تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)يوضح الشكل أن تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) تؤدي إلى فصل أكثر وضوحًا للأقسام الإخبارية المختلفة مع عدد أقل من الشوائب من تكرار المصطلح - تكرار المستند العكسي (TF-IDF). الخطوة التالية هي استخدام التضمينات لتدريب خوارزمية التجميع التكتلي:plt.figure() # create a new figure.
# iteratively merge points and clusters until all points belong to a single cluster. Return the linkage of the produced tree.
linkage_emb=hierarchy.linkage(text_emb, method='ward')
hierarchy.dendrogram(linkage_emb) # visualize the linkage.
plt.show() # show the figure.--- SECTION: شكل 3.24 --- شكل 3.24: الرسم الشجري الهرمي لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)2025 - 1447--- VISUAL CONTEXT ---
**FIGURE**: TSNE Projection of 2225 Documents Description: A 2D projection of 2225 documents using t-SNE, colored by category. The legend indicates five categories: business (blue), entertainment (green), politics (red), sport (yellow), and tech (brown). The points are clustered visually, showing separation between the different categories.
X-axis: Projection Dimension 1 (unlabeled)
Y-axis: Projection Dimension 2 (unlabeled)
Data: The plot shows distinct clusters for each category, indicating that the SBERT embeddings effectively separate documents by their content. For example, the blue cluster (business) is clearly separated from the red cluster (politics).
Key Values: 2225 documents, 5 categories: business, entertainment, politics, sport, tech Context: This figure demonstrates the effectiveness of t-SNE in visualizing high-dimensional data (SBERT embeddings) by reducing it to two dimensions, revealing inherent clustering and category separation.**DIAGRAM**: الرسم الشجري الهرمي لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)
Description: A dendrogram illustrating the hierarchical clustering of document embeddings. The y-axis represents the linkage distance or dissimilarity, ranging from 0 to 14. The x-axis represents individual data points or sub-clusters. The tree structure shows how smaller clusters merge into larger ones at increasing distances, revealing the hierarchical relationships between documents.
X-axis: Data Points/Clusters Y-axis: Distance/Dissimilarity Data: The dendrogram shows several distinct initial clusters, indicated by different colors (blue, green, red, yellow) at lower linkage distances. These clusters progressively merge as the distance increases, forming a hierarchical structure. This visualization helps in determining the optimal number of clusters by observing significant drops in linkage distance.
Key Values: Y-axis range: 0-14
Context: This figure illustrates the process of hierarchical agglomerative clustering on SBERT embeddings, which is used to group similar documents into a tree-like structure, allowing for the identification of natural groupings at various levels of granularity.
🎴 بطاقات تعليمية للمراجعة
عدد البطاقات: 5 بطاقة لهذه الصفحة
ما هي الأداة المستخدمة لتصوير المستندات الممثلة بالمتجهات المنتجة بواسطة تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT)؟
الإجابة: الأداة المستخدمة هي TSNEVisualizer (أداة تضمين المجاور العشوائي الموزع على شكل T).
الشرح: النص يذكر بوضوح أن TSNEVisualizer يمكن استخدامها للتضمينات المنتجة بواسطة SBERT، مما يشير إلى أنها الأداة الأساسية لهذا الغرض في هذا السياق.
تلميح: فكر في الأداة التي تم ذكرها بشكل صريح كبديل لأدوات سابقة وتستخدم لتخفيض الأبعاد.
ما هي الميزة الرئيسية لتمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مقارنة بـ TF-IDF في تصوير المستندات؟
الإجابة: تمثيلات SBERT تؤدي إلى فصل أكثر وضوحًا للأقسام الإخبارية المختلفة مع عدد أقل من الشوائب مقارنة بـ TF-IDF.
الشرح: يشير الشكل 3.23 صراحة إلى أن SBERT يحقق فصلًا أفضل للأقسام الإخبارية.
تلميح: راجع وصف الشكل 3.23 وما يشير إليه النص حول جودة الفصل بين الفئات.
ما هي الخطوة التالية المقترحة بعد استخدام التضمينات المنتجة بواسطة SBERT؟
الإجابة: الخطوة التالية هي استخدام التضمينات لتدريب خوارزمية التجميع التكتلي (Clustering Algorithm).
الشرح: النص يذكر صراحة: 'الخطوة التالية هي استخدام التضمينات لتدريب خوارزمية التجميع التكتلي'.
تلميح: بعد تصور البيانات، ما هي العملية الشائعة لتحليل وتقسيم هذه البيانات إلى مجموعات؟
ما هي الفائدة التي يوفرها استخدام تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) في تصوير المستندات مقارنةً بأداة تكرار المصطلح - تكرار المستند العكسي (TF-IDF)؟
الإجابة: توفر تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) فصلًا أكثر وضوحًا للأقسام الإخبارية المختلفة مع عدد أقل من الشوائب مقارنةً بأداة تكرار المصطلح - تكرار المستند العكسي (TF-IDF).
الشرح: تضمينات SBERT تلتقط العلاقات الدلالية بين الكلمات بشكل أفضل من TF-IDF، مما يؤدي إلى تمثيل أكثر دقة للمستندات وبالتالي فصل أفضل بين الأقسام الإخبارية.
تلميح: فكر في كيفية تأثير التمثيل الأفضل للبيانات على التمييز بين الفئات.
التصنيف: فرق بين مفهومين | المستوى: متوسط
ما هي الفائدة التي تعود من استخدام تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) مقارنة بأداة تكرار المصطلح - تكرار المستند العكسي (TF-IDF) في تصوير المستندات؟
الإجابة: تؤدي تمثيلات ترميز الجمل ثنائية الاتجاه من المحولات (SBERT) إلى فصل أكثر وضوحًا للأقسام الإخبارية المختلفة مع عدد أقل من الشوائب.
الشرح: SBERT توفر تمثيلات أكثر دقة للمستندات، مما يؤدي إلى تجميع أفضل وفصل أوضح بين الفئات المختلفة.
تلميح: ركز على كيفية تحسين SBERT لفصل البيانات.
التصنيف: فرق بين مفهومين | المستوى: متوسط