استخدام مقياس تكرار المصطلح - تكرار المستند العكسي في البرمجة الاتجاهية للنصوص - كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 - المنهج السعودي - وزارة التعليم

📚 معلومات الصفحة

الكتاب: كتاب الذكاء الإصطناعي - الصف 12 - الفصل 1 | المادة: الذكاء الإصطناعي | المرحلة: الصف 12 | الفصل الدراسي: 1

الدولة: المملكة العربية السعودية | المنهج: المنهج السعودي - وزارة التعليم

نوع المحتوى: درس تعليمي

مستوى الصعوبة: متوسط

📝 ملخص الصفحة

يقدم هذا الدرس شرحاً مفصلاً لمقياس تكرار المصطلح - تكرار المستند العكسي (TF-IDF) كأداة مهمة في معالجة النصوص وتحليلها. يبدأ الدرس بمثال تطبيقي من بيانات تدريب IMDB يوضح كيفية تحليل النصوص باستخدام هذه التقنية.

يشرح الدرس المكونين الأساسيين لمقياس TF-IDF: تكرار المصطلح (Term Frequency) الذي يقيس عدد مرات ظهور المصطلح في المستند مقسوماً على إجمالي عدد الكلمات، وتكرار المستند العكسي (Inverse Document Frequency) الذي يحسب أهمية المصطلح بناءً على مدى انتشاره في مجموعة المستندات.

يتضمن الدرس شرحاً عملياً لاستخدام أداة TfidfVectorizer من مكتبة سكيليرن (Sklearn) لتنفيذ هذه التقنية، مع تقديم مثال برمجي يوضح كيفية تدريب النموذج على مجموعة بيانات نصية. كما يحتوي على رسم توضيحي يشرح مفهوم الأصل النصي (Corpus) وكيفية استخراج الكلمات والمصطلحات من المستندات.

📋 المحتوى المنظم

📖 محتوى تعليمي مفصّل

نوع: محتوى تعليمي

# an example of an annotated document from the imdb training data
X_train_text_annotated[0]
'i_grew up b 1965 watching and loving the thunderbirds all my_mates at school watched
we played thunderbirds before school during lunch and after school we all wanted to
be virgil or scott no_one wanted to be alan counting down from 5 became an art_form
i took my children to see the movie hoping they would get_a_glimpse of what i_loved
as a child how bitterly disappointing the only high_point was the snappy theme_tune
not that it could compare with the original score of the thunderbirds thankfully
early saturday_mornings one television_channel still plays reruns of the series
gerry_anderson and his_wife created jonatha frakes should hand in his directors chair
of film utter_rubbish a cgi remake may_be
acceptable but replacing marionettes with homo_sapiens subsp sapiens was a huge error
of judgment'

نوع: محتوى تعليمي

استخدام مقياس تكرار المصطلح - تكرار المستند العكسي في البرمجة الاتجاهية للنصوص
Using TF-IDF for Text Vectorization

نوع: محتوى تعليمي

تكرار الكلمة في المستند لا يُعدُّ دومًا تمثيلاً دقيقًا لأهميتها. الطريقة المُثلى لتمثيل التكرار هي المقياس الشهير لتكرار المصطلح - تكرار المستند العكسي (TF-IDF). يستخدم هذا المقياس صيغة رياضية بسيطة لتحديد أهمية الرموز مثل: الكلمات أو العبارات في المستند بناءً على عاملين:
• تكرار الرمز في المستند، بقياس عدد مرات ظهوره في المستند، مقسومًا على إجمالي عدد الرموز في جميع المستندات.
• تكرار المستند العكسي للرمز، المحسوب بقسمة إجمالي عدد المستندات في مجموعة البيانات على عدد المستندات التي تحتوي على الرمز.
العامل الأول يتجنب المبالغة في تقدير أهمية المصطلحات التي تظهر في الوثائق الأطول. أما العامل الثاني فيستبعد المصطلحات التي تظهر في كثير من المستندات، مما يساعد على إثبات حقيقة أن بعض الكلمات هي أكثر شيوعًا من غيرها.

نوع: محتوى تعليمي

تكرار المصطلح - تكرار المستند العكسي
Term Frequency Inverse Document
: Frequency (TF-IDF)

نوع: محتوى تعليمي

تكرار المصطلح - تكرار المستند العكسي هو طريقة تستخدم لتحديد أهمية الرموز في المستند.

شكل 3.13: الكلمات والمصطلحات الواردة في المستند

نوع: FIGURE_REFERENCE

نوع: محتوى تعليمي

تكرار المستند العكسي = عدد المستندات في الأصل النصي
عدد المستندات التي تحتوي على المصطلح
تكرار المصطلح = عدد مرات ظهور المصطلح في المستند
عدد الكلمات في المستند
تكرار المصطلح × تكرار المستند العكسي = القيمة

نوع: محتوى تعليمي

أداة TfidfVectorizer

نوع: محتوى تعليمي

توفر مكتبة سكيليرن (Sklearn) أداة تدعم هذا النوع من البرمجة الاتجاهية لتكرار المصطلح - تكرار المستند العكسي (TF-IDF). يمكن استخدام أداة TfidfVectorizer لتمثيل عبارة باستخدام المتجهات.

نوع: محتوى تعليمي

from sklearn.feature_extraction.text import TfidfVectorizer
# Train a TF-IDF model with the IMDb training dataset
vectorizer_tf = TfidfVectorizer(min_df=10)
vectorizer_tf.fit(X_train_text_annotated)
X_train_tf = vectorizer_tf.transform(X_train_text_annotated)

نوع: METADATA

وزارة التعليم
Ministry of Education
2023 - 1447

نوع: METADATA

149

🔍 عناصر مرئية

شكل 3.13: الكلمات والمصطلحات الواردة في المستند

A diagram titled 'الأصل النصي (Corpus)' showing three rectangular blocks representing 'المستند' (Document). Each document block contains multiple horizontal lines, symbolizing text content. Below each 'المستند' block, there are smaller blocks labeled 'الكلمة' (Word) and 'المصطلح' (Term), with the 'المصطلح' block highlighted in pink. This illustrates how words and terms are extracted from documents within a corpus.

📄 النص الكامل للصفحة

# an example of an annotated document from the imdb training data X_train_text_annotated[0]
'i_grew up b 1965 watching and loving the thunderbirds all my_mates at school watched we played thunderbirds before school during lunch and after school we all wanted to be virgil or scott no_one wanted to be alan counting down from 5 became an art_form i took my children to see the movie hoping they would get_a_glimpse of what i_loved as a child how bitterly disappointing the only high_point was the snappy theme_tune not that it could compare with the original score of the thunderbirds thankfully early saturday_mornings one television_channel still plays reruns of the series gerry_anderson and his_wife created jonatha frakes should hand in his directors chair of film utter_rubbish a cgi remake may_be acceptable but replacing marionettes with homo_sapiens subsp sapiens was a huge error of judgment'استخدام مقياس تكرار المصطلح - تكرار المستند العكسي في البرمجة الاتجاهية للنصوص
Using TF-IDF for Text Vectorizationتكرار الكلمة في المستند لا يُعدُّ دومًا تمثيلاً دقيقًا لأهميتها. الطريقة المُثلى لتمثيل التكرار هي المقياس الشهير لتكرار المصطلح - تكرار المستند العكسي (TF-IDF). يستخدم هذا المقياس صيغة رياضية بسيطة لتحديد أهمية الرموز مثل: الكلمات أو العبارات في المستند بناءً على عاملين:
• تكرار الرمز في المستند، بقياس عدد مرات ظهوره في المستند، مقسومًا على إجمالي عدد الرموز في جميع المستندات.
• تكرار المستند العكسي للرمز، المحسوب بقسمة إجمالي عدد المستندات في مجموعة البيانات على عدد المستندات التي تحتوي على الرمز.
العامل الأول يتجنب المبالغة في تقدير أهمية المصطلحات التي تظهر في الوثائق الأطول. أما العامل الثاني فيستبعد المصطلحات التي تظهر في كثير من المستندات، مما يساعد على إثبات حقيقة أن بعض الكلمات هي أكثر شيوعًا من غيرها.تكرار المصطلح - تكرار المستند العكسي
Term Frequency Inverse Document
: Frequency (TF-IDF)تكرار المصطلح - تكرار المستند العكسي هو طريقة تستخدم لتحديد أهمية الرموز في المستند.تكرار المستند العكسي = عدد المستندات في الأصل النصي عدد المستندات التي تحتوي على المصطلح تكرار المصطلح = عدد مرات ظهور المصطلح في المستند عدد الكلمات في المستند تكرار المصطلح × تكرار المستند العكسي = القيمةأداة TfidfVectorizerتوفر مكتبة سكيليرن (Sklearn) أداة تدعم هذا النوع من البرمجة الاتجاهية لتكرار المصطلح - تكرار المستند العكسي (TF-IDF). يمكن استخدام أداة TfidfVectorizer لتمثيل عبارة باستخدام المتجهات.from sklearn.feature_extraction.text import TfidfVectorizer
# Train a TF-IDF model with the IMDb training dataset vectorizer_tf = TfidfVectorizer(min_df=10)
vectorizer_tf.fit(X_train_text_annotated)
X_train_tf = vectorizer_tf.transform(X_train_text_annotated)2023 - 1447--- VISUAL CONTEXT ---
**DIAGRAM**: شكل 3.13: الكلمات والمصطلحات الواردة في المستند
Description: A diagram titled 'الأصل النصي (Corpus)' showing three rectangular blocks representing 'المستند' (Document). Each document block contains multiple horizontal lines, symbolizing text content. Below each 'المستند' block, there are smaller blocks labeled 'الكلمة' (Word) and 'المصطلح' (Term), with the 'المصطلح' block highlighted in pink. This illustrates how words and terms are extracted from documents within a corpus.
Key Values: الأصل النصي (Corpus), المستند, الكلمة, المصطلح
Context: This diagram visually represents the concept of a text corpus and how individual documents, words, and specific terms are identified within it, which is fundamental to understanding TF-IDF.

🎴 بطاقات تعليمية للمراجعة

عدد البطاقات: 5 بطاقة لهذه الصفحة

كيف يتم حساب 'تكرار المصطلح' (Term Frequency) في مقياس TF-IDF؟

الإجابة: يتم حساب تكرار المصطلح بقسمة عدد مرات ظهور المصطلح (الكلمة أو العبارة) في المستند على إجمالي عدد الكلمات في نفس المستند.

الشرح: يركز تكرار المصطلح على مدى شيوع كلمة معينة داخل مستند واحد. هذا يساعد في تحديد الكلمات التي قد تكون مهمة لهذا المستند بالتحديد.

تلميح: تخيل أنك تحسب عدد المرات التي تظهر فيها كلمة معينة في نص ما، ثم ما هي الخطوة التالية لنسبة هذا الظهور؟

ما هو الغرض من حساب 'تكرار المستند العكسي' (Inverse Document Frequency - IDF) في مقياس TF-IDF؟

الإجابة: الغرض من تكرار المستند العكسي هو استبعاد المصطلحات التي تظهر في العديد من المستندات (أي المصطلحات الشائعة جدًا والتي قد لا تكون مميزة لمستند معين)، مما يساعد على إبراز المصطلحات الأكثر تخصصًا وأهمية.

الشرح: IDF يقلل من وزن الكلمات التي تظهر في عدد كبير من المستندات، مما يعطي وزناً أكبر للكلمات الفريدة والمحددة للمستند.

تلميح: فكر في الكلمات التي تظهر في كل مكان تقريبًا. هل هذه الكلمات مهمة في تحديد موضوع مستند معين؟

ما هي الأداة التي توفرها مكتبة سكيليرن (Sklearn) لتمثيل النصوص باستخدام TF-IDF؟

الإجابة: الأداة هي TfidfVectorizer.

الشرح: TfidfVectorizer هي فئة في مكتبة Sklearn تقوم بتحويل مجموعة من النصوص إلى تمثيل متجهات باستخدام مقياس TF-IDF، وهي أداة شائعة الاستخدام في معالجة اللغات الطبيعية.

تلميح: ابحث عن اسم الأداة في النص الذي يبدأ بـ 'from sklearn.feature_extraction.text import ...'

لماذا يعتبر استخدام TF-IDF أفضل من مجرد حساب تكرار الكلمة في المستند عند تمثيل النصوص؟

الإجابة: TF-IDF يأخذ في الاعتبار ليس فقط تكرار الكلمة في المستند، بل أيضًا مدى ندرتها في مجموعة المستندات بأكملها. هذا يمنع إعطاء أهمية مبالغ فيها للكلمات الشائعة جدًا ويساعد على تحديد الكلمات الأكثر تميزًا وأهمية لكل مستند.

الشرح: تكرار الكلمة وحدها لا يعكس أهميتها بشكل كامل. TF-IDF يوازن بين تكرار الكلمة محليًا (في المستند) وعالميًا (في مجموعة المستندات) لتوفير تمثيل أكثر دقة.

تلميح: تخيل كلمتين: الأولى تتكرر كثيراً في كل المستندات، والثانية تتكرر كثيراً في مستند واحد فقط. أيهما تعتقد أنها أكثر أهمية لتعريف هذا المستند؟

ما هو المقياس الشائع استخدامه لتمثيل أهمية الكلمات أو العبارات في المستند بدلاً من مجرد تكرارها؟

الإجابة: المقياس الشائع هو 'تكرار المصطلح - تكرار المستند العكسي' (TF-IDF).

الشرح: TF-IDF هو طريقة لقياس مدى أهمية الكلمة في مستند معين ضمن مجموعة من المستندات. يتجنب هذا المقياس المبالغة في تقدير أهمية الكلمات الشائعة جدًا.

تلميح: فكر في المقياس الذي يأخذ في الاعتبار تكرار الكلمة في المستند مقارنة بتكرارها في مجموعة المستندات بأكملها.