
אם אתה מפתח יישומים C# אשר אינטראקציה עם מסמכים אלה, ייתכן שאתה מוצא את עצמך צריך לחלץ טקסט מהם. זה יכול להיות למטרות כגון ניתוח טקסט או לחלץ חלקים ספציפיים של מסמך כדי לסכם לתוך אחד חדש.
שולחן התוכן
- C# ספרייה לקיצוץ טקסט
- הבנה של קיצוץ טקסט במסמכי Word
- מדריך צעד אחר צעד כדי להוציא טקסט מסמך Word- הוספת טקסט בין סעיפים
- הוצאת טקסט בין סוגים שונים של נוטים
- יצירת טקסט מבוסס על סגנונות
C# Library for Text Extraction
מילות מפתח עבור .NET היא ספרייה חזקה וידידותית למשתמש שנועדה לעבוד עם מסמכי Word. היא מספקת מגוון מקיף של תכונות, כולל הוצאת טקסט, יצירת תיעוד, מניפולציה, והפוך. עם Aspose.Words עבור .NET, המפתחים יכולים לנהל ביעילות את היבטים שונים של המסמכים Word, מה שהופך אותו כלי חסר ערך לצרכי הפיתוח שלך.
כדי להתחיל, הורד את הספרייה או להתקין אותו ישירות מ NuGet באמצעות הפקודה הבאה בקונסולת מנהל החבילות:
PM> Install-Package Aspose.Words
להבין את קיצוץ הטקסט במסמכי המילה
מסמך MS Word מכיל אלמנטים שונים כגון פסוקים, טבלאות, ותמונות.לכן, הדרישות לקיצוץ טקסט עשויות להשתנות בהתאם למקרה השימוש הספציפי.
לכן, כדי לעבד את המסמך ביעילות, תצטרך לעבוד עם העמודים האלה.
הדרכה שלב אחר צעד כדי להוציא את הטקסט ממסמך Word
בסעיף זה, אנו מיישמים תמצית טקסט C# עבור מסמכי Word. זרימת העבודה עבור תמצית טקסט תכלול את השלבים הבאים:
- הגדר את העמודים כדי לכלול בתהליך החילוץ.
- להוציא את התוכן בין העמודים שנקבעו (כולל או למנוע את העמודים המתחילים והסופיים).
- השתמש בעכברים שנלקחו כדי ליצור מסמך Word חדש המכיל את התוכן שנלקח.
בואו נבנה שיטה בשם ExtractContent אשר תקבל כפתורים ופרמטרים אחרים כדי לבצע את הוצאת הטקסט.
StartNode ו EndNode: אלה מגדירים את נקודות ההתחלה והסוף עבור תמצית תוכן.הם יכולים להיות ברמה של בלוק (לדוגמה, סעיף, טבלה) או נוטים ברמה פנימית (לדוגמה, Run, FieldStart, BookmarkStart).- עבור שדות, הקלד את האובייקט המתאים FieldStart.
עבור תוויות ספרים, השתמש בעכברים BookmarkStart ו BookmarkEnd.
לקבלת הערות, השתמש בעכברים CommentRangeStart ו CommentRangeEnd.
IsInclusive: פרמטרה זו קובעת אם המדדים כלולים בחילוץ.אם הם מוגדרים לזיוף והם מסופקים באותם או נוזלים רצופים, רשימה ריקה תוחזר.
הנה יישום מלא של שיטת ExtractContent כדי לחלץ תוכן בין העמודים שנקבעו:
בנוסף, כמה שיטות עזרה נדרשות על ידי שיטת ExtractContent כדי להקל על הפעולה של הוצאת טקסט:
עכשיו שכאשר יש לנו את השיטות שלנו מוכנות, אנחנו יכולים להמשיך לחלץ טקסט מסמך Word.
הוצאת טקסט בין סעיפים של מסמך מילה {#הוצאת טקסט בין סעיפים}
כדי להוציא תוכן בין שני סעיפים במסמך Word DOCX, בצע את השלבים הבאים:
- הורד את מסמך המילה באמצעות הכיתה מסמך.
- קבלת התייחסות לסעיפים ההתחלה והסיום באמצעות שיטת Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
- התקשר לשיטה ExtractContent(startPara, endPara, True) כדי לחלץ את החוטים לתוך אובייקט.
- השתמש בשיטה העוזרת GenerateDocument(Document, extractedNodes) כדי ליצור מסמך עם התוכן שנלקח.
- שמור את המסמך החדש באמצעות שיטת Document.Save(string).
הנה דגימה של קוד המראה כיצד להוציא את הטקסט בין הפרקים 7 ו 11 במסמך Word:
הוצאת טקסט בין סוגים שונים של נוטים
ניתן גם להוציא תוכן בין סוגים שונים של כפתורים.לדוגמה, בואו נוציא תוכן בין סעיף לטבלה ולשמור אותו לתוך מסמך Word חדש.
- הורד את מסמך המילה באמצעות הכיתה מסמך.
- קבלת התייחסות לעמודי ההתחלה והסוף באמצעות שיטת Document.FirstSection.Body.GetChild(NodeType, int, boolean).
- התקשר ExtractContent(startPara, endPara, True) כדי לחלץ את העמודים לתוך אובייקט.
- השתמש בשיטה העוזרת GenerateDocument(Document, extractedNodes) כדי ליצור מסמך עם התוכן שנלקח.
- שמור את המסמך החדש באמצעות Document.Save(string).
הנה דגימת הקוד כדי להוציא טקסט בין פסוק לטבלה ב- C#:
הוצאת טקסט מבוסס סגנונות {#הוצאת טקסט-בין-סעיפים-בסיס-על-סגנונות}
כדי לחלץ תוכן בין הפסוקים המבוססים על סגנונות, בצע את השלבים הבאים.בשביל הדוגמה הזו, נוכל לחלץ תוכן בין “הכותרת 1” הראשונה לבין “הכותרת 3” הראשונה במסמך המילה:
- הורד את מסמך המילה באמצעות הכיתה מסמך.
- להוציא פרקים לתוך אובייקט באמצעות שיטת העזרה ParagraphsByStyleName(מסמך, “כותרת 1”).
- להוציא פרקים לאובייקט אחר באמצעות ParagraphsByStyleName(מסמך, “כותרת”).
- התקשר ExtractContent(startPara, endPara, True) עם האלמנטים הראשונים משני סעיפים.
- השתמש בשיטה העוזרת GenerateDocument(Document, extractedNodes) כדי ליצור מסמך עם התוכן שנלקח.
- שמור את המסמך החדש באמצעות Document.Save(string).
הנה דגימה של קוד כדי להוציא תוכן בין פרקים על בסיס סגנונות:
קרא עוד על קיצוץ טקסט
לחקור סקרינרים נוספים כדי להוציא טקסט מתוך מסמכי Word באמצעות מאמר מסמך זה.
קבל ספריית תמצית טקסט חינם
אתה יכול להשיג A רישיון זמני חינם להוציא את הטקסט ללא הגבלות הערכה.
מסקנה
Aspose.Words עבור .NET היא ספרייה מגוונת שמסדירה את תהליך החילוץ של טקסט מסמכי Word ב- C#. עם התכונות הרחבות שלה ו- API ידידותי למשתמש, אתה יכול לעבוד ביעילות עם מסמכי Word ולבצע אוטומציה של סצנות חילוץ טקסט שונות. בין אם אתה מפתח יישומים הדורשים עיבוד מסמכי Word או פשוט לחילוץ טקסט, Aspose.Words עבור .NET הוא כלי חיוני למפתחים.
כדי לחקור תכונות נוספות של Aspose.Words עבור .NET, בדוק את מסמכיםאם יש לך שאלות, להרגיש חופשי להגיע דרך שלנו פורום.
ראה גם
טיפ: ייתכן שתרצה לבדוק את Aspose PowerPoint למילה המהפך, אשר מראה את התהליך הפופולרי של ההפוך של הצגות למסמכים של Word.
More in this category
- המרת קובצי Word DOC/DOCX ל-PDF ב-C# .NET | תוסף הממיר של Aspose.Words
- יצירת ברקוד במסמכי וורד (.NET, C#) | קריאת ברקוד מוורד (.NET)
- חלץ תמונות ממסמכי וורד ב-C# | אוטומט תהליכי עיבוד תמונה
- אוטומט דוחות עם מיזוג דואר C# | תוסף מיזוג הדואר של Aspose.Words
- מצא והחלף טקסט במסמכי וורד באמצעות C# | אוטומט עריכת וורד