
בתור מתכנת, לעתים קרובות עליך לחלץ תוכן מתוך קבצי PDF כטקסט שטוח לעיבוד נוסף, כגון ניתוח וחידוש מידע.עיבוד קבצי PDF והפוך של PDF כולו לתבנית TXT הוא משימה מטרידה כאשר אין לך את הכלים הנכונים#.
C# Library for PDF to TXT Conversion
[Aspose.Words for .NET][1] הוא API מעובד מסמכים מדהים המאפשר למפתחים לעבוד עם מסמכים של Word, כמו גם מגוון רחב של פורמטים אחרים, כולל PDF. עם מגוון רחב של תכונות, Aspose.Words מקל על ניהול מסמכים, ההמרה, ואת משימות הגדלה.
באפשרותך להתקין את הספרייה מ- [Get][5] באמצעות הפקודה הבאה או להוריד את DLL שלה מ- [Releases][6.
להמיר PDF ל- TXT ב- C#
Aspose.Words עבור .NET מסתיר את כל הפעולות המורכבות של הוצאת טקסט מתוך קבצי PDF ומאפשר לך לבצע את ההמרה PDF ל- TXT בכמה שלבים, כפי שהוזכר להלן.
- הורד את קובץ PDF.
- להמיר PDF לתבנית TXT באמצעות שיחה פונקציונלית אחת.
כך, עם כמה שורות של קוד, אתה יכול להמיר תוכן בקובץ PDF לטקסט שטוח, לא משנה כמה גדול מקור PDF הוא#.
- ראשית, להעלות את ה- PDF באמצעות הכיתה Document.
- לאחר מכן, שמור את המסמך כקובץ TXT באמצעות שיטת Document.Save(filePath.
הקוד הבא של C# הופך PDF לפורמט TXT.
קבל רישיון API חינם
אתה יכול לקבל [רישיון זמני חינם][2] כדי להמיר קבצים PDF לתבנית TXT ללא הגבלות הערכה.
מסקנה
בפוסט זה בבלוג, חקרנו כיצד להמיר PDF ל- TXT ב- C# באמצעות הספרייה Aspose.Words עבור .NET. לעקוב אחר ההנחיות ולהשתמש בקובץ הקוד, אתה יכול בקלות לעבד קבצי PDF גדולים ולהפוך אותם לטקסט שטוח. Aspose.Words מפשט את משימות עיבוד המסמכים, מה שהופך אותו כלי יקר למפתחים שעובדים עם פורמטים מסמכים שונים ביישומים שלהם].
אפשרויות מתקדמות לחילוץ טקסט
ב‑Aspose.PDF for .NET ישנו מספר כלים המאפשרים שליטה מדויקת על תהליך החילוץ. ניתן להשתמש במחלקת TextAbsorber יחד עם אפשרויות סינון כגון PageNumber, SearchText ו‑TextSearchOptions כדי לחלץ רק את הטקסט הרלוונטי. לדוגמא, אם ברצונך לחלץ טקסט רק מהעמוד הראשון של קובץ PDF, אפשר להגדיר:
הקוד מדגים כיצד למקד את החילוץ בעמוד ספציפי, חוסך זמן ועיבוד כאשר קבצים גדולים מכילים מידע מיותר.
טיפול בטקסט רב‑שפה ובקידוד
Aspose.PDF תומך במגוון רחב של קידודים כולל UTF‑8, UTF‑16 ו‑ISO‑8859‑1. כאשר קובץ ה‑PDF מכיל טקסט בעברית, ערבית או בשפות אחרות, יש לוודא שהקידוד של הקובץ המיוצא הוא UTF‑8 כדי למנוע בעיות בתצוגה. ניתן להגדיר זאת בזמן כתיבת הקובץ:
בנוסף, אם יש צורך להוציא רק טקסט מתוך טבלאות או תיבות טקסט, ניתן להשתמש במחלקת TextFragmentAbsorber ולסנן לפי FragmentType.
ביצועים ואופטימיזציה
כאשר עובדים עם קבצים בגודל של כמה מאות מגהבייט, יש כמה טכניקות לשיפור הביצועים:
- הפעלה במצב Stream – במקום לטעון את כל הקובץ לזיכרון, אפשר לפתוח אותו כ‑
FileStreamולעבד דפים באוניברסיטה. - הגבלת דפים – השתמשו ב‑
PageNumberאו ב‑PageCountשלTextAbsorberכדי לחלץ רק את הקטעים הדרושים. - השתמשו ב‑Parallel.ForEach – ניתן לעבד קבוצות של דפים במקביל בעזרת
Parallel.ForEachכאשר מסמכים אינם תלויים זה בזה.
דוגמה לשימוש במקביליות:
הקפדה על טכניקות אלו תאפשר לכם לחלץ טקסט ממסמכי PDF גדולים בצורה יעילה, תוך שמירה על משאבי מערכת מינימליים.
שאלות נפוצות
- האם ניתן לחלץ טקסט מתמונות ב‑PDF? – כן, Aspose.PDF משלב מודול OCR דרך
Aspose.Pdf.AIהמאפשר המרה של תמונות למחרוזות טקסט. - האם הפונקציה תתמוך בטקסט מקודד בתווים מיוחדים? – עם קידוד UTF‑8, רוב התווים המיוחדים יישמרו ללא בעיות.
- האם יש מגבלה על גודל הקובץ? – אין מגבלה מובנית, אך מומלץ להשתמש באופטימיזציות שהוזכרו למניעת שימוש יתר בזיכרון.