PDF fișierele sunt populare pentru că susțin text, imagini, animații, videoclipuri și diferite note. Cu toate acestea, pentru mulți documente, textul este cea mai crucială parte. Acest articol explică cum să se converteze fișiere PDF în fiști TXT și, invers, fiște TXT în PDF folosind C# .NET. Această conversie este deosebit de utilă atunci când trebuie să extrageți sau să vă concentrați exclusiv pe conținutul text al unui document PDF, cum ar fi efectuarea analizei textului sau pregătirea continutului pentru reformare.

Subiectele acoperite în acest ghid includ:

Tip: Puteți fi, de asemenea, interesat de un gratuit Cuvânt cheie: GIF Converter Acest lucru vă permite să generați GIF-uri animate din text.

C# TXT în PDF sau PDF în TXT Converter

Conversia dintre formatele PDF și TXT este esențială atunci când interesul dvs. principal se află în datele textului din cadrul unui document. fie că trebuie să ștergeți toate formatările pentru o analiză simplă de text sau să păstrați un anumit layout structurat, procesul poate fi finalizat cu câteva pași simple folosind Aspose.PDF pentru .NET Această API este versatilă și susține atât C# cât și VB.NET, ceea ce face ușor de integrat în aplicațiile .NET.

Pentru a instala API-ul în aplicația dvs., puteți descărca fie fișierele DLL de la Descărcări sau să folosească Năstase De exemplu, instalați-l prin intermediul consolei Package Manager:

PM> Install-Package Aspose.PDF

Odată ce API-ul este instalat, puteți începe procesul de conversie cu mai multe abordări adaptate nevoilor diferite.

C# Convertează PDF în TXT fără formatare

Uneori, aveți nevoie doar de textul brut dintr-un document PDF fără nici un format suplimentar. Această metodă extrage textul exact așa cum apare în document, fără a păstra fonturi, spațiu sau stiluri. Este deosebit de util pentru analiza textului, indexarea căutării sau atunci când layoutul este irelevant.

Etapele pentru extracția textului crud

  • Încărcați documentul PDF de intrare: Utilizați API-ul pentru a încărca fișierul PDF într-un obiect Document.

  • Începeți un StringBuilder: Creaţi un exemplu de Stringbuilder de clasă pentru a acumula în mod eficient date text.

  • Iterate prin fiecare pagină PDF: Călătorește prin toate paginile documentului. pentru fiecare pagină:

  • Utilizarea TextDevice pentru a extrage textul.

  • Întreprinderea a Modul Raw pentru a se asigura că formatarea nu este aplicată.

  • Salvați textul de ieșire: Scrieți textul acumulat într-un fișier TXT.

Snippetul de cod de mai jos ilustrează modul de convertire a unui PDF într-un fișier TXT folosind metoda de extracție Raw:

Insights suplimentare

  • Performanță și simplicitate: Extractul de text brut este de obicei mai rapid, deoarece nu încearcă să parseze sau să aplice nici o regulă de formatare.
  • • cazuri de utilizare: Ideal pentru extragerea jurnalelor, indexarea căutării sau scenarii în care este necesar doar conținutul text.

Convertați PDF-ul în fișierul TXT cu Rutine de formate folosind C# sau VB.NET

În alte scenarii, păstrarea formatării textului (cum ar fi paragrafele, indentațiile și coloanele) este esențială.Această metodă se aplică formatării rutinelor pentru a reflecta layoutul documentului în fișierul TXT rezultatul.

Pasuri pentru extragerea textului cu formatare

  • Încărcați fișierul PDF Sursă: Ca înainte, încărcați documentul PDF în aplicația dvs.

  • Începeți o variabilă strâmtorată: Pregătiți un string pentru a colecta rezultatul text formatat.

  • Extractarea textului folosind modul de formatare: Pentru fiecare pagină, folosiți TextFormatareMode.Pure Acest mod încearcă să reproducă formatarea originală cât mai aproape posibil.

  • Salvați textul formatat: Exportați textul colectat într-un fișier TXT care păstrează formatul structurat, cum ar fi pauzele de linie, indentele și spațiul tabelor.

Următorul exemplu de cod arată cum să convertiți un PDF într-un fișier TXT cu formatul text folosind C#:

Compararea vizuală a RAW și a Extracției Pure

Imaginea de mai jos oferă o comparație vizuală a celor două moduri de extracție. pe stânga, textul PDF apare cu formatarea sa originală (modul pur), în timp ce partea dreaptă afișează textul brut fără nici un format.

Convert PDF TXT csharp

Convertarea fișierului TXT în PDF Programat folosind C# sau VB.NET

Conversia unui fișier TXT înapoi într-un PDF este utilă atunci când aveți nevoie să produceți un document polizat din conținutul textului net. Acest proces implică citirea textului și apoi aplicarea formatării PDF pentru a crea un document care este vizual atractiv și gata pentru distribuție.

Pasuri pentru TXT în PDF Conversion

  • Creați o instanță TextReader:* Foloseşte-l pe textreader pentru a citi conținutul din fișierul TXT.

  • Începeți un nou document PDF și adăugați o pagină albă: Creaţi un exemplu de Documentul Curs și adăugați o nouă pagină.

  • Instalarea unui obiect TextBuilder: Foloseşte-l pe Textul constructorului pentru a construi paragrafele text cu formatarea dorită, cum ar fi fontul, dimensiunea și culoarea.

  • Citiți și adăugați fiecare linie de text: Mergeți prin liniile din fișierul TXT, adăugând fiecare linie la obiectul TextBuilder.

  • Salvați ieșirea PDF: Foloseşte-l pe Cuvânt cheie (String) Metoda de a scrie fișierul PDF final pe disc.

Snippetul de cod de mai jos arată cum să convertiți un fișier TXT într-un document PDF folosind C#:

Considerații atunci când convertiți TXT în PDF

  • Layout și stil: Poate fi necesar să ajustați marginea, spațiul de linii și alte proprietăți de text pentru a vă asigura că PDF-ul este bine format și citit.
  • Răspunsuri la greșeală: Implementarea verificării erorilor în timpul operațiunilor de citire și scriere a fișierelor pentru a gestiona scenarii, cum ar fi problemele de acces la fișiere sau codificarea eșecurilor.

concluziile

În acest articol, am demonstrat tehnicile de convertire a fișierelor PDF în fișiere TXT și TXT în PDF folosind C# sau VB.NET în .NET Framework. fie că optați pentru extracția de text crud pentru viteză și simplitate sau necesită text formatat pentru a menține layoutul documentului, Aspose.PDF pentru .NET API oferă soluții fiabile și flexibile.Aceste metode de conversie sunt invaluabile pentru prelucrarea datelor, arhivarea documentelor și redistribuirea conținutului.

În cazul în care aveți întrebări sau solicită asistență suplimentară, vă rugăm să ne vizitați Forumul de sprijin gratuit sau revizuirea Documentarea produsului.

Vezi și

More in this category