PDF átalakítása TXT-re C# | File Format Processing Plugins for C# .NET Core

Programozóként gyakran tartalmat kell kivonni a PDF-fájlokból, mint egy tiszta szöveget a további feldolgozáshoz, mint például az elemzés és az információ kivonása. A PDF-fájlok feldolgozása és az egész PDF-t a TXT formátumba való átalakítása problémás feladat, ha nincs a megfelelő eszközök#.

C# könyvtár PDF-re TXT átalakítás

[Aspose.Words for .NET][1] egy csodálatos dokumentumfeldolgozó API, amely lehetővé teszi a fejlesztők, hogy dolgozzon a Word dokumentumok, valamint a különböző egyéb formátumok, beleértve a PDF. A széles körű funkciók, Aspose.Words egyszerűsíti a dokumentum manipuláció, átalakítás, és generációs feladatok.

A könyvtárat a következő parancsot használva telepítheti [NuGet][5], vagy letöltheti a DLL-t a [Releases][6] szakaszból.

PM> Install-Package Aspose.Words

Átalakítsa a PDF-t a TXT-re C#

Az Aspose.Words for .NET elrejti a PDF-fájlokból származó szöveg kivonatának összes bonyolult műveletét, és lehetővé teszi, hogy a PDF-t a TXT-re néhány lépésben végezze el.

Töltse le a PDF fájlt.
A PDF-t a TXT formátumra egy funkcióhívással konvertáljuk.

Így a kód néhány vonalával egy PDF-fájl tartalmát tiszta szövegre tudod konvertálni, függetlenül attól, hogy mennyire nagy a forrás a PDF. Most írjuk meg a kódot, hogy ezt a konverziót C#-ban végezzük#.

Először töltse fel a PDF-t a Document osztály segítségével.
Ezután mentse a dokumentumot TXT fájlként a Document.Save(filePath) módszerrel.

A következő C# kódszalag egy PDF-t TXT formátumra konvertál.

Szerezzen ingyenes API licencet

Megkaphat egy [szabad ideiglenes licencet][2] a PDF fájlok TXT formátumba történő átalakításához értékelési korlátozások nélkül.

következtetések

Ebben a blogbejegyzésben felfedeztük, hogyan lehet a PDF-t a TXT-re C#-ban átalakítani az Aspose.Words .NET könyvtárhoz. Az iránymutatásokat követve és a kódszalag használatával könnyen feldolgozhatja a nagy PDF-fájlokat és a tiszta szövegre konvertálhatja őket. Az Aspose.Words egyszerűsíti a dokumentumfeldolgozási feladatokat, így értékes eszköz a fejlesztők számára, akik különböző dokumentumformátumokkal dolgoznak alkalmazásaikban].

Szövegkivonás részletei

A Aspose.Pdf könyvtár a TextAbsorber osztály segítségével biztosít finomhangolt szövegkivonási lehetőséget. A TextAbsorber képes a PDF minden oldalát bejárni, a szöveget egyetlen StringBuilder-be gyűjteni, vagy akár oldalonként külön szövegrészeket visszaadni. Példaként:

A fenti kód a TextAbsorber alapértelmezett viselkedését használja, de további finomhangolásra is van lehetőség, például csak bizonyos oldalakon vagy csak adott betűtípusú szövegek kivonására.

Teljesítmény és nagy fájlok kezelése

Nagy, több száz vagy ezer oldalas PDF-ek esetén a memóriahasználat optimalizálása kritikus. Az Aspose.Pdf támogatja a stream-alapú feldolgozást, amely lehetővé teszi, hogy a PDF-et FileStream‑ből olvassuk be, és a kinyert szöveget közvetlenül egy StreamWriter‑be írjuk. Így a teljes fájl nem kerül egyszerre a memóriába.

Ez a megközelítés csak egy oldal szövegét tartja a memóriában egyszerre, ami jelentősen csökkenti a RAM‑igényt és gyorsabbá teszi a konverziót.

Kódolás és karakterkészlet kezelése

A PDF-ek gyakran tartalmaznak Unicode karaktereket, speciális nyelveket vagy balról jobbra írás irányú szöveget. Az Encoding.UTF8 használata a File.WriteAllText vagy a StreamWriter esetén biztosítja, hogy a kimeneti TXT fájl helyesen ábrázolja ezeket a karaktereket. Ha a célrendszer más kódolást igényel (pl. Windows‑1250), egyszerűen cserélje ki az Encoding.UTF8‑t a kívánt Encoding.GetEncoding("windows-1250")‑re.

Gyakran feltett kérdések (FAQ)

Mi a különbség a TextAbsorber és a Document.Save TXT formátumban?

A Document.Save(..., SaveFormat.Text) egy egyszerű konverzió, amely a PDF struktúrájától függetlenül menti a szöveget. A TextAbsorber részletesebb vezérlést ad, például oldalak szűrését vagy formázási információk megtartását.

Milyen licencelési korlátozások vannak a próbaverzióban?

A próbaverzió vízjelet helyez a kimeneti szövegbe, és korlátozhatja a feldolgozható oldalak számát. Egy érvényes licenc eltávolítja ezeket a korlátozásokat.

Hogyan tudom a PDF‑ből csak a kiválasztott oldalakat exportálni?

A TextAbsorber csak a kívánt oldalakon hívható meg, például pdfDoc.Pages[1].Accept(absorber); vagy egy ciklusban a for (int i = start; i <= end; i++) konstrukcióval.

Mi történik, ha a PDF titkosított?

A Document osztály Encryption tulajdonsága lehetővé teszi a jelszó megadását: new Document("encrypted.pdf", new LoadOptions("password"));.

Ezekkel a tippekkel és példákkal könnyedén integrálhatja a PDF‑TXT konverziót bármely .NET alkalmazásba, legyen szó kis szkriptről vagy nagyvállalati megoldásról.

C# könyvtár PDF-re TXT átalakítás#

Átalakítsa a PDF-t a TXT-re C##

Szerezzen ingyenes API licencet#

következtetések#

Szövegkivonás részletei#

Teljesítmény és nagy fájlok kezelése#

Kódolás és karakterkészlet kezelése#

Gyakran feltett kérdések (FAQ)#

More in this category