PDF:n muuntaminen TXT:lle C#:ssä#

Ohjelmoijana sinun täytyy usein poistaa sisältö PDF-tiedostoista tasaisena tekstinä jatkossakin käsittelyä varten, kuten analyysi- ja tiedonlähtö. PDF-tiedostojen käsittely ja koko PDF-tiedoston muuntaminen TXT-muotoon on ongelmallista tehtävää, kun sinulla ei ole oikeita työkaluja#.
C# Library for PDF to TXT Conversion
[Aspose.Words for .NET][1] on uskomaton asiakirjojen käsittely API, jonka avulla kehittäjät voivat työskennellä Word-asiakirjoja sekä erilaisia muita muotoja, mukaan lukien PDF. Sen laaja valikoima ominaisuuksia, Aspose.Words yksinkertaistaa asiakirjan manipulointi, muuntaminen ja tuottaminen tehtäviä. Käytämme tätä kirjastoa muuntaa PDF-tiedostoja TXT-muodossa .NET-sovelluksessa.
Voit asentaa kirjastoon [NuGet][5] seuraavalla komennolla. tai ladata sen DLL [Releases][6] -osasta.
PM> Install-Package Aspose.Words
Muunna PDF: n TXT: lle C#
Aspose.Words for .NET piilottaa kaikki monimutkaiset tekstin poisto toiminnot PDF-tiedostoista ja mahdollistaa PDF: n TXT-muuntamisen muutamassa vaiheessa, kuten edellä mainittiin.
- Lataa PDF-tiedosto.
- Muunna PDF-muodossa TXT-muodossa yhden toiminnallisen puhelun avulla.
Joten muutamalla koodin rivillä voit muuntaa sisältöä PDF-tiedostossa selkeään tekstiin, riippumatta siitä, kuinka suuri lähde PDF on#.
- Ensinnäkin ladata PDF käyttämällä Dokumentin luokkaa.
- Sitten tallenna asiakirja TXT-tiedostona käyttämällä Document.Save(filePath) -menetelmää.
Seuraava C#-koodi muuttaa PDF:n TXT-muodoksi.
Hanki ilmainen API-lisenssi
Voit saada [ilmaisen väliaikaisen lisenssin][2] muuntaa PDF-tiedostoja TXT-muotoon ilman arviointirajoituksia.
johtopäätöksiä
Tässä blogikirjassa olemme tutkineet, miten muuntaa PDF-tiedostoon TXT: ssä C#: ssä käyttämällä Aspose.Words .NET-kirjastosta. Ohjeiden noudattamisen ja koodin puristuksen avulla voit helposti käsitellä suuria PDF-tiedostoja ja muuntaa ne tasaiseen tekstiin. Aspose.Words yksinkertaistaa asiakirjojen käsittelytehtäviä, mikä tekee siitä arvokasta työkalua kehittäjille, jotka työskentelevät eri asiakirjaformaateilla sovelluksissaan. Voit käydä [dokumentti][3] tämän .NET-sanan käsittelykirjaston tutkimaan sen uskomattomia ominaisuuksia].
Tekstin poisto PDF:stä Aspose.PDF:llä
Aspose.PDF for .NET tarjoaa suoran tavan poimia tekstiä PDF-dokumenteista. Käytetään TextAbsorber‑luokkaa, joka kerää kaikki tekstirunko PDF:n sivuilta. Tämä lähestymistapa on erityisen hyödyllinen silloin, kun haluat välttää Word‑muunnoksen ylimääräisen vaiheen. Alla on esimerkki, jossa ladataan PDF‑tiedosto, käytetään TextAbsorber‑instanssia ja tallennetaan tulos TXT‑tiedostoon.
Tämä koodi toimii myös monisivuisten tiedostojen kanssa, eikä vaadi ylimääräisiä asetuksia. Jos PDF sisältää monimutkaisia layoutteja (taulukoita, sarakkeita), TextAbsorber säilyttää tekstin lukemisen järjestyksen vasemmalta oikealle ja ylhäältä alas, mikä on riittävä useimmissa analyysitapauksissa.
Suurten PDF-tiedostojen käsittely
Kun käsittelet gigatavuisia PDF‑tiedostoja, on suositeltavaa käyttää stream‑pohjaista latausta ja käsitellä sivut erissä. Tämä vähentää muistin kulutusta. Seuraavassa on lyhyt esimerkki, jossa luetaan PDF‑tiedosto FileStream‑objektin kautta ja prosessoidaan vain yksi sivu kerrallaan.
Tämä lähestymistapa mahdollistaa rinnakkaisen prosessoinnin, jos haluat hyödyntää useampaa prosessoriydintä. Esimerkiksi Parallel.For-silmukalla voit jakaa sivut eri säikeisiin.
Usein kysytyt kysymykset
1. Voinko poimia vain tietyn alueen tekstiä PDF‑sivulta?
Kyllä. TextAbsorber‑luokkaan voi määrittää Rectangle‑alueen, jonka sisällä oleva teksti kerätään.
2. Miten käsitän PDF‑tiedostoja, joissa on suojauksia?
Aspose.PDF tukee suojattujen tiedostojen avaamista, kunhan sinulla on oikea salasana. Voit asettaa salasanan Document‑konstruktorin toiseen parametriin.
3. Mikä on paras tapa säilyttää alkuperäisen sivunumeroinnin TXT‑tiedostossa?
Voit lisätä jokaisen sivun ennen tekstin tallentamista merkinnän, esim. --- Sivun {i} ---.
Parhaat käytännöt PDF → TXT -muunnoksessa
- Käytä stream‑pohjaista latausta suurille tiedostoille.
- Hyödynnä
TextAbsorber‑asetuksia kutenExtractionOptionsjos haluat säilyttää sarakkeiden rakenteen. - Varmista lisensointi ennen tuotantokäyttöä, jotta vältät vesileimat ja rajoitukset.
- Testaa eri PDF‑versioilla (1.4, 1.7) varmistaaksesi yhteensopivuuden.
Näillä ohjeilla voit luottaa, että PDF‑teksti voidaan muuntaa tehokkaasti ja tarkasti TXT‑muotoon C#‑ympäristössä.