Extract Text from MS Word Documents in C#

A Microsoft Word dokumentumok a szöveges tartalmak létrehozására és megosztására szolgálnak. Ha C# alkalmazásokat fejlesztesz, amelyek kölcsönhatásba lépnek ezekkel a dokumentumokkal, előfordulhat, hogy szöveget kell kivonni tőlük. Ez olyan célokra szolgálhat, mint a szöveges elemzés vagy a dokumentum konkrét szakaszának kivonása, hogy egy újba gyűjtsük össze.

Tartalmak táblája

C# Könyvtár a szöveg kivonásához {# Könyvtár-a-kivonás-szöveg-szóból-dokumentumok}

Az ASPOSE.Words for .NET Ez egy erőteljes és felhasználóbarát könyvtár, amelyet a Word dokumentumokkal való munka céljából terveztek. átfogó funkciókkal rendelkezik, beleértve a szöveges kivonatot, a Dokumentumok létrehozását, manipulációt és átalakítást. A .NET Aspose.Words segítségével a fejlesztők hatékonyan kezelni tudják a különböző Word-dokumentumokat, ami értéktelen eszközt jelent az Ön fejlesztési igényeinek.

Ahhoz, hogy elkezdjük, Letöltés a könyvtár vagy közvetlenül a NuGet a csomagkezelő konzolban a következő parancsot használja:

PM> Install-Package Aspose.Words

A szöveg kivonatának megértése a Word dokumentumokban

Egy MS Word dokumentum tartalmaz különböző elemek, mint a bekezdések, táblák, és a képek. Ezért a követelmények a szöveges kivonat eltérhet attól függően, hogy a konkrét használati eset.

A Word dokumentum minden elemét csomópontként képviselik.Ezért a dokumentum hatékony feldolgozásához ezekkel a csomópontokkal kell dolgoznia.Tudjuk meg, hogyan lehet a Word dokumentumok szövegét különböző forgatókönyvekben kivonni.

Lépésről lépésre útmutató a szöveg kivonására a Word dokumentumból

Ebben a szakaszban egy C# szöveg kivonatot fogunk végrehajtani a Word dokumentumok számára.A szöveg kivonatának munkafolyama a következő lépéseket tartalmazza:

  • Határozza meg a csomópontokat, amelyeket a kivonási folyamatba kell beilleszteni.
  • Kivonja a tartalmat a meghatározott csomópontok között (beleértve vagy kizárva a kezdeti és végső csomópontokat).
  • Használja a klónozott kivont csomópontokat egy új Word-dokumentum létrehozásához, amely a kivont tartalmat tartalmazza.

Hozzon létre egy módszert, amelynek neve ExtractContent, amely elfogadja a csomópontokat és más paramétereket a szöveges kivonat elvégzéséhez.

  • StartNode és EndNote: Ezek meghatározza a tartalom kivonásának kezdeti és végpontját. Ezek lehetnek blokk szintűek (például paragraf, Táblázat) vagy inline-szintű csomópontok (pl. Run , FieldStarts vagy BookmarkStars).- A mezők esetében válassza a megfelelő FieldStart objektumot.

  • A könyvjelzők esetében használja a BookmarkStart és BookmarkEnd csomópontokat.

  • A megjegyzésekhez használja a CommentRangeStart és az Komment RangeEnd csomópontokat.

  • IsInclusive: Ez a paraméter határozza meg, hogy a jelölők szerepelnek-e a kivonatban. ha hamisra van beállítva, és ugyanazokat vagy egymást követő csomópontokat biztosítanak, üres listát adnak vissza.

Íme a ExtractContent módszer teljes végrehajtása a tartalom kivonására a kijelölt csomópontok között:

Ezenkívül a ExtractContent módszer néhány segítő módszert igényel, hogy megkönnyítse a szöveges kivonási műveletet:

Most, hogy a módszereink készen állnak, folytathatjuk a szöveg kivonását a Word-dokumentumból.

A szöveg kivonása a szöveg dokumentumának bekezdései között

A Word DOCX dokumentum két bekezdés közötti tartalmak kivonásához kövesse az alábbi lépéseket:

  • Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
  • Jelentkezzen a kezdeti és végső bekezdésekre a Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) módszerrel.
  • Hívja a ExtractContent(startPara, end Para, True) módszert a csomópontok kivonására egy objektumba.
  • Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
  • Az új dokumentum mentése a Document.Save(string) módszerrel történik.

Íme egy kódmintája, amely megmutatja, hogyan kell kivonni a szöveget a 7. és 11. bekezdés között a Word dokumentumban:

Különböző típusú csomópontok közötti szöveg kivonása

A tartalmat különböző típusú csomópontok között is kivonhatja. Például kivonjuk a tartalmat egy bekezdés és egy táblázat között, és mentjük azt egy új Word-dokumentumba.

  • Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
  • Jelentkezzen a kezdeti és végső csomópontokra a Document.FirstSection.Body.GetChild(NodeType, int, boolean) módszerrel.
  • Hívja a ExtractContent(startPara, end Para, True)-t a csomópontok kivonására egy objektumba.
  • Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
  • Az új dokumentum mentése a Document.Save(string) használatával.

Íme a kód mintája a szöveg kivonására egy bekezdés és egy táblázat között C#:

A stílusokon alapuló szöveg kivonása

A stílusokon alapuló bekezdések közötti tartalmak kivonása érdekében kövesse ezeket a lépéseket.Ezért a demonstrációhoz a Word dokumentumban az első “1. cím” és az első “3. cím” közötti tartalmat kivonunk:

  • Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
  • Kivonja a bekezdéseket egy objektumba a ParagraphsByStyleName(Document, “Heading 1”) segítő módszerrel.
  • Jelölje ki a bekezdéseket egy másik objektumba a ParagraphsByStyleName(Dokumentum, “Heading…) használatával.
  • Hívja ExtractContent(startPara, endPara és True) az első elemeket mindkét bekezdésből.
  • Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
  • Az új dokumentum mentése a Document.Save(string) használatával.

Íme egy kódmintája, amely a stílusokon alapuló bekezdések közötti tartalmat kivonja:

Olvass tovább a szövegek kivonásáról

Fedezze fel további forgatókönyvek a Word dokumentumokból származó szöveg kivonására Ez a dokumentációs cikk.

Szerezzen ingyenes Word Text Extractor könyvtárat

Lehet kapni egy Ingyenes ideiglenes engedély Értékelési korlátozások nélküli szöveg kivonása.

következtetések

Az Aspose.Words for .NET egy sokoldalú könyvtár, amely egyszerűsíti a szöveg kivonásának folyamatát a Word dokumentumokból a C#. A kiterjedt funkciókkal és a felhasználóbarát API-val hatékonyan dolgozhat a Word dokumentumokkal és automatizálhatja a különböző szöveg kivonási forgatókönyvek. Akár olyan alkalmazásokat fejlesztesz, amelyek Word dokumentumfeldolgozást igényelnek, vagy egyszerűen a szöveg kivonását, az Aspose.Words for .NET a fejlesztők számára kulcsfontosságú eszköz.

Ahhoz, hogy további funkciókat találjon a Aspose.Words for .NET, ellenőrizze a DokumentációHa bármilyen kérdése van, szabadon érheti el a mi Fórum.

Lásd még

Típus: Előfordulhat, hogy meg akarja vizsgálni a Aspose PowerPoint a szavakhoz Konverter, amely megmutatja a népszerű folyamatát, hogy a prezentációk Word dokumentumok.

More in this category