
A Microsoft Word dokumentumok a szöveges tartalmak létrehozására és megosztására szolgálnak. Ha C# alkalmazásokat fejlesztesz, amelyek kölcsönhatásba lépnek ezekkel a dokumentumokkal, előfordulhat, hogy szöveget kell kivonni tőlük. Ez olyan célokra szolgálhat, mint a szöveges elemzés vagy a dokumentum konkrét szakaszának kivonása, hogy egy újba gyűjtsük össze.
Tartalmak táblája
- C# könyvtár a szöveg kivonásához
- A szöveg kivonatának megértése a Word dokumentumokban
- Lépésről lépésre útmutató a szöveg kivonására a Word-dokumentumból- Szöveg kivonása a bekezdések között
- Különböző típusú csomópontok közötti szöveg kivonása
- A stílusokon alapuló szöveg kivonása
C# Könyvtár a szöveg kivonásához {# Könyvtár-a-kivonás-szöveg-szóból-dokumentumok}
Az ASPOSE.Words for .NET Ez egy erőteljes és felhasználóbarát könyvtár, amelyet a Word dokumentumokkal való munka céljából terveztek. átfogó funkciókkal rendelkezik, beleértve a szöveges kivonatot, a Dokumentumok létrehozását, manipulációt és átalakítást. A .NET Aspose.Words segítségével a fejlesztők hatékonyan kezelni tudják a különböző Word-dokumentumokat, ami értéktelen eszközt jelent az Ön fejlesztési igényeinek.
Ahhoz, hogy elkezdjük, Letöltés a könyvtár vagy közvetlenül a NuGet a csomagkezelő konzolban a következő parancsot használja:
PM> Install-Package Aspose.Words
A szöveg kivonatának megértése a Word dokumentumokban
Egy MS Word dokumentum tartalmaz különböző elemek, mint a bekezdések, táblák, és a képek. Ezért a követelmények a szöveges kivonat eltérhet attól függően, hogy a konkrét használati eset.
A Word dokumentum minden elemét csomópontként képviselik.Ezért a dokumentum hatékony feldolgozásához ezekkel a csomópontokkal kell dolgoznia.Tudjuk meg, hogyan lehet a Word dokumentumok szövegét különböző forgatókönyvekben kivonni.
Lépésről lépésre útmutató a szöveg kivonására a Word dokumentumból
Ebben a szakaszban egy C# szöveg kivonatot fogunk végrehajtani a Word dokumentumok számára.A szöveg kivonatának munkafolyama a következő lépéseket tartalmazza:
- Határozza meg a csomópontokat, amelyeket a kivonási folyamatba kell beilleszteni.
- Kivonja a tartalmat a meghatározott csomópontok között (beleértve vagy kizárva a kezdeti és végső csomópontokat).
- Használja a klónozott kivont csomópontokat egy új Word-dokumentum létrehozásához, amely a kivont tartalmat tartalmazza.
Hozzon létre egy módszert, amelynek neve ExtractContent, amely elfogadja a csomópontokat és más paramétereket a szöveges kivonat elvégzéséhez.
StartNode és EndNote: Ezek meghatározza a tartalom kivonásának kezdeti és végpontját. Ezek lehetnek blokk szintűek (például paragraf, Táblázat) vagy inline-szintű csomópontok (pl. Run , FieldStarts vagy BookmarkStars).- A mezők esetében válassza a megfelelő FieldStart objektumot.
A könyvjelzők esetében használja a BookmarkStart és BookmarkEnd csomópontokat.
A megjegyzésekhez használja a CommentRangeStart és az Komment RangeEnd csomópontokat.
IsInclusive: Ez a paraméter határozza meg, hogy a jelölők szerepelnek-e a kivonatban. ha hamisra van beállítva, és ugyanazokat vagy egymást követő csomópontokat biztosítanak, üres listát adnak vissza.
Íme a ExtractContent módszer teljes végrehajtása a tartalom kivonására a kijelölt csomópontok között:
Ezenkívül a ExtractContent módszer néhány segítő módszert igényel, hogy megkönnyítse a szöveges kivonási műveletet:
Most, hogy a módszereink készen állnak, folytathatjuk a szöveg kivonását a Word-dokumentumból.
A szöveg kivonása a szöveg dokumentumának bekezdései között
A Word DOCX dokumentum két bekezdés közötti tartalmak kivonásához kövesse az alábbi lépéseket:
- Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
- Jelentkezzen a kezdeti és végső bekezdésekre a Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) módszerrel.
- Hívja a ExtractContent(startPara, end Para, True) módszert a csomópontok kivonására egy objektumba.
- Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
- Az új dokumentum mentése a Document.Save(string) módszerrel történik.
Íme egy kódmintája, amely megmutatja, hogyan kell kivonni a szöveget a 7. és 11. bekezdés között a Word dokumentumban:
Különböző típusú csomópontok közötti szöveg kivonása
A tartalmat különböző típusú csomópontok között is kivonhatja. Például kivonjuk a tartalmat egy bekezdés és egy táblázat között, és mentjük azt egy új Word-dokumentumba.
- Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
- Jelentkezzen a kezdeti és végső csomópontokra a Document.FirstSection.Body.GetChild(NodeType, int, boolean) módszerrel.
- Hívja a ExtractContent(startPara, end Para, True)-t a csomópontok kivonására egy objektumba.
- Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
- Az új dokumentum mentése a Document.Save(string) használatával.
Íme a kód mintája a szöveg kivonására egy bekezdés és egy táblázat között C#:
A stílusokon alapuló szöveg kivonása
A stílusokon alapuló bekezdések közötti tartalmak kivonása érdekében kövesse ezeket a lépéseket.Ezért a demonstrációhoz a Word dokumentumban az első “1. cím” és az első “3. cím” közötti tartalmat kivonunk:
- Töltse le a Word dokumentumot a Dokumentum osztály segítségével.
- Kivonja a bekezdéseket egy objektumba a ParagraphsByStyleName(Document, “Heading 1”) segítő módszerrel.
- Jelölje ki a bekezdéseket egy másik objektumba a ParagraphsByStyleName(Dokumentum, “Heading…) használatával.
- Hívja ExtractContent(startPara, endPara és True) az első elemeket mindkét bekezdésből.
- Használja a GenerateDocument(Dokument, extractedNodes) segítő módszert egy dokumentum létrehozásához a kivont tartalommal.
- Az új dokumentum mentése a Document.Save(string) használatával.
Íme egy kódmintája, amely a stílusokon alapuló bekezdések közötti tartalmat kivonja:
Olvass tovább a szövegek kivonásáról
Fedezze fel további forgatókönyvek a Word dokumentumokból származó szöveg kivonására Ez a dokumentációs cikk.
Szerezzen ingyenes Word Text Extractor könyvtárat
Lehet kapni egy Ingyenes ideiglenes engedély Értékelési korlátozások nélküli szöveg kivonása.
következtetések
Az Aspose.Words for .NET egy sokoldalú könyvtár, amely egyszerűsíti a szöveg kivonásának folyamatát a Word dokumentumokból a C#. A kiterjedt funkciókkal és a felhasználóbarát API-val hatékonyan dolgozhat a Word dokumentumokkal és automatizálhatja a különböző szöveg kivonási forgatókönyvek. Akár olyan alkalmazásokat fejlesztesz, amelyek Word dokumentumfeldolgozást igényelnek, vagy egyszerűen a szöveg kivonását, az Aspose.Words for .NET a fejlesztők számára kulcsfontosságú eszköz.
Ahhoz, hogy további funkciókat találjon a Aspose.Words for .NET, ellenőrizze a DokumentációHa bármilyen kérdése van, szabadon érheti el a mi Fórum.
Lásd még
- Word dokumentumok létrehozása C#-ban MS Office nélkül
- A Word-dokumentumok generálása a C# .NET Template-ból
Típus: Előfordulhat, hogy meg akarja vizsgálni a Aspose PowerPoint a szavakhoz Konverter, amely megmutatja a népszerű folyamatát, hogy a prezentációk Word dokumentumok.
More in this category
- Konvertáljuk a Word DOC/DOCX-t PDF-re a C# .NET-ben Aspose.Words' Document Converter Plugin
- Barcode generálása a Word dokumentumokban (.NET, C#) és a Barcode olvasása a Wordből (.NET)
- Képek kivonása a Word dokumentumokból a C#-ban Automatikus képfeldolgozás
- Automatikus jelentések a C# Mail-vel, az Aspose.Words Mail-vel, a C# Mail-vel
- Keresse meg és cserélje ki a szöveget a Word-dokumentumokban a C#-on keresztül