สกัดข้อความจากเอกสาร Word ใน C# | File Format Processing Plugins for C# .NET Core

Extract Text from MS Word Documents in C#

หลักสูตรสําหรับสร้างและแบ่งปันเนื้อหาข้อความของ Microsoft Word หากคุณกําลังพัฒนาแอพพลิเคชั่น C# ที่โต้ตอบกับเอกสารเหล่านี้คุณอาจพบว่าคุณจําเป็นต้องสกัดข้อความจากเอกสารเหล่านี้ สิ่งนี้อาจเป็นเพื่อจุดประสงค์เช่นการวิเคราะห์ข้อความหรือสกัดส่วนเฉพาะของเอกสารเพื่อประกอบเป็นเอกสารใหม่ ในโพสต์บล็อกนี้เราจะเจาะลึกถึงวิธีการสกัดข้อความจากเอกสาร Word ใน C#.

ตารางเนื้อหา

C# Library for Text Extraction {# Library-to-Extract-Text-from-Word-Documents}

Aspose.Words for .NET เป็นห้องสมุดที่มีประสิทธิภาพและใช้งานง่ายที่ออกแบบมาเพื่อทํางานกับเอกสาร Word มันมีคุณสมบัติที่ครอบคลุมรวมถึงการสกัดข้อความการสร้างเอกสารการจัดการและการแปลง ด้วย Aspose.Words สําหรับ .NET ผู้พัฒนาสามารถจัดการลักษณะต่างๆของเอกสาร Word ได้อย่างมีประสิทธิภาพทําให้เป็นเครื่องมือที่มีค่าสําหรับความต้องการในการพัฒนาของคุณ.

เพื่อเริ่มต้น, ดาวน์โหลดห้องสมุด หรือติดตั้งโดยตรงจาก NuGet ใช้คําสั่งต่อไปนี้ในคอนโซลผู้จัดการแพคเกจ:

PM> Install-Package Aspose.Words

การทําความเข้าใจเกี่ยวกับการสกัดข้อความในเอกสาร Word

ไฟล์ MS Word ประกอบด้วยองค์ประกอบต่างๆ เช่น paragraphs, tables, and images ดังนั้นความต้องการสําหรับการสกัดข้อความอาจแตกต่างกันขึ้นอยู่กับกรณีการใช้เฉพาะ คุณอาจต้องสกัดข้อความระหว่าง paragraphs, bookmarks, comments และอื่น ๆ.

แต่ละองค์ประกอบในเอกสาร Word จะแสดงเป็น nodes ดังนั้นเพื่อประมวลผลเอกสารได้อย่างมีประสิทธิภาพคุณจะต้องทํางานกับ nodes เหล่านี้ ลองสํารวจวิธีการสกัดข้อความจากเอกสาร Word ในสถานการณ์ที่แตกต่างกัน.

คู่มือขั้นตอนตามขั้นตอนในการสกัดข้อความจากเอกสาร Word {# Extract-Text-from-a-Word-Document}

ในส่วนนี้เราจะใช้เครื่องสกัดข้อความ C# สําหรับเอกสาร Word กระแสทํางานสําหรับการสกัดข้อความจะเกี่ยวข้องกับขั้นตอนต่อไปนี้:

กําหนด nodes ที่ควรรวมอยู่ในกระบวนการสกัด.
สกัดเนื้อหาระหว่าง nodes ที่ระบุไว้ (รวมถึงหรือยกเว้น nodes เริ่มต้นและสิ้นสุด).
ใช้โคลนรวบรวมรหัสคอยล์เพื่อสร้างเอกสาร Word ใหม่ที่มีเนื้อหาที่รวบรวม.

ให้สร้างวิธีการที่เรียกว่า ExtractContent ซึ่งจะยอมรับ nodes และพารามิเตอร์อื่น ๆ เพื่อดําเนินการการสกัดข้อความ วิธีการนี้จะสํารวจเอกสารและคลอน nodes ขึ้นอยู่กับพารามิเตอร์ต่อไปนี้:

StartNode และ EndNode: เหล่านี้กําหนดจุดเริ่มต้นและจุดสิ้นสุดสําหรับการสกัดเนื้อหา พวกเขาสามารถเป็นระดับบล็อก (เช่น., แคตตาล็อก, ตาราง) หรือ nodes ระดับอินไลน์ (เช่น., แข่ง, FieldStart, BookmarkStart). - สําหรับฟิลด์ผ่านที่เหมาะสม FieldStart วัตถุ. - สําหรับ bookmarks ใช้ BookmarkStart และ BookmarkEnd นิวส์. - สําหรับความคิดเห็น, การจ้างงาน CommentRangeStart และ CommentRangeEnd นิวส์.
IsInclusive: พารามิเตอร์นี้กําหนดว่าเครื่องหมายจะรวมอยู่ในการสกัดหรือไม่ หากตั้งค่าเป็น false และมี nodes เหมือนกันหรือต่อเนื่องจะส่งคืนรายการว่างเปล่า.

นี่คือการดําเนินการอย่างเต็มที่ของ ExtractContent วิธีการสกัดเนื้อหาระหว่าง nodes ที่ระบุ:

นอกจากนี้บางวิธีการช่วยให้เป็นไปตามที่ต้องการ ExtractContent วิธีการเพื่อช่วยให้การสกัดข้อความได้ง่ายขึ้น:

ตอนนี้เรามีวิธีการของเราพร้อมแล้วเราสามารถดําเนินการสกัดข้อความจากเอกสาร Word.

การสกัดข้อความระหว่างบรรทัดของเอกสาร Word

หากต้องการสกัดเนื้อหาระหว่างสอง paragraph ในเอกสาร Word DOCX ให้ทําตามขั้นตอนต่อไปนี้:

โหลดเอกสาร Word โดยใช้ ใบสมัคร คลาส.
รับการอ้างอิงถึงจุดเริ่มต้นและจุดสิ้นสุดโดยใช้ Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) วิธีการ.
โทรหา ExtractContent(startPara, endPara, True) วิธีการสกัด nodes ในวัตถุ.
ใช้ GenerateDocument(Document, extractedNodes) วิธีการช่วยสร้างเอกสารที่มีเนื้อหาที่สกัด.
บันทึกเอกสารใหม่โดยใช้ Document.Save(string) วิธีการ.

นี่คือตัวอย่างรหัสที่แสดงให้เห็นว่าวิธีการสกัดข้อความระหว่างพาร์ทิชัน 7 และ 11 ในเอกสาร Word:

การสกัดข้อความระหว่างประเภทต่าง ๆ ของ nodes

นอกจากนี้คุณยังสามารถสกัดเนื้อหาระหว่างประเภทของ nodes ตัวอย่างเช่น ลองสกัดเนื้อหาระหว่าง paragraph และ table และบันทึกไว้ในเอกสาร Word ใหม่ ขั้นตอนคือดังนี้:

โหลดเอกสาร Word โดยใช้ ใบสมัคร คลาส.
รับการอ้างอิงไปยังจุดเริ่มต้นและจุดสิ้นสุดโดยใช้ Document.FirstSection.Body.GetChild(NodeType, int, boolean) วิธีการ.
โทรศัพท์ ExtractContent(startPara, endPara, True) เพื่อสกัด nodes ในวัตถุ.
ใช้ GenerateDocument(Document, extractedNodes) วิธีการช่วยสร้างเอกสารที่มีเนื้อหาที่สกัด.
บันทึกเอกสารใหม่โดยใช้ Document.Save(string).

นี่คือตัวอย่างรหัสสําหรับการสกัดข้อความระหว่าง paragraph และตารางใน C#:

การสกัดข้อความตามสไตล์

สําหรับการแสดงผลนี้เราจะสกัดเนื้อหาระหว่าง “หัว 1” และ “หัว 3” ครั้งแรกในเอกสาร Word:

โหลดเอกสาร Word โดยใช้ ใบสมัคร คลาส.
สกัด paragraphs ไปยังวัตถุที่ใช้ ParagraphsByStyleName(เอกสาร “หัว 1”) วิธีการช่วย.
สกัด paragraphs ไปยังวัตถุอื่นโดยใช้ ParagraphsByStyleName(เอกสาร, “หัว 3”).
โทรศัพท์ ExtractContent(startPara, endPara, True) กับองค์ประกอบแรกของสองส่วนของแถว.
ใช้ GenerateDocument(Document, extractedNodes) วิธีการช่วยสร้างเอกสารที่มีเนื้อหาที่สกัด.
บันทึกเอกสารใหม่โดยใช้ Document.Save(string).

นี่คือตัวอย่างรหัสเพื่อสกัดเนื้อหาระหว่างบรรทัดตามรูปแบบ:

อ่านเพิ่มเติมเกี่ยวกับการสกัดข้อความ

ค้นพบสถานการณ์เพิ่มเติมสําหรับการสกัดข้อความจากเอกสาร Word ผ่าน บทความเอกสารนี้.

รับฟรี Word Text Extractor Library

คุณสามารถรับ a ใบอนุญาตอิสระชั่วคราว เพื่อสกัดข้อความโดยไม่ต้อง จํากัด การประเมิน.

ข้อสรุป

Aspose.Words for .NET is a versatile library that streamlines the process of extracting text from Word documents in C#. With its extensive features and user-friendly API, you can efficiently work with Word documents and automate various text extraction scenarios. Whether you’re developing applications that require Word document processing or simply extracting text, Aspose.Words for .NET is an essential tool for developers.

หากต้องการสํารวจคุณสมบัติเพิ่มเติมของ Aspose.Words สําหรับ .NET โปรดดูที่ การจัดเก็บเอกสาร.หากคุณมีคําถามใด ๆ โปรดอย่าลังเลที่จะติดต่อผ่านทางของเรา ฟอรั่ม.

นี่

ชิ้น : คุณอาจต้องการตรวจสอบ Aspose PowerPoint ไปยัง Word แปลงซึ่งแสดงให้เห็นถึงกระบวนการที่นิยมในการแปลงการนําเสนอเป็นเอกสาร Word.

ตารางเนื้อหา#

C# Library for Text Extraction {# Library-to-Extract-Text-from-Word-Documents}#

การทําความเข้าใจเกี่ยวกับการสกัดข้อความในเอกสาร Word#

คู่มือขั้นตอนตามขั้นตอนในการสกัดข้อความจากเอกสาร Word {# Extract-Text-from-a-Word-Document}#

การสกัดข้อความระหว่างบรรทัดของเอกสาร Word#

การสกัดข้อความระหว่างประเภทต่าง ๆ ของ nodes#

การสกัดข้อความตามสไตล์#

อ่านเพิ่มเติมเกี่ยวกับการสกัดข้อความ#

รับฟรี Word Text Extractor Library#

ข้อสรุป#

นี่#

More in this category