
Microsoft Word 문서는 텍스트 콘텐츠를 만들고 공유하는 스테이블입니다.이 문서와 상호 작용하는 C# 응용 프로그램을 개발하고 있다면, 당신은 그들로부터 문서를 추출 할 필요가 있다고 생각할 수 있습니다. 이것은 같은 목적을 위해 될 수있다.
테이블 콘텐츠
- C# 도서관 텍스트 추출
- Word 문서에서 텍스트 추출을 이해
- 단계별로 Word 문서에서 텍스트를 추출하는 가이드- 단락 사이의 텍스트 추출
- 다른 유형의 노드 사이의 텍스트 추출
- 스타일을 바탕으로 텍스트 추출
C# 도서관 텍스트 추출 {# 도서관 - 추출 - 텍스트 - 단어 - 문서}
ASPOSE.Words .NET에 대한 정보 그것은 텍스트 추출, 문서 만들기, 조작 및 변환을 포함하여 기능의 포괄적 인 세트를 제공합니다. .NET을위한 Aspose.Words와 함께, 개발자는 효율적으로 Word 서류의 다양한 측면을 관리 할 수 있습니다, 그것을 개발 요구에 대한 귀중한 도구로 만듭니다.
시작하기 위해서, 도서관 다운로드 또는 그것을 직접 설치합니다. NuGet 패키지 관리자 콘솔에서 다음 명령을 사용하십시오 :
PM> Install-Package Aspose.Words
단어 문서에서 텍스트 추출을 이해 {#텍스트 추출-Word-Documents}
MS Word 문서는 단락, 테이블 및 이미지와 같은 다양한 요소를 포함합니다. 따라서, 텍스트 추출에 대한 요구 사항은 특정 사용 사례에 따라 다를 수 있습니다.
Word 문서의 각 요소는 노드로 표시됩니다.그러므로 문서를 효과적으로 처리하려면 이러한 노드와 함께 작업해야합니다.다양한 시나리오에서 Word 문서에서 텍스트를 추출하는 방법을 살펴보자.
단계별 문서에서 텍스트를 추출하는 가이드
이 섹션에서는 Word 문서에 대한 C# 텍스트 추출기를 구현합니다.텍스트 추출 작업 흐름에는 다음 단계가 포함됩니다.
- 추출 과정에 포함되어야 할 노드를 정의합니다.
- 지정된 노드 사이의 콘텐츠를 추출 (초기 및 끝 노드를 포함하거나 제외).
- 클론 된 추출 노드를 사용하여 추출 된 콘텐츠를 포함하는 새로운 Word 문서를 만들 수 있습니다.
텍스트 추출을 수행하기 위해 노드와 다른 매개 변수를 받아들이는 ExtractContent라는 방법을 만들자.이 방법은 문서를 분해하고 다음과 같은 매개 변수에 따라 노드를 클론합니다.
StartNode 및 EndNode: 이들은 콘텐츠 추출의 시작 및 끝 지점을 정의합니다.이들은 블록 레벨 (예를 들어, 항, 표) 또는 인라인 레벨 노드 (예를 들어, Run, FieldStart, BookmarkStart)가 될 수 있습니다.- 필드의 경우 해당 FieldStart 개체를 입력합니다.
책표를 위해서는 BookmarkStart 및 BookmarkEnd 노드를 사용합니다.
코멘트를 위해 CommentRangeStart 및 CommentRangeEnd 노드를 사용하십시오.
IsInclusive: 이 매개 변수는 마커가 추출에 포함되어 있는지 여부를 결정합니다. 가짜로 설정하고 동일하거나 연속 노드가 제공되면 빈 목록이 반환됩니다.
다음은 지정된 노드 사이에 콘텐츠를 추출하는 ExtractContent 방법의 완전한 구현입니다.
또한 텍스트 추출 작업을 촉진하기 위해 ExtractContent 방법에 의해 일부 도움말 방법이 필요합니다.
이제 우리가 우리의 방법을 준비하고있을 때, 우리는 Word 문서에서 텍스트를 추출 할 수 있습니다.
단어 문서의 항목 사이의 텍스트 추출 {# 추출-텍스트-항목 사이}
Word DOCX 문서의 두 단락 사이의 콘텐츠를 추출하려면 다음 단계를 따르십시오.
- Word 문서를 사용하여 Document 클래스를 다운로드합니다.
- Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) 방법을 사용하여 시작 및 끝 단락에 대한 참조를 얻으십시오.
- 노드를 개체로 추출하기 위해 ExtractContent(startPara, endPara, True) 방법을 호출합니다.
- GenerateDocument(Dokument, extractedNodes) 도움말 방법을 사용하여 추출 된 콘텐츠를 가진 문서를 만들 수 있습니다.
- 새 문서를 Document.Save(string) 방법을 사용하여 저장합니다.
다음은 Word 문서에서 7항과 11항 사이의 텍스트를 추출하는 방법을 보여주는 코드 샘플입니다.
다른 유형의 노드 사이의 텍스트 추출 {#텍스트 추출-다른 유형의 노드}
또한 다른 유형의 노드 사이의 콘텐츠를 추출할 수 있습니다.예를 들어, 단락과 테이블 사이의 콘텐츠를 추출하고 새 Word 문서에 저장하십시오.
- Word 문서를 사용하여 Document 클래스를 다운로드합니다.
- Document.FirstSection.Body.GetChild(NodeType, int, boolean) 방법을 사용하여 시작 및 끝 노드에 대한 참조를 얻으십시오.
- **ExtractContent(startPara, endPara, True)**를 호출하여 노드를 개체로 추출합니다.
- GenerateDocument(Dokument, extractedNodes) 도움말 방법을 사용하여 추출 된 콘텐츠를 가진 문서를 만들 수 있습니다.
- 새 문서를 **Document.Save(string)**를 사용하여 저장합니다.
다음은 C#에서 단락과 테이블 사이의 텍스트 추출을위한 코드 샘플입니다.
스타일을 기반으로 텍스트 추출 {# 추출-텍스트- 사이-항- 기반-에-스타일}
스타일을 바탕으로 단락 사이의 콘텐츠를 추출하려면 다음 단계를 따르십시오.이 표시를 위해 Word 문서의 첫 번째 “제 1"와 첫 번째 “제 3” 사이의 콘텐츠를 추출합니다.
- Word 문서를 사용하여 Document 클래스를 다운로드합니다.
- ParagraphsByStyleName(Document, “Heading 1”) 도움말 방법을 사용하여 항목에 항목을 추출합니다.
- 단락을 다른 개체로 추출하여 ParagraphsByStyleName(Document, “Heading.
- 전화 ExtractContent(startPara, endPara, True) 두 단락의 첫 번째 요소와 함께.
- GenerateDocument(Dokument, extractedNodes) 도움말 방법을 사용하여 추출 된 콘텐츠를 가진 문서를 만들 수 있습니다.
- 새 문서를 **Document.Save(string)**를 사용하여 저장합니다.
다음은 스타일을 기반으로 구절 사이의 콘텐츠를 추출하기위한 코드 샘플입니다 :
더 읽어 보세요 에 대해서 Text Extraction
Word 문서에서 텍스트를 추출하는 추가 시나리오를 탐색 이 문서 문서.
무료 Word 텍스트 추출기 라이브러리를 얻으십시오
당신은 얻을 수 있습니다 A 무료 임시 라이센스 평가 제한 없이 텍스트를 추출합니다.
결론
Aspose.Words for .NET은 C#에서 Word 문서에서 텍스트를 추출하는 과정을 단순화하는 다양한 도서관입니다. 광범위한 기능과 사용자 친화적 인 API로 Word 문서와 효율적으로 작업하고 다양한 텍스트 추출 시나리오를 자동화 할 수 있습니다. Word 문서 처리 또는 단순히 텍스트 추출을 필요로하는 응용 프로그램을 개발하고 있든, Aspose.Words for .NET은 개발자를위한 필수 도구입니다.
.NET에 대한 Aspose.Words의 더 많은 기능을 탐색하려면 문서화당신이 어떤 질문이 있다면, 우리를 통해 자유롭게 얻을 수 있습니다. 포럼.
또한 보기
팁: 당신은 Aspose를 확인하고 싶을 수 있습니다. PowerPoint 에서 말하기 컨버터는 프레젠테이션을 Word 문서로 변환하는 인기있는 과정을 보여줍니다.