Python에서 파서로 문서 구조 추출하기

파서로 문서 구조 추출하기

Aspose.Words FOSS for Python은 DOCX 문서에서 구조화된 데이터를 추출하기 위한 파서 클래스를 제공합니다. 이 가이드는 목록 번호 매기기를 위한 NumberingParser와 문서 스타일을 위한 StyleParser를 다룹니다.

라이브러리를 설치합니다:

pip install aspose-words-foss>=26.4.0

Python 3.10 이상이 필요합니다.

NumberingParser는 DOCX 패키지에서 목록 번호 매기기 정의를 읽습니다. parse_numbering_part()를 호출한 후에는 목록 속성을 조회할 수 있습니다:

StyleParser는 스타일 이름을 구조화된 ParsedStyle 객체로 구문 분석하여, 헤딩, 블록 인용, 코드 블록 및 리스트 단락을 식별합니다:

구문 분석된 번호 매기기 데이터는 구조화된 객체에 저장됩니다:

클래스	핵심 속성
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

파서	목적
`NumberingParser`	목록 번호 매기기 정의 추출
`StyleParser`	스타일 이름을 구조화된 정보로 구문 분석