Python에서 파서로 문서 구조 추출하기
파서로 문서 구조 추출하기
Aspose.Words FOSS for Python은 DOCX 문서에서 구조화된 데이터를 추출하기 위한 파서 클래스를 제공합니다. 이 가이드는 목록 번호 매기기를 위한 NumberingParser와 문서 스타일을 위한 StyleParser를 다룹니다.
전제 조건
라이브러리를 설치합니다:
pip install aspose-words-foss>=26.4.0Python 3.10 이상이 필요합니다.
번호 매기기 파서
NumberingParser는 DOCX 패키지에서 목록 번호 매기기 정의를 읽습니다. parse_numbering_part()를 호출한 후에는 목록 속성을 조회할 수 있습니다:
NumberingParser.get_list_info()— ID로 특정 목록에 대한 정보를 검색합니다NumberingParser.is_ordered_list()— 목록 레벨이 순서형인지 글머리표형인지 확인합니다NumberingParser.get_start_value()— 목록 레벨의 시작 번호를 가져옵니다NumberingParser.get_delimiter()— 목록 레벨의 구분자 문자열을 가져옵니다
스타일 파서
StyleParser는 스타일 이름을 구조화된 ParsedStyle 객체로 구문 분석하여, 헤딩, 블록 인용, 코드 블록 및 리스트 단락을 식별합니다:
StyleParser.parse()— 스타일 이름을ParsedStyle객체로 파싱합니다StyleParser.get_style_chain()— 상속된 스타일을 위해 스타일 이름 체인을 파싱합니다StyleParser.is_setext_heading()— 스타일이 Setext‑style 헤딩인지 확인합니다StyleParser.extract_all_styles()— 쉼표로 구분된 체인에서 개별 스타일 이름을 추출합니다
번호 매기기 데이터 모델
구문 분석된 번호 매기기 데이터는 구조화된 객체에 저장됩니다:
| 클래스 | 핵심 속성 |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
요약
| 파서 | 목적 |
|---|---|
NumberingParser | 목록 번호 매기기 정의 추출 |
StyleParser | 스타일 이름을 구조화된 정보로 구문 분석 |