Python에서 파서로 문서 구조 추출하기

Python에서 파서로 문서 구조 추출하기

파서로 문서 구조 추출하기

Aspose.Words FOSS for Python은 DOCX 문서에서 구조화된 데이터를 추출하기 위한 파서 클래스를 제공합니다. 이 가이드는 목록 번호 매기기를 위한 NumberingParser와 문서 스타일을 위한 StyleParser를 다룹니다.

전제 조건

라이브러리를 설치합니다:

pip install aspose-words-foss>=26.4.0

Python 3.10 이상이 필요합니다.

번호 매기기 파서

NumberingParser는 DOCX 패키지에서 목록 번호 매기기 정의를 읽습니다. parse_numbering_part()를 호출한 후에는 목록 속성을 조회할 수 있습니다:

  • NumberingParser.get_list_info() — ID로 특정 목록에 대한 정보를 검색합니다
  • NumberingParser.is_ordered_list() — 목록 레벨이 순서형인지 글머리표형인지 확인합니다
  • NumberingParser.get_start_value() — 목록 레벨의 시작 번호를 가져옵니다
  • NumberingParser.get_delimiter() — 목록 레벨의 구분자 문자열을 가져옵니다

스타일 파서

StyleParser는 스타일 이름을 구조화된 ParsedStyle 객체로 구문 분석하여, 헤딩, 블록 인용, 코드 블록 및 리스트 단락을 식별합니다:

  • StyleParser.parse() — 스타일 이름을 ParsedStyle 객체로 파싱합니다
  • StyleParser.get_style_chain() — 상속된 스타일을 위해 스타일 이름 체인을 파싱합니다
  • StyleParser.is_setext_heading() — 스타일이 Setext‑style 헤딩인지 확인합니다
  • StyleParser.extract_all_styles() — 쉼표로 구분된 체인에서 개별 스타일 이름을 추출합니다

번호 매기기 데이터 모델

구문 분석된 번호 매기기 데이터는 구조화된 객체에 저장됩니다:

클래스핵심 속성
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

요약

파서목적
NumberingParser목록 번호 매기기 정의 추출
StyleParser스타일 이름을 구조화된 정보로 구문 분석
 한국어