Kako izvući strukturu dokumenta pomoću parsera u Pythonu

Kako izvući strukturu dokumenta pomoću parsera u Pythonu

Kako izvući strukturu dokumenta pomoću parsera

Aspose.Words FOSS for Python pruža klase parsera za izdvajanje strukturiranih podataka iz DOCX dokumenata. Ovaj vodič pokriva NumberingParser za numeriranje popisa i StyleParser za stilove dokumenta.

Preduvjeti

Instalirajte biblioteku:

pip install aspose-words-foss>=26.4.0

Zahtijeva Python 3.10 ili noviji.

Parser numeracije

NumberingParser čita definicije numeriranja popisa iz DOCX paketa. Nakon poziva parse_numbering_part(), možete upitati svojstva popisa:

  • NumberingParser.get_list_info() — dohvatiti informacije o određenom popisu prema njegovom ID-u
  • NumberingParser.is_ordered_list() — provjeriti je li razina popisa numerirana ili označena
  • NumberingParser.get_start_value() — dobiti početni broj za razinu popisa
  • NumberingParser.get_delimiter() — dobiti znak razdjelnika za razinu popisa

Parser stilova

StyleParser parsira nazive stilova u strukturirane ParsedStyle objekte, identificirajući naslove, blok citate, blokove koda i odlomke popisa:

  • StyleParser.parse() — parsirati naziv stila u ParsedStyle objekt
  • StyleParser.get_style_chain() — parsirati lanac naziva stilova za naslijeđene stilove
  • StyleParser.is_setext_heading() — provjeriti je li stil Setext‑stil naslova
  • StyleParser.extract_all_styles() — izvući pojedinačne nazive stilova iz lanaca odvojenih zarezom

Model podataka za numeriranje

Podaci o parsiranom numeriranju pohranjeni su u strukturiranim objektima:

KlasaKljučna svojstva
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Sažetak

ParserSvrha
NumberingParserIzvuci definicije numeriranja popisa
StyleParserParsiraj nazive stilova u strukturirane informacije
 Hrvatski