Kako izvući strukturu dokumenta pomoću parsera u Pythonu

Kako izvući strukturu dokumenta pomoću parsera

Aspose.Words FOSS for Python pruža klase parsera za izdvajanje strukturiranih podataka iz DOCX dokumenata. Ovaj vodič pokriva NumberingParser za numeriranje popisa i StyleParser za stilove dokumenta.

Preduvjeti

Instalirajte biblioteku:

pip install aspose-words-foss>=26.4.0

Zahtijeva Python 3.10 ili noviji.

Parser numeracije

NumberingParser čita definicije numeriranja popisa iz DOCX paketa. Nakon poziva parse_numbering_part(), možete upitati svojstva popisa:

NumberingParser.get_list_info() — dohvatiti informacije o određenom popisu prema njegovom ID-u
NumberingParser.is_ordered_list() — provjeriti je li razina popisa numerirana ili označena
NumberingParser.get_start_value() — dobiti početni broj za razinu popisa
NumberingParser.get_delimiter() — dobiti znak razdjelnika za razinu popisa

Parser stilova

StyleParser parsira nazive stilova u strukturirane ParsedStyle objekte, identificirajući naslove, blok citate, blokove koda i odlomke popisa:

StyleParser.parse() — parsirati naziv stila u ParsedStyle objekt
StyleParser.get_style_chain() — parsirati lanac naziva stilova za naslijeđene stilove
StyleParser.is_setext_heading() — provjeriti je li stil Setext‑stil naslova
StyleParser.extract_all_styles() — izvući pojedinačne nazive stilova iz lanaca odvojenih zarezom

Model podataka za numeriranje

Podaci o parsiranom numeriranju pohranjeni su u strukturiranim objektima:

Klasa	Ključna svojstva
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Sažetak

Parser	Svrha
`NumberingParser`	Izvuci definicije numeriranja popisa
`StyleParser`	Parsiraj nazive stilova u strukturirane informacije