Kako izvući strukturu dokumenta pomoću parsera u Pythonu
Kako izvući strukturu dokumenta pomoću parsera
Aspose.Words FOSS for Python pruža klase parsera za izdvajanje strukturiranih podataka iz DOCX dokumenata. Ovaj vodič pokriva NumberingParser za numeriranje popisa i StyleParser za stilove dokumenta.
Preduvjeti
Instalirajte biblioteku:
pip install aspose-words-foss>=26.4.0Zahtijeva Python 3.10 ili noviji.
Parser numeracije
NumberingParser čita definicije numeriranja popisa iz DOCX paketa. Nakon poziva parse_numbering_part(), možete upitati svojstva popisa:
NumberingParser.get_list_info()— dohvatiti informacije o određenom popisu prema njegovom ID-uNumberingParser.is_ordered_list()— provjeriti je li razina popisa numerirana ili označenaNumberingParser.get_start_value()— dobiti početni broj za razinu popisaNumberingParser.get_delimiter()— dobiti znak razdjelnika za razinu popisa
Parser stilova
StyleParser parsira nazive stilova u strukturirane ParsedStyle objekte, identificirajući naslove, blok citate, blokove koda i odlomke popisa:
StyleParser.parse()— parsirati naziv stila uParsedStyleobjektStyleParser.get_style_chain()— parsirati lanac naziva stilova za naslijeđene stiloveStyleParser.is_setext_heading()— provjeriti je li stil Setext‑stil naslovaStyleParser.extract_all_styles()— izvući pojedinačne nazive stilova iz lanaca odvojenih zarezom
Model podataka za numeriranje
Podaci o parsiranom numeriranju pohranjeni su u strukturiranim objektima:
| Klasa | Ključna svojstva |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Sažetak
| Parser | Svrha |
|---|---|
NumberingParser | Izvuci definicije numeriranja popisa |
StyleParser | Parsiraj nazive stilova u strukturirane informacije |