Kā izvilkt dokumenta struktūru ar parseriem Pythonā

Kā izvilkt dokumenta struktūru ar parseriem

Aspose.Words FOSS for Python nodrošina parseru klases strukturētu datu izguvei no DOCX dokumentiem. Šis ceļvedis aptver NumberingParser saraksta numurēšanai un StyleParser dokumenta stiliem.

Priekšnosacījumi

Instalējiet bibliotēku:

pip install aspose-words-foss>=26.4.0

Pieprasa Python 3.10 vai jaunāku.

Numurēšanas parsētājs

NumberingParser lasa saraksta numurēšanas definīcijas no DOCX pakotnes. Pēc parse_numbering_part() izsaukšanas varat vaicāt saraksta īpašības:

NumberingParser.get_list_info() — iegūt informāciju par konkrētu sarakstu, izmantojot tā ID
NumberingParser.is_ordered_list() — pārbaudīt, vai saraksta līmenis ir numurēts vai ar aizzīmēm
NumberingParser.get_start_value() — iegūt sākuma numuru saraksta līmenim
NumberingParser.get_delimiter() — iegūt atdalītāja virkni saraksta līmenim

Stila parsētājs

StyleParser parsē stila nosaukumus strukturētos ParsedStyle objektos, identificējot virsrakstus, citātus, koda blokus un saraksta rindkopas:

StyleParser.parse() — parsēt stila nosaukumu uz ParsedStyle objektu
StyleParser.get_style_chain() — parsēt stilu nosaukumu ķēdi mantotajiem stiliem
StyleParser.is_setext_heading() — pārbaudīt, vai stils ir Setext‑stila virsraksts
StyleParser.extract_all_styles() — izvilkt atsevišķus stila nosaukumus no komatu atdalītas ķēdes

Numurēšanas datu modelis

Parsētie numurēšanas dati tiek saglabāti strukturētos objektos:

Klase	Galvenās īpašības
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Kopsavilkums

Parsētājs	Mērķis
`NumberingParser`	Izvilkt saraksta numurēšanas definīcijas
`StyleParser`	Parsēt stila nosaukumus strukturētā informācijā