Kā izvilkt dokumenta struktūru ar parseriem Pythonā
Kā izvilkt dokumenta struktūru ar parseriem
Aspose.Words FOSS for Python nodrošina parseru klases strukturētu datu izguvei no DOCX dokumentiem. Šis ceļvedis aptver NumberingParser saraksta numurēšanai un StyleParser dokumenta stiliem.
Priekšnosacījumi
Instalējiet bibliotēku:
pip install aspose-words-foss>=26.4.0Pieprasa Python 3.10 vai jaunāku.
Numurēšanas parsētājs
NumberingParser lasa saraksta numurēšanas definīcijas no DOCX pakotnes. Pēc parse_numbering_part() izsaukšanas varat vaicāt saraksta īpašības:
NumberingParser.get_list_info()— iegūt informāciju par konkrētu sarakstu, izmantojot tā IDNumberingParser.is_ordered_list()— pārbaudīt, vai saraksta līmenis ir numurēts vai ar aizzīmēmNumberingParser.get_start_value()— iegūt sākuma numuru saraksta līmenimNumberingParser.get_delimiter()— iegūt atdalītāja virkni saraksta līmenim
Stila parsētājs
StyleParser parsē stila nosaukumus strukturētos ParsedStyle objektos, identificējot virsrakstus, citātus, koda blokus un saraksta rindkopas:
StyleParser.parse()— parsēt stila nosaukumu uzParsedStyleobjektuStyleParser.get_style_chain()— parsēt stilu nosaukumu ķēdi mantotajiem stiliemStyleParser.is_setext_heading()— pārbaudīt, vai stils ir Setext‑stila virsrakstsStyleParser.extract_all_styles()— izvilkt atsevišķus stila nosaukumus no komatu atdalītas ķēdes
Numurēšanas datu modelis
Parsētie numurēšanas dati tiek saglabāti strukturētos objektos:
| Klase | Galvenās īpašības |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Kopsavilkums
| Parsētājs | Mērķis |
|---|---|
NumberingParser | Izvilkt saraksta numurēšanas definīcijas |
StyleParser | Parsēt stila nosaukumus strukturētā informācijā |