Kā izvilkt dokumenta struktūru ar parseriem Pythonā

Kā izvilkt dokumenta struktūru ar parseriem Pythonā

Kā izvilkt dokumenta struktūru ar parseriem

Aspose.Words FOSS for Python nodrošina parseru klases strukturētu datu izguvei no DOCX dokumentiem. Šis ceļvedis aptver NumberingParser saraksta numurēšanai un StyleParser dokumenta stiliem.

Priekšnosacījumi

Instalējiet bibliotēku:

pip install aspose-words-foss>=26.4.0

Pieprasa Python 3.10 vai jaunāku.

Numurēšanas parsētājs

NumberingParser lasa saraksta numurēšanas definīcijas no DOCX pakotnes. Pēc parse_numbering_part() izsaukšanas varat vaicāt saraksta īpašības:

  • NumberingParser.get_list_info() — iegūt informāciju par konkrētu sarakstu, izmantojot tā ID
  • NumberingParser.is_ordered_list() — pārbaudīt, vai saraksta līmenis ir numurēts vai ar aizzīmēm
  • NumberingParser.get_start_value() — iegūt sākuma numuru saraksta līmenim
  • NumberingParser.get_delimiter() — iegūt atdalītāja virkni saraksta līmenim

Stila parsētājs

StyleParser parsē stila nosaukumus strukturētos ParsedStyle objektos, identificējot virsrakstus, citātus, koda blokus un saraksta rindkopas:

  • StyleParser.parse() — parsēt stila nosaukumu uz ParsedStyle objektu
  • StyleParser.get_style_chain() — parsēt stilu nosaukumu ķēdi mantotajiem stiliem
  • StyleParser.is_setext_heading() — pārbaudīt, vai stils ir Setext‑stila virsraksts
  • StyleParser.extract_all_styles() — izvilkt atsevišķus stila nosaukumus no komatu atdalītas ķēdes

Numurēšanas datu modelis

Parsētie numurēšanas dati tiek saglabāti strukturētos objektos:

KlaseGalvenās īpašības
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Kopsavilkums

ParsētājsMērķis
NumberingParserIzvilkt saraksta numurēšanas definīcijas
StyleParserParsēt stila nosaukumus strukturētā informācijā
 Latviešu