Sådan udtrækker du dokumentstruktur med parsere i Python

Sådan udtrækker du dokumentstruktur med parsere i Python

Sådan udtrækkes dokumentstruktur med parsere

Aspose.Words FOSS for Python leverer parserklasser til at udtrække strukturerede data fra DOCX-dokumenter. Denne vejledning dækker NumberingParser for listenummerering og StyleParser for dokumentstilarter.

Forudsætninger

Installer biblioteket:

pip install aspose-words-foss>=26.4.0

Kræver Python 3.10 eller senere.

Nummereringsparser

NumberingParser læser liste‑nummereringsdefinitioner fra en DOCX‑pakke. Efter at have kaldt parse_numbering_part(), kan du forespørge listeegenskaber:

  • NumberingParser.get_list_info() — hent information om en specifik liste efter dens ID
  • NumberingParser.is_ordered_list() — kontroller om et liste‑niveau er nummereret eller punktformet
  • NumberingParser.get_start_value() — hent startnummeret for et liste‑niveau
  • NumberingParser.get_delimiter() — hent afgrænsningsstrengen for et liste‑niveau

Stilparser

StyleParser parser stilnavne til strukturerede ParsedStyle-objekter, identificerer overskrifter, blokcitater, kodeblokke og listeafsnit:

  • StyleParser.parse() — parse et stilnavn til en ParsedStyle‑objekt
  • StyleParser.get_style_chain() — parse en kæde af stilnavne for arvede stilarter
  • StyleParser.is_setext_heading() — tjek om en stil er en Setext‑stil‑overskrift
  • StyleParser.extract_all_styles() — udtræk individuelle stilnavne fra en kommasepareret kæde

Nummereringsdatamodel

Den analyserede nummereringsdata gemmes i strukturerede objekter:

KlasseNøgleegenskaber
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Resumé

ParserFormål
NumberingParserUdtræk liste nummereringsdefinitioner
StyleParserAnalyser stilnavne til struktureret information
 Dansk