Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές στην Python

Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές

Το Aspose.Words FOSS for Python παρέχει κλάσεις parser για την εξαγωγή δομημένων δεδομένων από έγγραφα DOCX. Αυτός ο οδηγός καλύπτει NumberingParser για την αρίθμηση λιστών και StyleParser για τα στυλ εγγράφου.

Προαπαιτούμενα

Εγκαταστήστε τη βιβλιοθήκη:

pip install aspose-words-foss>=26.4.0

Απαιτεί Python 3.10 ή νεότερη έκδοση.

Αναλυτής Αρίθμησης

NumberingParser διαβάζει ορισμούς αρίθμησης λιστών από ένα πακέτο DOCX. Μετά την κλήση του parse_numbering_part(), μπορείτε να ερωτήσετε τις ιδιότητες της λίστας:

NumberingParser.get_list_info() — ανάκτηση πληροφοριών για μια συγκεκριμένη λίστα με το ID της
NumberingParser.is_ordered_list() — έλεγχος εάν ένα επίπεδο λίστας είναι αριθμημένο ή με κουκκίδες
NumberingParser.get_start_value() — λήψη του αρχικού αριθμού για ένα επίπεδο λίστας
NumberingParser.get_delimiter() — λήψη της συμβολοσειράς οριοθέτη για ένα επίπεδο λίστας

Αναλυτής Στυλ

StyleParser αναλύει τα ονόματα στυλ σε δομημένα αντικείμενα ParsedStyle, εντοπίζοντας επικεφαλίδες, blockquotes, code blocks και παραγράφους λίστας:

StyleParser.parse() — αναλύει ένα όνομα στυλ σε ένα αντικείμενο ParsedStyle
StyleParser.get_style_chain() — αναλύει μια αλυσίδα ονομάτων στυλ για κληρονομημένα στυλ
StyleParser.is_setext_heading() — ελέγχει αν ένα στυλ είναι μια επικεφαλίδα τύπου Setext
StyleParser.extract_all_styles() — εξάγει μεμονωμένα ονόματα στυλ από μια αλυσίδα διαχωρισμένη με κόμματα

Μοντέλο Δεδομένων Αρίθμησης

Τα αναλυμένα δεδομένα αρίθμησης αποθηκεύονται σε δομημένα αντικείμενα:

Κατηγορία	Κύρια Ιδιότητες
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Περίληψη

Αναλυτής	Σκοπός
`NumberingParser`	Εξαγωγή ορισμών αρίθμησης λίστας
`StyleParser`	Ανάλυση ονομάτων στυλ σε δομημένες πληροφορίες