Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές στην Python
Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές
Το Aspose.Words FOSS for Python παρέχει κλάσεις parser για την εξαγωγή δομημένων δεδομένων από έγγραφα DOCX. Αυτός ο οδηγός καλύπτει NumberingParser για την αρίθμηση λιστών και StyleParser για τα στυλ εγγράφου.
Προαπαιτούμενα
Εγκαταστήστε τη βιβλιοθήκη:
pip install aspose-words-foss>=26.4.0Απαιτεί Python 3.10 ή νεότερη έκδοση.
Αναλυτής Αρίθμησης
NumberingParser διαβάζει ορισμούς αρίθμησης λιστών από ένα πακέτο DOCX. Μετά την κλήση του parse_numbering_part(), μπορείτε να ερωτήσετε τις ιδιότητες της λίστας:
NumberingParser.get_list_info()— ανάκτηση πληροφοριών για μια συγκεκριμένη λίστα με το ID τηςNumberingParser.is_ordered_list()— έλεγχος εάν ένα επίπεδο λίστας είναι αριθμημένο ή με κουκκίδεςNumberingParser.get_start_value()— λήψη του αρχικού αριθμού για ένα επίπεδο λίσταςNumberingParser.get_delimiter()— λήψη της συμβολοσειράς οριοθέτη για ένα επίπεδο λίστας
Αναλυτής Στυλ
StyleParser αναλύει τα ονόματα στυλ σε δομημένα αντικείμενα ParsedStyle, εντοπίζοντας επικεφαλίδες, blockquotes, code blocks και παραγράφους λίστας:
StyleParser.parse()— αναλύει ένα όνομα στυλ σε ένα αντικείμενοParsedStyleStyleParser.get_style_chain()— αναλύει μια αλυσίδα ονομάτων στυλ για κληρονομημένα στυλStyleParser.is_setext_heading()— ελέγχει αν ένα στυλ είναι μια επικεφαλίδα τύπου SetextStyleParser.extract_all_styles()— εξάγει μεμονωμένα ονόματα στυλ από μια αλυσίδα διαχωρισμένη με κόμματα
Μοντέλο Δεδομένων Αρίθμησης
Τα αναλυμένα δεδομένα αρίθμησης αποθηκεύονται σε δομημένα αντικείμενα:
| Κατηγορία | Κύρια Ιδιότητες |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Περίληψη
| Αναλυτής | Σκοπός |
|---|---|
NumberingParser | Εξαγωγή ορισμών αρίθμησης λίστας |
StyleParser | Ανάλυση ονομάτων στυλ σε δομημένες πληροφορίες |