Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές στην Python

Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές στην Python

Πώς να εξάγετε τη δομή του εγγράφου με αναλυτές

Το Aspose.Words FOSS for Python παρέχει κλάσεις parser για την εξαγωγή δομημένων δεδομένων από έγγραφα DOCX. Αυτός ο οδηγός καλύπτει NumberingParser για την αρίθμηση λιστών και StyleParser για τα στυλ εγγράφου.

Προαπαιτούμενα

Εγκαταστήστε τη βιβλιοθήκη:

pip install aspose-words-foss>=26.4.0

Απαιτεί Python 3.10 ή νεότερη έκδοση.

Αναλυτής Αρίθμησης

NumberingParser διαβάζει ορισμούς αρίθμησης λιστών από ένα πακέτο DOCX. Μετά την κλήση του parse_numbering_part(), μπορείτε να ερωτήσετε τις ιδιότητες της λίστας:

  • NumberingParser.get_list_info() — ανάκτηση πληροφοριών για μια συγκεκριμένη λίστα με το ID της
  • NumberingParser.is_ordered_list() — έλεγχος εάν ένα επίπεδο λίστας είναι αριθμημένο ή με κουκκίδες
  • NumberingParser.get_start_value() — λήψη του αρχικού αριθμού για ένα επίπεδο λίστας
  • NumberingParser.get_delimiter() — λήψη της συμβολοσειράς οριοθέτη για ένα επίπεδο λίστας

Αναλυτής Στυλ

StyleParser αναλύει τα ονόματα στυλ σε δομημένα αντικείμενα ParsedStyle, εντοπίζοντας επικεφαλίδες, blockquotes, code blocks και παραγράφους λίστας:

  • StyleParser.parse() — αναλύει ένα όνομα στυλ σε ένα αντικείμενο ParsedStyle
  • StyleParser.get_style_chain() — αναλύει μια αλυσίδα ονομάτων στυλ για κληρονομημένα στυλ
  • StyleParser.is_setext_heading() — ελέγχει αν ένα στυλ είναι μια επικεφαλίδα τύπου Setext
  • StyleParser.extract_all_styles() — εξάγει μεμονωμένα ονόματα στυλ από μια αλυσίδα διαχωρισμένη με κόμματα

Μοντέλο Δεδομένων Αρίθμησης

Τα αναλυμένα δεδομένα αρίθμησης αποθηκεύονται σε δομημένα αντικείμενα:

ΚατηγορίαΚύρια Ιδιότητες
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Περίληψη

ΑναλυτήςΣκοπός
NumberingParserΕξαγωγή ορισμών αρίθμησης λίστας
StyleParserΑνάλυση ονομάτων στυλ σε δομημένες πληροφορίες
 Ελληνικά