Cara Mengekstrak Struktur Dokumen dengan Parser di Python

Cara Mengekstrak Struktur Dokumen dengan Parser

Aspose.Words FOSS for Python menyediakan kelas parser untuk mengekstrak data terstruktur dari dokumen DOCX. Panduan ini mencakup NumberingParser untuk penomoran daftar dan StyleParser untuk gaya dokumen.

Prasyarat

Instal perpustakaan:

pip install aspose-words-foss>=26.4.0

Membutuhkan Python 3.10 atau yang lebih baru.

Parser Penomoran

NumberingParser membaca definisi penomoran daftar dari paket DOCX. Setelah memanggil parse_numbering_part(), Anda dapat menanyakan properti daftar:

NumberingParser.get_list_info() — mengambil informasi tentang daftar tertentu berdasarkan ID-nya
NumberingParser.is_ordered_list() — memeriksa apakah tingkat daftar terurut atau berupa bullet
NumberingParser.get_start_value() — mendapatkan nomor awal untuk tingkat daftar
NumberingParser.get_delimiter() — mendapatkan string pemisah untuk tingkat daftar

Pengurai Gaya

StyleParser mengurai nama gaya menjadi objek ParsedStyle terstruktur, mengidentifikasi judul, kutipan blok, blok kode, dan paragraf daftar:

StyleParser.parse() — mengurai nama gaya menjadi objek ParsedStyle
StyleParser.get_style_chain() — mengurai rangkaian nama gaya untuk gaya yang diwariskan
StyleParser.is_setext_heading() — memeriksa apakah sebuah gaya adalah heading gaya Setext
StyleParser.extract_all_styles() — mengekstrak nama gaya individual dari rangkaian yang dipisahkan koma

Model Data Penomoran

Data penomoran yang diurai disimpan dalam objek terstruktur:

Kelas	Properti Kunci
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Ringkasan

Pengurai	Tujuan
`NumberingParser`	Ekstrak definisi penomoran daftar
`StyleParser`	Urai nama gaya menjadi informasi terstruktur