Cara Mengekstrak Struktur Dokumen dengan Parser di Python
Cara Mengekstrak Struktur Dokumen dengan Parser
Aspose.Words FOSS for Python menyediakan kelas parser untuk mengekstrak data terstruktur dari dokumen DOCX. Panduan ini mencakup NumberingParser untuk penomoran daftar dan StyleParser untuk gaya dokumen.
Prasyarat
Instal perpustakaan:
pip install aspose-words-foss>=26.4.0Membutuhkan Python 3.10 atau yang lebih baru.
Parser Penomoran
NumberingParser membaca definisi penomoran daftar dari paket DOCX. Setelah memanggil parse_numbering_part(), Anda dapat menanyakan properti daftar:
NumberingParser.get_list_info()— mengambil informasi tentang daftar tertentu berdasarkan ID-nyaNumberingParser.is_ordered_list()— memeriksa apakah tingkat daftar terurut atau berupa bulletNumberingParser.get_start_value()— mendapatkan nomor awal untuk tingkat daftarNumberingParser.get_delimiter()— mendapatkan string pemisah untuk tingkat daftar
Pengurai Gaya
StyleParser mengurai nama gaya menjadi objek ParsedStyle terstruktur, mengidentifikasi judul, kutipan blok, blok kode, dan paragraf daftar:
StyleParser.parse()— mengurai nama gaya menjadi objekParsedStyleStyleParser.get_style_chain()— mengurai rangkaian nama gaya untuk gaya yang diwariskanStyleParser.is_setext_heading()— memeriksa apakah sebuah gaya adalah heading gaya SetextStyleParser.extract_all_styles()— mengekstrak nama gaya individual dari rangkaian yang dipisahkan koma
Model Data Penomoran
Data penomoran yang diurai disimpan dalam objek terstruktur:
| Kelas | Properti Kunci |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Ringkasan
| Pengurai | Tujuan |
|---|---|
NumberingParser | Ekstrak definisi penomoran daftar |
StyleParser | Urai nama gaya menjadi informasi terstruktur |