Cara Mengekstrak Struktur Dokumen dengan Parser di Python

Cara Mengekstrak Struktur Dokumen dengan Parser di Python

Cara Mengekstrak Struktur Dokumen dengan Parser

Aspose.Words FOSS for Python menyediakan kelas parser untuk mengekstrak data terstruktur dari dokumen DOCX. Panduan ini mencakup NumberingParser untuk penomoran daftar dan StyleParser untuk gaya dokumen.

Prasyarat

Instal perpustakaan:

pip install aspose-words-foss>=26.4.0

Membutuhkan Python 3.10 atau yang lebih baru.

Parser Penomoran

NumberingParser membaca definisi penomoran daftar dari paket DOCX. Setelah memanggil parse_numbering_part(), Anda dapat menanyakan properti daftar:

  • NumberingParser.get_list_info() — mengambil informasi tentang daftar tertentu berdasarkan ID-nya
  • NumberingParser.is_ordered_list() — memeriksa apakah tingkat daftar terurut atau berupa bullet
  • NumberingParser.get_start_value() — mendapatkan nomor awal untuk tingkat daftar
  • NumberingParser.get_delimiter() — mendapatkan string pemisah untuk tingkat daftar

Pengurai Gaya

StyleParser mengurai nama gaya menjadi objek ParsedStyle terstruktur, mengidentifikasi judul, kutipan blok, blok kode, dan paragraf daftar:

  • StyleParser.parse() — mengurai nama gaya menjadi objek ParsedStyle
  • StyleParser.get_style_chain() — mengurai rangkaian nama gaya untuk gaya yang diwariskan
  • StyleParser.is_setext_heading() — memeriksa apakah sebuah gaya adalah heading gaya Setext
  • StyleParser.extract_all_styles() — mengekstrak nama gaya individual dari rangkaian yang dipisahkan koma

Model Data Penomoran

Data penomoran yang diurai disimpan dalam objek terstruktur:

KelasProperti Kunci
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Ringkasan

PenguraiTujuan
NumberingParserEkstrak definisi penomoran daftar
StyleParserUrai nama gaya menjadi informasi terstruktur
 Bahasa Indonesia