Python में Parsers के साथ दस्तावेज़ संरचना कैसे निकालें
पार्सर्स के साथ दस्तावेज़ संरचना कैसे निकालें
Aspose.Words FOSS for Python DOCX दस्तावेज़ों से संरचित डेटा निकालने के लिए पार्सर क्लासेज़ प्रदान करता है। यह गाइड NumberingParser को सूची क्रमांकन के लिए और StyleParser को दस्तावेज़ शैलियों के लिए कवर करता है।
पूर्वापेक्षाएँ
लाइब्रेरी स्थापित करें:
pip install aspose-words-foss>=26.4.0Python 3.10 या बाद के संस्करण की आवश्यकता है।
नंबरिंग पार्सर
NumberingParser DOCX पैकेज से सूची क्रमांक परिभाषाएँ पढ़ता है। parse_numbering_part() को कॉल करने के बाद, आप सूची गुणों को क्वेरी कर सकते हैं:
NumberingParser.get_list_info()— उसकी ID द्वारा किसी विशिष्ट सूची की जानकारी प्राप्त करेंNumberingParser.is_ordered_list()— जाँचें कि सूची स्तर क्रमबद्ध है या बुलेटेडNumberingParser.get_start_value()— सूची स्तर के लिए प्रारंभिक संख्या प्राप्त करेंNumberingParser.get_delimiter()— सूची स्तर के लिए डिलिमिटर स्ट्रिंग प्राप्त करें
स्टाइल पार्सर
StyleParser शैली नामों को संरचित ParsedStyle वस्तुओं में पार्स करता है, शीर्षक, ब्लॉककोट, कोड ब्लॉक और सूची पैराग्राफ की पहचान करता है:
StyleParser.parse()— एक शैली नाम कोParsedStyleवस्तु में पार्स करेंStyleParser.get_style_chain()— विरासत में मिली शैलियों के लिए शैली नामों की श्रृंखला को पार्स करेंStyleParser.is_setext_heading()— जांचें कि क्या कोई शैली Setext‑शैली शीर्षक हैStyleParser.extract_all_styles()— अल्पविराम‑सेपरेटेड श्रृंखला से व्यक्तिगत शैली नाम निकालें
नंबरिंग डेटा मॉडल
पार्स किया गया क्रमांक डेटा संरचित वस्तुओं में संग्रहीत किया जाता है:
| वर्ग | मुख्य गुण |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
सारांश
| पार्सर | उद्देश्य |
|---|---|
NumberingParser | सूची क्रमांक परिभाषाओं को निकालें |
StyleParser | शैली नामों को संरचित जानकारी में पार्स करें |