Python में Parsers के साथ दस्तावेज़ संरचना कैसे निकालें

Python में Parsers के साथ दस्तावेज़ संरचना कैसे निकालें

पार्सर्स के साथ दस्तावेज़ संरचना कैसे निकालें

Aspose.Words FOSS for Python DOCX दस्तावेज़ों से संरचित डेटा निकालने के लिए पार्सर क्लासेज़ प्रदान करता है। यह गाइड NumberingParser को सूची क्रमांकन के लिए और StyleParser को दस्तावेज़ शैलियों के लिए कवर करता है।

पूर्वापेक्षाएँ

लाइब्रेरी स्थापित करें:

pip install aspose-words-foss>=26.4.0

Python 3.10 या बाद के संस्करण की आवश्यकता है।

नंबरिंग पार्सर

NumberingParser DOCX पैकेज से सूची क्रमांक परिभाषाएँ पढ़ता है। parse_numbering_part() को कॉल करने के बाद, आप सूची गुणों को क्वेरी कर सकते हैं:

  • NumberingParser.get_list_info() — उसकी ID द्वारा किसी विशिष्ट सूची की जानकारी प्राप्त करें
  • NumberingParser.is_ordered_list() — जाँचें कि सूची स्तर क्रमबद्ध है या बुलेटेड
  • NumberingParser.get_start_value() — सूची स्तर के लिए प्रारंभिक संख्या प्राप्त करें
  • NumberingParser.get_delimiter() — सूची स्तर के लिए डिलिमिटर स्ट्रिंग प्राप्त करें

स्टाइल पार्सर

StyleParser शैली नामों को संरचित ParsedStyle वस्तुओं में पार्स करता है, शीर्षक, ब्लॉककोट, कोड ब्लॉक और सूची पैराग्राफ की पहचान करता है:

  • StyleParser.parse() — एक शैली नाम को ParsedStyle वस्तु में पार्स करें
  • StyleParser.get_style_chain() — विरासत में मिली शैलियों के लिए शैली नामों की श्रृंखला को पार्स करें
  • StyleParser.is_setext_heading() — जांचें कि क्या कोई शैली Setext‑शैली शीर्षक है
  • StyleParser.extract_all_styles() — अल्पविराम‑सेपरेटेड श्रृंखला से व्यक्तिगत शैली नाम निकालें

नंबरिंग डेटा मॉडल

पार्स किया गया क्रमांक डेटा संरचित वस्तुओं में संग्रहीत किया जाता है:

वर्गमुख्य गुण
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

सारांश

पार्सरउद्देश्य
NumberingParserसूची क्रमांक परिभाषाओं को निकालें
StyleParserशैली नामों को संरचित जानकारी में पार्स करें
 हिन्दी