[shared] xml_parser: added parser XthmlToText that produces the pure textual version of a XHTML content.

2014-09-29 16:03:26 +02:00 · 2014-09-29 16:03:26 +02:00 · ae69509354
commit ae69509354
parent abe56a5add
1 changed files with 24 additions and 0 deletions
--- a/shared/xml_parser.py
+++ b/shared/xml_parser.py
@ -1177,4 +1177,28 @@ class XhtmlCleaner(XmlParser):
            toAdd = content
        # Re-transform XML special chars to entities.
        self.env.currentContent += cgi.escape(toAdd)
+
+# ------------------------------------------------------------------------------
+class XhtmlToText(XmlParser):
+    '''Produces a text version of XHTML content.'''
+    paraTags = ('p', 'li', 'center', 'div')
+
+    def startDocument(self):
+        XmlParser.startDocument(self)
+        self.res = []
+
+    def endDocument(self):
+        self.res = ''.join(self.res)
+        return XmlParser.endDocument(self)
+
+    def characters(self, content):
+        self.res.append(content.replace('\n', ''))
+
+    def startElement(self, elem, attrs):
+        '''Dumps a carriage return every time a "br" tag is encountered.'''
+        if elem == 'br': self.res.append('\n')
+
+    def endElement(self, elem):
+        '''Dumps a carriage return every time a paragraph is encountered.'''
+        if elem in self.paraTags: self.res.append('\n')
 # ------------------------------------------------------------------------------