doc: fix regex munging that sanitizes the generated markup
authorRamprasad Venkataraman <ramv@illinois.edu>
Sun, 5 Aug 2012 05:16:56 +0000 (00:16 -0500)
committerRamprasad Venkataraman <ramv@illinois.edu>
Sun, 5 Aug 2012 05:16:56 +0000 (00:16 -0500)
Its still not perfect. What this really needs is a proper html
parser configured to find matching sets of tags based on regex.
However, this is a busy man's sad substitute.

doc/l2h_sanitize_markup.sh

index 5059c34058d4aa01d2253e776bbc42dfe6cceba8..81a1477ab441cc2e3f60274ab7e7b989dcc155fb 100755 (executable)
@@ -26,17 +26,17 @@ do
     # Munge through the markup and... 
        # Relativize all paths
        # Replace placeholder with script tag
+       # Remove all closing tt tags
+       # and also remove the closing div matching the div.alltt
        # Replace div.alltt with pre tag
        # Delete tt tag that is no longer supported in html5
-       # Remove matching closing tags
-       # and also remove the closing div matching the div.alltt
        # Remove all br tags in between pre tags
        # and finally delete the line if it just has whitespace
        sed -e 's!'$cwd'/!!g' \
            -e 's|replace_with_script|script|g' \
+               -e '/<\/TT>/{N;s|<\/TT>||g;/\n<\/DIV>/{s|<\/DIV>|</code></pre>|g}}' \
                -e 's|<DIV CLASS="alltt"[^>]*>|<pre><code>|g' \
                -e 's|<TT>||g' \
-               -e '/<\/TT>/{N;s|<TT>||g;s|<\/TT>||g;/\n<\/DIV>/{s|<\/DIV>|</code></pre>|g}}' \
                -e '/<pre>/,/<\/pre>/s|<BR>||g' \
                -e '/^\w*$/d' \
        tmp > $f || die "error running sed on $f"