
输入示例:
<p>This is a test.</p><p>This is another<br>test.</p><ul> <li>10</li> <li>20</li> <li>30</li></ul><p>End.</p>
示例输出:
This is a test.This is anothertest.- 10- 20- 30End.
来自着名的Nirsoft家伙的免费实用程序HTMLAsText似乎正在做我想要的,不幸的是它没有源代码:
即使在检查了约. Stack Overflow上有20个类似的问题,并且谷歌浏览了几个小时,我能找到的最接近的是this Code Project article.
因此,我的问题是:
是否有人知道可以在保留基本格式的同时将HTML转换为纯文本的类/库?
更新2013-05-10
我最终得到了一个功能,see the full code over at Pastebin.
解决方法 你能不能自己替换:<br /> with Environment.Newline</p> with Environment.Newline + Environment.Newline<li> with " - ".
然后用正则表达式删除剩下的HTML?它似乎实现了你想要的示例输出.当然,有人可能会有更优雅的解决方案. =)
总结以上是内存溢出为你收集整理的c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?全部内容,希望文章能够帮你解决c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)