c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?

c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?,第1张

概述在从 HTML文本导出到Excel工作表期间,我正在尝试保留基本格式,如HTML换行符(< br>,< p>),列表(< ol>,< ul>)等. 输入示例: <p>This is a test.</p><p>This is another<br>test.</p><ul> <li>10</li> <li>20</li> <li>30</li></ul><p>E 在从 HTML文本导出到Excel工作表期间,我正在尝试保留基本格式,如HTML换行符(< br>,< p>),列表(< ol>,< ul>)等.

输入示例:

<p>This is a test.</p><p>This is another<br>test.</p><ul>    <li>10</li>    <li>20</li>    <li>30</li></ul><p>End.</p>

示例输出:

This is a test.This is anothertest.- 10- 20- 30End.

来自着名的Nirsoft家伙的免费实用程序HTMLAsText似乎正在做我想要的,不幸的是它没有源代码:

即使在检查了约. Stack Overflow上有20个类似的问题,并且谷歌浏览了几个小时,我能找到的最接近的是this Code Project article.

因此,我的问题是:

是否有人知道可以在保留基本格式的同时将HTML转换为纯文本的类/库?

更新2013-05-10

我最终得到了一个功能,see the full code over at Pastebin.

解决方法 你能不能自己替换:

<br /> with Environment.Newline</p> with Environment.Newline + Environment.Newline<li> with " - ".

然后用正则表达式删除剩下的HTML?它似乎实现了你想要的示例输出.当然,有人可能会有更优雅的解决方案. =)

总结

以上是内存溢出为你收集整理的c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?全部内容,希望文章能够帮你解决c# – 在保留P,BR,UL,OL的同时将HTML转换为纯文本?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/1217472.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-06-05
下一篇2022-06-05

发表评论

登录后才能评论

评论列表(0条)

    保存