c#利用WebClient和WebRequest获取网页源代码

c#利用WebClient和WebRequest获取网页源代码,第1张

C#中一般是可以利用WebClient类和WebRequest类获取网页代码 下面分别说明这两种方法的实现

WebClient类获取网页源代码

WebClient类

WebClient类位于System Net命名空间下 WebClient类提供向URI标识的任何本地 Intranet或Internet资源发送数据以及从这些资源接收数据的公共方法

源代码

///引用命名空间

using System IO;

using System Net;

using System Text;

PageUrl = webkaka ; //需要获取源代码的网页

WebClient wc = new WebClient(); // 创建WebClient实例提供向URI 标识的资源发送数据和从URI 标识的资源接收数据

wc Credentials = CredentialCache DefaultCredentials; // 获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据

///方法一

Encoding enc = Encoding GetEncoding( GB ); // 如果是乱码就改成 utf / GB

Byte[] pageData = wc DownloadData(PageUrl); // 从资源下载数据并返回字节数组

ContentHtml Text = enc GetString(pageData); // 输出字符串(HTML代码) ContentHtml为Multiline模式的TextBox控件

/// 方法二

/// 代码开始

/// Stream resStream = wc OpenRead(PageUrl); //以流的形式打开URL

/// Encoding enc = Encoding GetEncoding( GB ); // 如果是乱码就改成 utf / GB

/// StreamReader sr = new StreamReader(resStream enc); //以指定的编码方式读取数据流

/// ContentHtml Text = sr ReadToEnd(); //输出(HTML代码) ContentHtml为Multiline模式的TextBox控件

/// resStream Close();

/// 代码结束

///

wc Dispose();

WebRequest类获取网页源代码

WebRequest类

WebRequest类是 NET Framework中 请求/响应 模型的abstract基类 用于访问Internet数据 使用WebRequest类请求/响应模型的应用程序可以用协议不可知的方式从Internet请求数据 在这种方式下 应用程序处理WebRequest类的实例 而协议特定的子类则执行请求的具体细节 请求从应用程序发送到某个特定的URI 如服务器上的网页 URI从一个为应用程序注册的WebRequest子类列表中确定要创建的适当子类 注册WebRequest子类通常是为了处理某个特定的协议(如>

获得JS生成后的HTML代码,首先需要要获取的是那一段代码,然后在通过innerHTML这个JS的方法来调用,然后在输出这段方法就行了;

代码:

<html>

<head></head>

<script>

var oDiv = documentgetElementById('div1');

alert(oDivinnerHTML);

</script>

<body>

<div id='div1'>

<p>会被获取的</p>

</div>

/body>

</html>

这样就能获取到JS生成后的html代码。

你好 获取HTML代码可以单机鼠标右键,选择查看网页源代码就可以看到HTML代码了,不过有的代码可能是后端生成的

不过这种方式不能查看JS动态生成的代码,如果要查看的话可以直接案F12,也可以查看代码

希望我的回答能够帮助到你,如果还有什么疑问欢迎继续追问。

tag是对历史一个提交id的引用,如果理解这句话就明白了

使用git checkout tag即可切换到指定tag,例如:git checkout v010

切换到tag历史记录会处在分离头指针状态,这个是的修改是很危险的,在切换回主线时如果没有合并,之前的修改提交基本都会丢失,如果需要修改可以尝试git checkout -b branch tag创建一个基于指定tag的分支,例如:git checkout -b tset v010 这个时候就会在分支上进行开发,之后可以切换到主线合并

1、使用file_get_contents获得网页源代码。这个方法最常用,只需要两行代码即可,非常简单方便。

2、使用fopen获得网页源代码。这个方法用的人也不少,不过代码有点多。

3、使用curl获得网页源代码。使用curl获得网页源代码的做法,往往是需要更高要求的人使用,例如当你需要在抓取网页内容的同时,得到网页header信息,还有ENCODING编码的使,USERAGENT的使用等等。

所谓的网页代码,就是指在网页制作过程中需要用到的一些特殊的"语言",设计人员通过对这些"语言"进行组织编排制作出网页,然后由浏览器对代码进行"翻译"后才是我们最终看到的效果。

制作网页时常用的代码有HTML,JavaScript,ASP,PHP,CGI等,其中超文本标记语言(标准通用标记语言下的一个应用、外语简称:HTML)是最基础的网页代码。

很简单,当前页面的地址是吧?

给吧:

var strFullPath = windowdocumentlocationhref;

var strPath = windowdocumentlocationpathname;

var pos = strFullPathindexOf(strPath);

var prePath = strFullPathsubstring(0, pos);

var postPath = strPathsubstring(0, strPathsubstr(1)indexOf('/') + 1);

var path = prePath + postPath;

这么多path就是的!!!

以上就是关于c#利用WebClient和WebRequest获取网页源代码全部的内容,包括:c#利用WebClient和WebRequest获取网页源代码、如何从github获取源代码、如何获取js生成内容的 完整的html代码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9390040.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-27
下一篇2023-04-27

发表评论

登录后才能评论

评论列表(0条)

    保存