request-html获取渲染后的web源码

request-html获取渲染后的web源码,第1张

首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requestsget()方法里加上headers

如果还是没有一个你想要的结果,打印出来 的只是一个框架,那么就可以排除这方面了。就只可能是ajax或者是javascript来渲染的。

就可以按照下图去看一下里面有没有

本次先重点去讲一下关于js来渲染网页的数据爬取,这下面的数据是随机找的,只要是里面想要爬取的数据就行 了。

这里ctrl+f就可以搜索到了说明就是在这个js的文件里面

这个就是真正的数据。

剩下的就是可以利用xpath,beautifulsoup或者pyquery来解析得到的网页源码就可以了。

这里我个人推荐此处用pyquery比较方便简单一些。

假设你的html页面文件为testhtml:

下列命令获取title的内容:

cat testhtml | tr [TITLE] [title] | grep '<test></title>' | sed 's/<title>\(\)<\/title>/\1/g'

description的语法我看不大明白,所以不知道怎么提取。

只简单测试了一下,LZ可以试试。

html网页源代码主要是html/html5语言,其次还包括javaScript脚本语言、CSS样式语言,或者还有可能包括xml,json,dhtml,WMLScript等。查的源代码很简单,一般浏览器右键菜单里就有“查看源代码”菜单项。

你要明白,ShellExectu是一个Win API,就是它是一个windows下的一个函数,你不能用控制台程序去运行这个函数,你得建立Win32 Application工程或者MFC都可以,然后调用这个函数。

我测试了写个MFC,点击OK,打开了atxt。

windowonload=function(){

alert(documentbodyinnerHTML);

}

这样当页面加载完成后就可以获得所有的HTML代码~当然你了可以通过JS的事件来执行documentbodyinnerHTML

以上就是关于request-html获取渲染后的web源码全部的内容,包括:request-html获取渲染后的web源码、shell如何获取html页面的title和description里的内容、html网页源代码是什么 如何查看网页源代码经验篇等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9507361.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-29
下一篇2023-04-29

发表评论

登录后才能评论

评论列表(0条)

    保存