
楼上说了代码 那我就说一下细节。
通过htrp读文件可以获取到网页源码。如果出现乱码情况可以对源码进行编码。至于怎么转换 可以看网页源码文件头。里面有编码何时 比如gbk编码等。
def getUrlRespHtml(url):
heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=09,/;q=08',
'Accept-Charset':'GB2312,utf-8;q=07,;q=07',
'Accept-Language':'zh-cn,zh;q=05',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'John',
'Keep-Alive':'115',
'Referer':url,
'User-Agent':'Mozilla/50 (X11; U; Linux x86_64; zh-CN; rv:19214) Gecko/20110221 Ubuntu/1010 (maverick) Firefox/3614'}
opener = urllib2build_opener(urllib2')
给你一个返回页面数据的函数试试,这个主要是模拟了火狐浏览器去抓取数据,因为有些网站不希望机器人抓取他的数据,这是可能会出现没有返回值的情况。这个函数加了个头,来模拟浏览器浏览网页的行为。
以上就是关于易语言 如何获取https源代码全部的内容,包括:易语言 如何获取https源代码、求助:关于python中urllib.urlopen读取网页源代码的问题、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)