如何克服Javascript的“ onclick”按钮来抓取网页？_随笔

如何克服Javascript的“ onclick”按钮来抓取网页？

首先，检查所需的数据是否已经存在-在html中（它在背景中-在那里）。

另一种选择是selenium:：

from selenium import webdriverimport timebrowser = webdriver.Firefox()browser.get("http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U")elem = browser.find_element_by_xpath('//*[@id="disclaimer"]/div/div')elem.click()time.sleep(0.2)elem = browser.find_element_by_xpath("//*")print elem.get_attribute("outerHTML")

另一种选择是使用

mechanize

。它无法执行js代码，但是根据源代码，

AgreeClick

只需将

cookie

设置为

ListFundShowDisclaimer

即可

true

。这是一个起点（不确定是否可行）：

import cookielibimport mechanizebr = mechanize.Browser()cj = cookielib.cookieJar()ck = cookielib.cookie(version=0, name='ListFundShowDisclaimer', value='true', port=None, port_specified=False,domain='www.prudential.com.hk', domain_specified=False, domain_initial_dot=False, path='/',path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None,rest={'HttpOnly': None}, rfc2109=False)cj.set_cookie(ck)br.set_cookiejar(cj)br.open("http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U")print br.response().read()

然后，你可以使用

BeautifulSoup

或任何你喜欢的内容解析结果。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/4980780.html

如何克服Javascript的“ onclick”按钮来抓取网页？

发表评论

评论列表（0条）