
这种抓网页的事最适合的是python,配合beautifulsoup来分析。
你现在这代码的话用dom或者正则表达式都可以实现你要的效果,我写过的代码都是cpp+qt或者是python的,给你也不适用,自己根据关键字查查资料就有了。
不一定要正则的。字符串截取也行。 var str = '投一票';str = strsplit('formhash=');str = str[1]split('\'');alert(str[0]);
稍微说一下背景,当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律,首先得有数据啊,数据从哪里来?就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候,手动一个个去下显然是不可取的,我们需要写个脚本,能从特定的网站选择性得批量下载需要的信息。python是不错的选择。
import urllib #python中用于获取网站的模块
import urllib2, cookielib
有些网站访问时需要cookie的,python处理cookie代码如下:
cj = cookiejar ( )
opener = build_opener( >
<!DOCTYPE HTML>
<html>
<head>
<meta charset=UTF-8>
<title>recursion</title>
<style type="text/css">
</style>
<script type="text/javascript">
var array = [];
onload = function ()
{
var tags = documentbodygetElementsByTagName ('');
for ( var i = 0; i < tagslength; i++)
{
arraypush (getText (tags[i]));
}
consolelog (array);
}
var getText = function (dom)
{
var index = 0, html = dominnerHTML;
while (domchildrenlength && index < domchildrenlength)
{
var chtml = domchildren[index]outerHTML;
html = dominnerHTMLreplace(chtml, '');
index++;
}
return "<font>" + html + "</font>";
}
</script>
</head>
<body>
<p>
ths is p<a href="">this is a</a>wyz
</p>
<i>this is i</i>
<b>this is b</b>
</body>
</html>
以上就是关于已获取到html代码,如何根据标签ID获取整个标签的内容全部的内容,包括:已获取到html代码,如何根据标签ID获取整个标签的内容、怎么用JS获取网页中指定标签内的选中内容、python爬虫时,bs4无法读取网页标签中的文本等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)