
设网页源代码是 UrlStr
一般超链接代码是<a href="">,引号内就是你想要的。
先把UrlStr中的空格去掉
UrlStr=UrlStrreplace(" ","");
Regex linkReg=new Regex("<ahref=\"([^\"]+)\">");
MatchCollection linkCollection =linkRegMatches(UrlStr);
HashTable linkHashTable =new HashTable();//结果存于HashTable中,或是数组中
Foreach(Match linkMatch in linkCollection)
{
if(!linkHashTableContains(linkMatchGroups[1]ValueTrim())&&(linkMatchGroups[1]ValueTrim()Contains("googleadsgdoubleclick")))//是否含有"googleadsgdoubleclick"
{
linkHashTableAdd(linkMatchGroups[1]ValueTrim(),linkMatchGroups[1]ValueTrim());
}
}
//全部符合条件的都在HashTable中了
HTML网页是一个文本文档,正则表达式的主要作用是匹配文本文档中的特定字符串,当然,它不仅仅是从文档中找出一个确定的字符串,例如“text”这么简单,而是使用一种很灵活的词法表达一个字符串模式,按照这个模式匹配。
从HTML文档中提取内容,可以将HTML的标签或者文字内容作为匹配的目标和参照,所以首先要了解目标HTML文档结构,另外,正则表达式也比较不容易掌握。实际上,HTML文档是一种半结构化的文档,用HTML标签分成结构块,所以,还有另外一种提取途径:使用XPath或者XQuery,其语法要容易掌握得多。
可以看一下MetaSeeker网站抓取软件的实现原理,采用以XPath为主,以字符串处理函数为辅的方法提取网站内容,在GooSeeker网站上有很多技术资料,软件可以免费下载和使用
用JS就可以轻松获取url里的参数
用这个函数可以获取 url里的参数
function geturlworkd(wordName) {
var returnWord = null;
var url = windowlocationtoString();
if (urltoString()indexOf('') == -1) {
}
else {
if (urltoString()indexOf('&') == -1) {
var y = urlsplit('')[1]toString()split("=");
if (y[0] == wordName) {
returnWord = y[1];
}
}
else {
var y = urlsplit('')[1]toString()split("&");
for (var i = 0; i < ylength; i++) {
if (y[i]split("=")[0] == wordName) {
returnWord = y[i]split("=")[1]toString();
}
}
}
}
return returnWord;
}
workName是你要获取的参数的名称 调用后返回的就是你要获取的参数的值
以上就是关于提取包含特定字符串的网址的正则表达式如何写全部的内容,包括:提取包含特定字符串的网址的正则表达式如何写、如何用正则表达式提取网址、如何在网页中显示URL里的ID字符串等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)