
里面的所有<a href="yyyyyy" >xxxxxx</a> 的herf里面的网址:
新闻地址组入库1网站名称 = sSelect
Select Case sSelect
Case "中国新闻网" '
With 新闻地址组入库1
地址开始关键词 = "<a href=/jk/2011/"
'地址结束关键词 = "</a>"
'下面开始具体的分析工作
Dim i As Integer
Dim j As Integer
Dim sTemp As String = "" '保存分析结果
i = Str_WebContentIndexOf(sKey3Text)
While i > 0 '循环查找链接标题,从 <a 开始,到 </a> 结束
Str_WebContent = Str_WebContentSubstring(i)
j = Str_WebContentIndexOf(sKey4Text)
sTemp = Str_WebContentSubstring(0, j + sKey4TextLength) ' + Chr(13) + Chr(10)
sUrlItemsAdd(sTemp)
ListBox1ItemsAdd(sTemp)
Str_WebContent = Str_WebContentSubstring(j)
i = Str_WebContentIndexOf(sKey3Text)
End While
dTBoxText = sTemp
首先你要找特征,这是写正则前必须做的。
一般要匹配HTML中的东西,往往这个HTML的来源是抓取别人的网站,那么你要分析对方网站会变动些什么,比如form是否是唯一的,会不会增加另外一个form,DIV的ID是否会变,DIV的层级是否会变,那些是不会变的,比如div的class名称,或者某些关键字。这是找范围特征。
其次是找链接本身的特征,你要找的链接是否都是超链接,也就是<a href=""></a>标签
然后更具特征去写正则。
处理方式:
首先获取范围的全部的HTML
其次再匹配其中的链接
我也不知道你用的什么语言,这里我就用我熟悉的PHP给你写下吧
if (preg_match_all("/\<\bdiv\b[^>]id\s=\"1\"[^>]\>(<content>)/ies", $html, $matches) {
$html = $matches['content'];
if (preg_match_all("/>
能获取HTML上所有超链接地址的Java程序如下:
import javaioIOException;import javautilIterator;
import orgjsoupJsoup;
import orgjsoupnodesDocument;
import orgjsoupnodesElement;
import orgjsoupselectElements;
public class TT {
public static void main(String[] args) {
String url = "
>
<html>
<body>
<form>
<input type=text name=me> </input>
<input type=submit></input>
</form>
</body>
</html>
上面是个简单的html文件。 打开记事本复制粘帖进去,保存文件为html格式。
用浏览器打开, 在输入栏内输入一些文字, 点击submit按钮
注意此时的链接显示为 “file:///home/xxx/ahtmlme=123”
链接 ? 号里的东西, 是input filed 里的变量,如上面例子中 input name 为 me, input 值 为 123楼主你想要的东西就是把 <a> tag 变成 一个 submit button 参数既为填写在表格种的用户变量。submit还有action attribute 可以设置成任意链接。 例子请自己搜索 "form action example"
老师用英文教的,很多东西我对不上中文,解释得不好。
用jquery的ajax类似的请求就可以了:比如:
$get("testphp", function(data){
alert("Data Loaded: " + data);
//拿到data以后就直接插入到指定的div里面,加入div id为tag
那么写法为$("#tag")append(data);
});
public static string[] GetHtmlUrlList(string sHtmlText)
{
// 定义正则表达式用来匹配 a 标签
Regex hr = new Regex(@"<a\b[^<>]\bhref[\s\t\r\n]=[\s\t\r\n][""'][\s\t\r\n](<hrURL>[^\s\t\r\n""'<>])[^<>]/[\s\t\r\n]>", RegexOptionsIgnoreCase);
// 搜索匹配的字符串
MatchCollection matches = hrMatches(sHtmlText);
int i = 0;
string[] sUrlList = new string[matchesCount];
// 取得匹配项列表
foreach (Match match in matches)
sUrlList[i++] = matchGroups["hrURL"]Value;
return sUrlList;
}
// 测试
StringBuilder sb = new StringBuilder();
sbAppend(" <a href=\"Defaultaspx\">测试</a>");
sbAppend(" <a href=\"Default1aspx\">测试1</a>");
string[] a = GetHtmlUrlList(sbToString());
超文本标记语言或超文本链接标示语言(标准通用标记语言下的一个应用)HTML(HyperText Mark-up Language)是一种制作万维网页面的标准语言,是万维网浏览器使用的一种语言,
它消除了不同计算机之间信息交流的障碍。
它是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。
HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。
以上就是关于如何获取本地html文件的标题,超级链接全部的内容,包括:如何获取本地html文件的标题,超级链接、正则表达式提取HTML范围内链接地址URL、jsoup 怎么获取HTML上所有超链接地址 :等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)