如何获取本地html文件的标题，超级链接

sanc•2023-4-29•框架•阅读41

里面的所有<a href="yyyyyy" >xxxxxx</a> 的herf里面的网址:

新闻地址组入库1网站名称 = sSelect

Select Case sSelect

Case "中国新闻网" '

With 新闻地址组入库1

地址开始关键词 = "<a href=/jk/2011/"

'地址结束关键词 = "</a>"

'下面开始具体的分析工作

Dim i As Integer

Dim j As Integer

Dim sTemp As String = "" '保存分析结果

i = Str_WebContentIndexOf(sKey3Text)

While i > 0 '循环查找链接标题，从 <a 开始，到 </a> 结束

Str_WebContent = Str_WebContentSubstring(i)

j = Str_WebContentIndexOf(sKey4Text)

sTemp = Str_WebContentSubstring(0, j + sKey4TextLength) ' + Chr(13) + Chr(10)

sUrlItemsAdd(sTemp)

ListBox1ItemsAdd(sTemp)

Str_WebContent = Str_WebContentSubstring(j)

i = Str_WebContentIndexOf(sKey3Text)

End While

dTBoxText = sTemp

首先你要找特征，这是写正则前必须做的。

一般要匹配HTML中的东西，往往这个HTML的来源是抓取别人的网站，那么你要分析对方网站会变动些什么，比如form是否是唯一的，会不会增加另外一个form，DIV的ID是否会变，DIV的层级是否会变，那些是不会变的，比如div的class名称，或者某些关键字。这是找范围特征。

其次是找链接本身的特征，你要找的链接是否都是超链接，也就是<a href=""></a>标签

然后更具特征去写正则。

处理方式：

首先获取范围的全部的HTML

其次再匹配其中的链接

我也不知道你用的什么语言，这里我就用我熟悉的PHP给你写下吧

if (preg_match_all("/\<\bdiv\b[^>]id\s=\"1\"[^>]\>(<content>)/ies", $html, $matches) {

$html = $matches['content'];

if (preg_match_all("/>

能获取HTML上所有超链接地址的Java程序如下:

import javaioIOException;

import javautilIterator;

import orgjsoupJsoup;

import orgjsoupnodesDocument;

import orgjsoupnodesElement;

import orgjsoupselectElements;

public class TT {

public static void main(String[] args) {

String url = "

>

<html>

<body>

<form>

<input type=text name=me> </input>

<input type=submit></input>

</form>

</body>

</html>

上面是个简单的html文件。打开记事本复制粘帖进去，保存文件为html格式。

用浏览器打开，在输入栏内输入一些文字，点击submit按钮

注意此时的链接显示为 “file:///home/xxx/ahtmlme=123”

链接？号里的东西，是input filed 里的变量，如上面例子中 input name 为 me, input 值为 123楼主你想要的东西就是把 <a> tag 变成一个 submit button 参数既为填写在表格种的用户变量。submit还有action attribute 可以设置成任意链接。例子请自己搜索 "form action example"

老师用英文教的，很多东西我对不上中文，解释得不好。

用jquery的ajax类似的请求就可以了：比如：

$get("testphp", function(data){

alert("Data Loaded: " + data);

//拿到data以后就直接插入到指定的div里面，加入div id为tag

那么写法为$("#tag")append(data);

});

public static string[] GetHtmlUrlList(string sHtmlText)

{

// 定义正则表达式用来匹配 a 标签

Regex hr = new Regex(@"<a\b[^<>]\bhref[\s\t\r\n]=[\s\t\r\n][""'][\s\t\r\n](<hrURL>[^\s\t\r\n""'<>])[^<>]/[\s\t\r\n]>", RegexOptionsIgnoreCase);

// 搜索匹配的字符串

MatchCollection matches = hrMatches(sHtmlText);

int i = 0;

string[] sUrlList = new string[matchesCount];

// 取得匹配项列表

foreach (Match match in matches)

sUrlList[i++] = matchGroups["hrURL"]Value;

return sUrlList;

}

// 测试

StringBuilder sb = new StringBuilder();

sbAppend(" <a href=\"Defaultaspx\">测试</a>");

sbAppend(" <a href=\"Default1aspx\">测试1</a>");

string[] a = GetHtmlUrlList(sbToString());

超文本标记语言或超文本链接标示语言（标准通用标记语言下的一个应用）HTML（HyperText Mark-up Language）是一种制作万维网页面的标准语言，是万维网浏览器使用的一种语言，

它消除了不同计算机之间信息交流的障碍。

它是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言。

HTML文件是由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部（Head）、主体（Body）两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。

以上就是关于如何获取本地html文件的标题，超级链接全部的内容，包括:如何获取本地html文件的标题，超级链接、正则表达式提取HTML范围内链接地址URL、jsoup 怎么获取HTML上所有超链接地址：等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9534457.html

链接语言地址文件这是

打赏

微信扫一扫

支付宝扫一扫

sanc一级用户组

前端开发微信下通过url获取Code，分享出去后，code怎么失效了

上一篇 2023-04-29

javascript里获取div或ul元素的第一层li或div节点数组再获取第二层li数组再及以下节点如下

下一篇2023-04-29

发表评论

登录后才能评论

评论列表（0条）