如何获取本地html文件的标题,超级链接

如何获取本地html文件的标题,超级链接,第1张

里面的所有<a href="yyyyyy" >xxxxxx</a> 的herf里面的网址:

新闻地址组入库1网站名称 = sSelect

Select Case sSelect

Case "中国新闻网" '

With 新闻地址组入库1

地址开始关键词 = "<a href=/jk/2011/"

'地址结束关键词 = "</a>"

'下面开始具体的分析工作

Dim i As Integer

Dim j As Integer

Dim sTemp As String = "" '保存分析结果

i = Str_WebContentIndexOf(sKey3Text)

While i > 0 '循环查找链接标题,从 <a 开始,到 </a> 结束

Str_WebContent = Str_WebContentSubstring(i)

j = Str_WebContentIndexOf(sKey4Text)

sTemp = Str_WebContentSubstring(0, j + sKey4TextLength) ' + Chr(13) + Chr(10)

sUrlItemsAdd(sTemp)

ListBox1ItemsAdd(sTemp)

Str_WebContent = Str_WebContentSubstring(j)

i = Str_WebContentIndexOf(sKey3Text)

End While

dTBoxText = sTemp

首先你要找特征,这是写正则前必须做的。

一般要匹配HTML中的东西,往往这个HTML的来源是抓取别人的网站,那么你要分析对方网站会变动些什么,比如form是否是唯一的,会不会增加另外一个form,DIV的ID是否会变,DIV的层级是否会变,那些是不会变的,比如div的class名称,或者某些关键字。这是找范围特征。

其次是找链接本身的特征,你要找的链接是否都是超链接,也就是<a href=""></a>标签

然后更具特征去写正则。

处理方式:

首先获取范围的全部的HTML

其次再匹配其中的链接

我也不知道你用的什么语言,这里我就用我熟悉的PHP给你写下吧

if (preg_match_all("/\<\bdiv\b[^>]id\s=\"1\"[^>]\>(<content>)/ies", $html, $matches) {

$html = $matches['content'];

if (preg_match_all("/>

能获取HTML上所有超链接地址的Java程序如下:

import javaioIOException;

import javautilIterator;

import orgjsoupJsoup;

import orgjsoupnodesDocument;

import orgjsoupnodesElement;

import orgjsoupselectElements;

public class TT {

 public static void main(String[] args) {

  String url = "

>

<html>

<body>

<form>

<input type=text name=me> </input>

<input type=submit></input>

</form>

</body>

</html>

上面是个简单的html文件。 打开记事本复制粘帖进去,保存文件为html格式。

用浏览器打开, 在输入栏内输入一些文字, 点击submit按钮

注意此时的链接显示为 “file:///home/xxx/ahtmlme=123”

链接 ? 号里的东西, 是input filed 里的变量,如上面例子中 input name 为 me, input 值 为 123楼主你想要的东西就是把 <a> tag 变成 一个 submit button 参数既为填写在表格种的用户变量。submit还有action attribute 可以设置成任意链接。 例子请自己搜索 "form action example"

老师用英文教的,很多东西我对不上中文,解释得不好。

用jquery的ajax类似的请求就可以了:比如:

$get("testphp", function(data){

alert("Data Loaded: " + data);

//拿到data以后就直接插入到指定的div里面,加入div id为tag

那么写法为$("#tag")append(data);

});

public static string[] GetHtmlUrlList(string sHtmlText)

{

// 定义正则表达式用来匹配 a 标签

Regex hr = new Regex(@"<a\b[^<>]\bhref[\s\t\r\n]=[\s\t\r\n][""'][\s\t\r\n](<hrURL>[^\s\t\r\n""'<>])[^<>]/[\s\t\r\n]>", RegexOptionsIgnoreCase);

// 搜索匹配的字符串

MatchCollection matches = hrMatches(sHtmlText);

int i = 0;

string[] sUrlList = new string[matchesCount];

// 取得匹配项列表

foreach (Match match in matches)

sUrlList[i++] = matchGroups["hrURL"]Value;

return sUrlList;

}

// 测试

StringBuilder sb = new StringBuilder();

sbAppend(" <a href=\"Defaultaspx\">测试</a>");

sbAppend(" <a href=\"Default1aspx\">测试1</a>");

string[] a = GetHtmlUrlList(sbToString());

超文本标记语言或超文本链接标示语言(标准通用标记语言下的一个应用)HTML(HyperText Mark-up Language)是一种制作万维网页面的标准语言,是万维网浏览器使用的一种语言,

它消除了不同计算机之间信息交流的障碍。

它是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。

HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。

以上就是关于如何获取本地html文件的标题,超级链接全部的内容,包括:如何获取本地html文件的标题,超级链接、正则表达式提取HTML范围内链接地址URL、jsoup 怎么获取HTML上所有超链接地址 :等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9534457.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-29
下一篇2023-04-29

发表评论

登录后才能评论

评论列表(0条)

    保存