用java写爬虫程序，有个网站获取不到链接，求指导_框架

//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {

URL url;

String temp;

final StringBuffer sb = new StringBuffer();

try {

url = new URL(htmlurl);

// 读取网页全部内容

final BufferedReader in = new BufferedReader(new InputStreamReader(

urlopenStream(),"GBK"));

while ((temp = inreadLine()) != null) {

sbappend(temp);

}

inclose();

} catch (final MalformedURLException me) {

Systemoutprintln("你输入的URL格式有问题！请仔细输入");

megetMessage();

} catch (final IOException e) {

eprintStackTrace();

}

return sbtoString();

}上面这个方法是根据你传入的url爬取整个网页的内容，然后你写个正则表达式去匹配这个字符串的内容。

import javautilregexMatcher;

import javautilregexPattern;

public void print_URL()

{

list = new ArrayList<String>();

//regular expression of >

在html5以前，一般是三种一种是 img 的src中，一种是各个对象的background属性

还有一种就是在css中。

第三种特别麻烦，需要非常复杂的判断。前两种都可通过正则表达式过滤。

html以后，有了一些自己用代码画图的方式。这种图是没有链接的，就无法获取了。

都有统一的格式的,如下:

Microsoft SQL Server JDBC Driver （一般用来连接 SQLServer 2000）

驱动程序包名：msbasejar mssqlserverjar msutiljar

驱动程序类名: commicrosoftjdbcsqlserverSQLServerDriver

JDBC URL: jdbc:microsoft:sqlserver://<server_name>:<port>

默认端口1433，如果服务器使用默认端口则port可以省略

Microsoft SQL Server 2005 JDBC Driver

驱动程序包名：sqljdbcjar

驱动程序类名: commicrosoftsqlserverjdbcSQLServerDriver

JDBC URL: jdbc:sqlserver://<server_name>:<port>

默认端口1433，如果服务器使用默认端口则port可以省略

Oracle

Oracle Thin JDBC Driver

驱动程序包名：ojdbc14jar

驱动程序类名: OraclejdbcdriverOracleDriver

JDBC URL:

jdbc:oracle:thin:@//<host>:<port>/ServiceName

或

jdbc:oracle:thin:@<host>:<port>:<SID>

$('a')click(function(event){

alert(eventtargethref);

return false;

})

方法太多了，刚刚看API看到这个就写给你吧。

如果上面那种你觉得不好推荐下面这种 so easy!

$('a')click(function(event){

alert($('a')attr('href'));

return false;

})

仔细看了一下你的问题，发现你的问题好奇葩。

以上就是关于用java写爬虫程序，有个网站获取不到链接，求指导全部的内容，包括:用java写爬虫程序，有个网站获取不到链接，求指导、java 如何截取以http开头的地址变成一个超链接、java如何从网页的源码中得到图片的链接等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/10152501.html

用java写爬虫程序，有个网站获取不到链接，求指导

发表评论

评论列表（0条）