用java写爬虫程序,有个网站获取不到链接,求指导

用java写爬虫程序,有个网站获取不到链接,求指导,第1张

//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {

URL url;

String temp;

final StringBuffer sb = new StringBuffer();

try {

url = new URL(htmlurl);

// 读取网页全部内容

final BufferedReader in = new BufferedReader(new InputStreamReader(

urlopenStream(),"GBK"));

while ((temp = inreadLine()) != null) {

sbappend(temp);

}

inclose();

} catch (final MalformedURLException me) {

Systemoutprintln("你输入的URL格式有问题!请仔细输入");

megetMessage();

} catch (final IOException e) {

eprintStackTrace();

}

return sbtoString();

}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。

import javautilregexMatcher;

import javautilregexPattern;

public void print_URL()

{

list = new ArrayList<String>();

//regular expression of >

在html5以前,一般是三种 一种是 img 的src中, 一种是各个对象的background属性

还有一种就是在css中。

第三种特别麻烦,需要非常复杂的判断。前两种都可通过正则表达式过滤。

html以后,有了一些自己用代码画图的方式。这种图是没有链接的,就无法获取了。

都有统一的格式的,如下:

Microsoft SQL Server JDBC Driver (一般用来连接 SQLServer 2000)

驱动程序包名:msbasejar mssqlserverjar msutiljar

驱动程序类名: commicrosoftjdbcsqlserverSQLServerDriver

JDBC URL: jdbc:microsoft:sqlserver://<server_name>:<port>

默认端口1433,如果服务器使用默认端口则port可以省略

Microsoft SQL Server 2005 JDBC Driver

驱动程序包名:sqljdbcjar

驱动程序类名: commicrosoftsqlserverjdbcSQLServerDriver

JDBC URL: jdbc:sqlserver://<server_name>:<port>

默认端口1433,如果服务器使用默认端口则port可以省略

Oracle

Oracle Thin JDBC Driver

驱动程序包名:ojdbc14jar

驱动程序类名: OraclejdbcdriverOracleDriver

JDBC URL:

jdbc:oracle:thin:@//<host>:<port>/ServiceName

jdbc:oracle:thin:@<host>:<port>:<SID>

$('a')click(function(event){

alert(eventtargethref);

return false;

})

方法太多了,刚刚看API看到这个就写给你吧。

如果上面那种你觉得不好推荐下面这种 so easy!

$('a')click(function(event){

alert($('a')attr('href'));

return false;

})

仔细看了一下你的问题,发现你的问题好奇葩。

以上就是关于用java写爬虫程序,有个网站获取不到链接,求指导全部的内容,包括:用java写爬虫程序,有个网站获取不到链接,求指导、java 如何截取以http开头的地址 变成一个超链接、java如何从网页的源码中得到图片的链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/10152501.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存