
//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {
URL url;
String temp;
final StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlurl);
// 读取网页全部内容
final BufferedReader in = new BufferedReader(new InputStreamReader(
urlopenStream(),"GBK"));
while ((temp = inreadLine()) != null) {
sbappend(temp);
}
inclose();
} catch (final MalformedURLException me) {
Systemoutprintln("你输入的URL格式有问题!请仔细输入");
megetMessage();
} catch (final IOException e) {
eprintStackTrace();
}
return sbtoString();
}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。
import javautilregexMatcher;
import javautilregexPattern;
public void print_URL()
{
list = new ArrayList<String>();
//regular expression of >
在html5以前,一般是三种 一种是 img 的src中, 一种是各个对象的background属性
还有一种就是在css中。
第三种特别麻烦,需要非常复杂的判断。前两种都可通过正则表达式过滤。
html以后,有了一些自己用代码画图的方式。这种图是没有链接的,就无法获取了。
都有统一的格式的,如下:
Microsoft SQL Server JDBC Driver (一般用来连接 SQLServer 2000)
驱动程序包名:msbasejar mssqlserverjar msutiljar
驱动程序类名: commicrosoftjdbcsqlserverSQLServerDriver
JDBC URL: jdbc:microsoft:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略
Microsoft SQL Server 2005 JDBC Driver
驱动程序包名:sqljdbcjar
驱动程序类名: commicrosoftsqlserverjdbcSQLServerDriver
JDBC URL: jdbc:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略
Oracle
Oracle Thin JDBC Driver
驱动程序包名:ojdbc14jar
驱动程序类名: OraclejdbcdriverOracleDriver
JDBC URL:
jdbc:oracle:thin:@//<host>:<port>/ServiceName
或
jdbc:oracle:thin:@<host>:<port>:<SID>
$('a')click(function(event){
alert(eventtargethref);
return false;
})
方法太多了,刚刚看API看到这个就写给你吧。
如果上面那种你觉得不好推荐下面这种 so easy!
$('a')click(function(event){alert($('a')attr('href'));
return false;
})
仔细看了一下你的问题,发现你的问题好奇葩。
以上就是关于用java写爬虫程序,有个网站获取不到链接,求指导全部的内容,包括:用java写爬虫程序,有个网站获取不到链接,求指导、java 如何截取以http开头的地址 变成一个超链接、java如何从网页的源码中得到图片的链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)