class="article_content clearfix">
class="htmledit_views">
第二步 准备工作
手动采集 正则匹配
正则 和 爬虫
/**
* 超简单的 Web 爬虫程序,用来采集一个网页中的所有链接地址(并且这些链接地址的网页源代码中包含字符串"searchString")!
*
*/
public class SearchCrawler implements Runnable{
..
SearchCrawler crawler = new SearchCrawler("http://www.blogjava.net/Jack2007/", 100,"jack");
}
SearchCrawler 的附件见csdn空间6/SearchCrawler.txt
public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
return true;
} else {
return false;
}