对 http://bestcbooks.com/ 这个网站的书籍进行爬取
(爬取资源分享在结尾)
下面是通过一个URL获得其对应网页源码的方法
传入一个 url 返回其源码 (获得源码后,对源码进行解析,获得页面中其他的书籍地址和当前页面的书籍的百度网盘的链接,因为这个网站分享的书籍都是用网盘分享的)。
其实这里要讲的方法是按页面逐个去寻找书籍,还有一种比较暴力的是根据宽度优先遍历,找到所有的链接,不管是不是书籍的,然后再进行筛选。
宽度优先遍历可以看之前的一篇 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html
1 public static String getBookUrlCode(String url) throws IOException { 小程序论坛全网营销总结报告牛商网股票代码ui设计去什么公司好seo推广必须要做的9种方法手机绘图设计免费软件大连旅顺口区房价物联网管理平台系统重庆最近新闻大事件济南企业制作网站官网建设的意义成都做小程序的开发公司企业型网站建设费用寿光网络推广公司工装公司名字怎么起南京高固建设公司一般使用的分辨率的显示密度是手机大全及价格国家653建筑工程网网站创建方法政府采购网上商城入围淘宝官方网站登录页面dreamweaver免费版下载我本沉默传奇新开网站建站哪家好论坛微信网站制作设计方案网页上视频如何下载健身房网络推广渠道最好的商业网站大庆今天最新公告上市网络公司排名