转载请注明出处:[http://blog.csdn.net/xiaojimanman/article/details/44854719](http://blog.csdn.net/xiaojimanman/article/details/44854719)
[http://www.llwjy.com/blogdetail/ddcad68eeb91034247ffa331eb461213.html](http://www.llwjy.com/blogdetail/ddcad68eeb91034247ffa331eb461213.html)
个人博客站已经上线了,网址 [www.llwjy.com](http://www.llwjy.com) ~欢迎各位吐槽~
-------------------------------------------------------------------------------------------------
在上两篇博客中,已经介绍了纵横中文小说的更新列表页和简介页内容的采集,这篇将介绍从简介页采集获得的下一跳章节列表页的信息采集,事例地址:http://book.zongheng.com/showchapter/362857.html
**页面分析**
通过对页面的分析,我们可以确定下图中的部分就是我们需要采集信息及下一跳的地址。
![img](https://box.kancloud.cn/2016-02-22_56ca7bf11d7d5.jpg)
这里当我们想用鼠标右键--查看网页源代码的时候发现页面已经把鼠标右键这个操作屏蔽了,因此我们只能采用另一种办法来查看源代码,对页面进行分析。在当前页面,按下**F12**,会出现一个新窗口,也就是之前博客中提到的审查元素出现的窗口,选中Network选项卡,按下 Ctrl + F5,会出现如下画面:
![img](https://box.kancloud.cn/2016-02-22_56ca7bf13bdf8.jpg)
鼠标单机红色选中部分,即可查看网页源代码,效果图如下:
![img](https://box.kancloud.cn/2016-02-22_56ca7bf15796a.jpg)
对网页源代码做简单的分析,我们很容易找到章节信息所在的部分,如下图:
![img](https://box.kancloud.cn/2016-02-22_56ca7bf1861fe.jpg)
每一个章节信息都存储在td标签内,因此对这部分信息我们确定最后的正则表达式为“ <td class="chapterBean" chapterId="\d*" chapterName="(.*?)" chapterLevel="\d*" wordNum="(.*?)" updateTime="(.*?)"><a href="(.*?)" title=".*?"> ”。
**代码实现**
对于章节列表也信息的采集我们采用和简介页相同的方法,创建一个CrawlBase子类,用它来完成相关信息的采集。对于请求伪装等操作参照更新列表页中的介绍,这里只介绍DoRegex类中的一个方法:
~~~
List<String[]> getListArray(String dealStr, String regexStr, int[] array)
~~~
第一个参数是需要查询的字符串,第二个参数是正则表达式,第三个是需要提取的信息在正则表达式中的定位,函数的整体功能是返回字符串中所有满足条件的信息。
**运行结果**
![img](https://box.kancloud.cn/2016-02-22_56ca7bf1ad3d6.jpg)
**源代码**
查看最新源代码请访问:http://www.llwjy.com/source/com.lulei.crawl.novel.zongheng.ChapterPage.html
~~~
/**
*@Description: 章节列表页
*/
package com.lulei.crawl.novel.zongheng;
import java.io.IOException;
import java.util.HashMap;
import java.util.List;
import com.lulei.crawl.CrawlBase;
import com.lulei.util.DoRegex;
public class ChapterPage extends CrawlBase {
private static final String CHAPTER = "<td class=\"chapterBean\" chapterId=\"\\d*\" chapterName=\"(.*?)\" chapterLevel=\"\\d*\" wordNum=\"(.*?)\" updateTime=\"(.*?)\"><a href=\"(.*?)\" title=\".*?\">";
private static final int []ARRAY = {1, 2, 3, 4};
private static HashMap<String, String> params;
/**
* 添加相关头信息,对请求进行伪装
*/
static {
params = new HashMap<String, String>();
params.put("Referer", "http://book.zongheng.com");
params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");
}
public ChapterPage(String url) throws IOException {
readPageByGet(url, "utf-8", params);
}
public List<String[]> getChaptersInfo() {
return DoRegex.getListArray(getPageSourceCode(), CHAPTER, ARRAY);
}
public static void main(String[] args) throws IOException {
ChapterPage chapterPage = new ChapterPage("http://book.zongheng.com/showchapter/362857.html");
for (String []ss : chapterPage.getChaptersInfo()) {
for (String s : ss) {
System.out.println(s);
}
System.out.println("---------------------------------------------------- ");
}
}
}
~~~
----------------------------------------------------------------------------------------------------
ps:最近发现其他网站可能会对博客转载,上面并没有源链接,如想查看更多关于 [基于lucene的案例开发](http://www.llwjy.com/blogtype/lucene.html) 请[点击这里](http://blog.csdn.net/xiaojimanman/article/category/2841877)。或访问网址http://blog.csdn.net/xiaojimanman/article/category/2841877 或 http://www.llwjy.com/blogtype/lucene.html
- 前言
- 写在开始之前
- lucene初始认知
- 索引数学模型
- 索引文件结构
- 创建索引
- 搜索索引
- 分词器介绍
- Query查询
- IndexSearcher中检索方法
- 更新说明
- 案例初识
- JsonUtil &amp; XmlUtil
- 基ClassUtil &amp; CharsetUtil
- ParseUtil &amp; ParseRequest
- 数据库连接池
- 实现实时索引基本原理
- 实时索引管理类IndexManager
- 实时索引的检索
- 实时索引的修改
- 查询语句创建PackQuery
- 纵横小说更新列表页抓取
- 纵横小说简介页采集
- 纵横小说章节列表采集
- 纵横小说阅读页采集
- 纵横小说数据库设计
- 纵横小说数据库操作
- 纵横小说分布式采集