[返回目录](index.html)#### [使用](sy_index.html) —— [内容](neirong.html) —— [采集管理](#)
##### 一、简介
文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。
编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。
##### 二、功能演示
> 一、采集流程 简单的讲有三个步骤: 1、添加采集点,填写采集规则。 2、采集网址,采集内容 3、发布内容到指定栏目
> 以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
> 实例说明: 目标:采集新浪新闻到V9系统 “国内” 栏目中。 目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 1、添加采集点 2. 网址规则配置
>
> **1. 添加采集点,填写采集规则**
>
> ![](https://img.kancloud.cn/61/e3/61e3353401fa2de49ca08997c2b0889a_797x729.png)
>
> **A.内容规则**
>
> ![](https://img.kancloud.cn/03/0a/030aa92a43113d4365d91f3a287b92a1_784x723.png)
>
> *注:上图的“目标网页源码”是指:目标网页的源代码。具体步骤如下:
> 目标网页——>右键——>查看源代码——>找到你要采集的源代码开始和结束,按“上图”填写规则。*
>
> 添加成功后,测试你的网址采集规则是否正确,如下图所示:
>
> ![](https://img.kancloud.cn/a5/90/a590a88e9e4b1e8db232f8ee24790149_855x562.png)
>
> **B.内容规则配置**
>
> 为了便于说明,我们只采集标题、内容两个字段。
> 采集内容网址:http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
>
> **标题采集配置:** 从网页<title></title>里取标题,并去除不需要的字符。如下图
>
> ![](https://img.kancloud.cn/cb/35/cb3501249f93756dd4f094fa81a4f9e7_1068x173.png)
>
> **内容采集配置:** 新浪新闻最终页,新闻内容都包含在 \<!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图
>
> ![](https://img.kancloud.cn/38/ec/38ec2fc3dc6388fbe3cf6ce8d4e7ed2b_1239x152.png)
>
> **C.自定义规则**
>
> 除系统自带的规则外,可根据自己需求进行自定义规则采集。操作和系统规则相同,如下图:
>
> ![](https://img.kancloud.cn/0c/1e/0c1e7b403d2a8a340f22d1a805b42249_1260x304.png)
>
> **D.高级配置**
>
> 可设置是否把图片下载到服务器上,是否打水印等配置。如下图所示:
>
> ![](https://img.kancloud.cn/40/8e/408e8ac0890d6ecd15ecdac33adec2dd_396x232.png)
>
> **2. 采集管理**
>
> 添加采集点测试成功后,你可以管理你添加的采集点(采集网址,采集内容,内容发布,测试,修改,复制,导出).如下图所示:
>
> ![](https://img.kancloud.cn/dd/f5/ddf5d70ca9c9a428a9aaed190c9f4b6a_802x185.png)
>
> **A.采集网址**
>
> 采集采集点的网址。
>
> **B.采集内容**
>
> 采集采集点的内容。
>
> **C.内容发布**
>
> 将采集的内容发布到指定栏目中。如下图所示:
>
> ![](https://img.kancloud.cn/b1/ac/b1ac522774407c1b6ec807a045607bea_792x546.png)
>
> 点击“导入”,跳转到选择栏目页面。如下图所示:
>
> ![](https://img.kancloud.cn/5e/73/5e737c355f4a8a635d0ab920a4cd1da5_722x229.png)
>
> 点击“提交后”,跳转到栏目配置设置页面。如下图所示:
>
> ![](https://img.kancloud.cn/ea/b3/eab306c7ce7bc70d621992638fe10601_798x169.png)
> ![](https://img.kancloud.cn/7a/6d/7a6d7469544d9be7644a3d803733754d_799x265.png)
>
> 提交成功将采集内容导入到指定栏目(如下图所示)。在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。在指定的栏目下已经存在你采集的内容信息。
>
> ![](https://img.kancloud.cn/62/34/62347f24cd0a46a69701df816d0a2c7e_861x202.png)
[返回目录](index.html)
上海盛大网络发展有限公司 c 2006 - 2011 B2-20040053.
问题和建议请反馈至:<http://bbs.phpcms.cn>
- 首页
- 简介
- PHPCMS v9 安装环境要求
- 安装
- Linux 环境搭建推荐教程
- Windows 环境搭建推荐教程
- CentOS5下Nginx 环境推荐教程
- PC_webserver 安装说明
- PHPCMS V9 安装说明
- 使用
- 后台主界面
- 我的面板
- 修改个人信息
- 修改密码
- 生成首页
- 设置
- 相关设置
- 站点管理
- 发布点管理
- 基本设置
- 安全配置
- PHPSSO配置
- 邮箱配置
- connect
- 管理员设置
- 管理员管理
- 角色管理
- 模块
- 模块管理
- 模块管理
- 在线充值
- 短信平台
- 物流管理
- 外部数据导入
- 点评
- 表单向导
- 手机门户
- 广告
- 新闻心情
- 短消息
- 投票
- 友情链接
- 评论
- 公告
- 全站搜索
- 数据源
- 企业黄页
- 模块配置
- 分类管理
- 黄页模型管理
- 企业模板管理
- 信息管理
- 企业库管理
- 批量更新URL
- 内容
- 内容发布管理
- 管理内容
- 附件管理
- 专题
- 碎片管理
- 采集管理
- 评论管理
- 发布管理
- 批量更新栏目页
- 生成首页
- 批量更新URL
- 批量更新内容页
- 同步到发布点
- 内容相关设置
- 管理栏目
- 模型管理
- 类别管理
- 推荐位管理
- 用户
- 会员管理
- 会员管理
- 审核会员
- 会员模块配置
- 会员组管理
- 管理会员组
- 会员模型管理
- 管理会员模型
- 界面
- 模板风格
- 标签向导
- 扩展
- 附加字段管理
- 在线升级
- 信息模型设置
- 前台菜单管理
- 来源管理
- 木马查杀
- 更新全站缓存
- 后台操作日志
- 下载镜像管理
- IP禁止
- URL规则管理
- 数据库工具
- 菜单管理
- 敏感词管理
- Baibu/Google地图
- 关联链接
- 联动菜单
- 工作流
- phpsso
- 会员管理
- 应用管理
- 通信信息
- 积分兑换
- 管理员管理
- 系统设置
- 更新缓存
- 修改密码
- 应用
- 升级与转换
- 程序升级
- 离线升级
- 在线升级
- 程序转换
- phpcms2008 to v9
- phpcms2007 to v9
- DEDECMS 5.6 to v9
- 帝国cms 6.5 to v9
- PHP168 Sharp to v9
- 万能数据导入
- 整合文档
- 整合Discuz 7.0 - X1.5
- 整合Discuz X2
- 整合PHPWIND 8.7
- 标签使用
- PC标签使用说明
- PC标签保留参数
- 系统常量
- 功能模块
- 内容模块
- 评论模块
- 投票模块
- 公告模块
- 专题模块
- 会员模块
- 友情链接模块
- 黄页模块
- 工具箱
- json工具箱
- xml工具箱
- get标签
- 碎片工具箱
- 高级应用与部署
- Apache下Rewrite设置
- Sphinx全文索引教程
- Mysql开启全文索引
- Mysql优化
- 修改后台路径
- 数据库分离部署
- 万能字段应用
- 推荐位高级应用
- 主程序与web目录分离
- 第三方手册
- JQuery 手册
- artDialog 手册
- formValidator手册
- calendar手册
- CKEditor
- 二次开发
- 目录结构分析
- 数据库结构
- 二次开发流程
- 入口程序
- 系统类库与函数库调用
- 配置文件调用
- 函数扩展
- 控制器扩展技巧
- 常见问题
- 采集过滤规则无效
- 网站更换域名怎么办?
- 后台登陆提示验证码错误
- 应用间同步登陆问题
- 提示通信失败,用户登录失败
- 如何将静态文件生成到根目录
- 为什么添加的内容没有生成静态?