简数采集文章入门教程(超详细)

个人博客 1378 0

简数采集文章入门教程(超详细) 第1张

详细使用步骤目录:

  1. 登录简数控制台

  2. 创建采集任务

  3. 完善列表页的智能抽取结果

  4. 完善详情页的智能抽取结果

  5. 图片下载设置(可选)

  6. 启动采集任务

  7. 数据SEO处理(可选)

  8. 发布目标设置

  9. 手动发布数据

  10. 自动化采集与发布

第一步:登录简数控制台

打开简数数据采集平台-http://www.keydatas.com 页面,点击右上角控制台,注册账号并登录进入控制台。

第二步:创建采集任务

用户需先寻找要采集的网页,一般是 “列表页 + 详情页” 模式,教程以IT168网络安全频道-safe.it168.com/chanel-2-att-10-page-1.shtml为例,用户可以跟着教程操作一遍。

点击【创建采集任务】按钮,使用智能向导模式创建任务,自命名任务名称与填写采集的列表页网址,再点击下一步即可。

简数采集文章入门教程(超详细) 第2张

简数采集文章入门教程(超详细) 第3张

提示:智能向导创建任务最常用,还有其他创建任务的方式:高级创建任务、微信公众号文章采集、今日头条采集和淘宝客采集;

第三步:完善列表页的智能抽取结果

I、查看列表页智能抽取结果

使用智能向导创建任务,系统会先用智能算法获取详情页链接(多个),用户可以双击预览链接处的打开检查,如果不是想要的数据,可以点击【列表提取器】按钮进行手动修改。(建议每次创建任务都打开列表提取器进行确认)

智能获取结果如下图:

简数采集文章入门教程(超详细) 第4张

提示:上面结果中,系统智能发现了翻页规则,用户可以设置要采的页数。(建议在创建任务完成后再修改,详细教程可看 批量网址抓取配置 )

例子IT168列表页很明显获取不正确,点击【列表提取器】按钮进入设置界面。

列表提取器打开后如下图:发现智能获取的是页面底部的网站介绍信息(简数可视化采集,绿色框框住的内容代表已选择采集)

简数采集文章入门教程(超详细) 第5张

II、修改列表页抽取规则

  修改列表页规则主要有3个步骤:

  1. 点击“重置当前字段”按钮,重新开始配置;

  2. 用鼠标点击要采集的链接(一般是标题),只需点击前两个不同链接,系统便会自动选中其它相似的链接;

  3. 检查页面左下角“数据预览” 下方是否列出了文章链接地址(相对链接网址也是支持的,系统在采集时会自动补充完整的),如果有则配置正确,如果没有,需要再重复上面第1和第2步。(注意选择的Xpath路径是以a或者a/kds结尾才是正确的)

简数采集文章入门教程(超详细) 第6张

点击“重置当前字段”按钮,选择的第一篇文章的标题;

简数采集文章入门教程(超详细) 第7张

然后再选择的第二篇文章的标题,系统便会自动选中其它相似的链接,查看左侧数据预览,有相应的文章地址即可(相对链接网址也是支持的,系统在采集时会自动补充完整的);

简数采集文章入门教程(超详细) 第8张

修改完成后保存关闭,在智能向导界面点击刷新,再点击下一步;

简数采集文章入门教程(超详细) 第9张

第四步:完善详情页的智能抽取结果

I、查看详情页智能抽取结果

系统会智能抽取详情页以下数据:(智能抽取的模板是列表提取器获取的第一个链接详情页)

title(标题),content(内容),author(作者),pubDate(发布日期),tag(标签),description(描述),keywords(关键字),category(分类)。

智能获取结果如下图:如果智能抽取的内容非想要的或者为空,可以打开【详情提取器】进行修改。

简数采集文章入门教程(超详细) 第10张

II、详情提取器界面

左侧上方一列title、content、author等参数称之为字段,字段可添加、删除或重命名;

在右侧页面显示窗口,用鼠标点击来设置采集页面指定位置的内容,绿色框表示该字段已选择的采集区域。

简数采集文章入门教程(超详细) 第11张

III、修改详情页采集规则

该例子智能获取大部分正确,现在假设content字段获取不正确,来演示如何修改,主要分三步:

  1. 重置当前字段配置;

  2. 选择要采集的指定位置内容;

  3. 检查规则通用性;

1、点击选择要修改的content字段 ==》 再点击【重置当前字段配置】按钮;

简数采集文章入门教程(超详细) 第12张

2、重置后,先勾选【获取HTML】(保留排版和图片) ==》 选择要采集的正文部分(鼠标左键点击),如果发现难以精确选择到指定区域,此时可先选择正文里的一小段内容,再点击扩大点选区域;

简数采集文章入门教程(超详细) 第13张 简数采集文章入门教程(超详细) 第14张

3、点击【典型详情页网址】栏,在下拉列表中选其它文章链接 ==》 查看预览并测试采集,确认是否通用;

简数采集文章入门教程(超详细) 第15张 简数采集文章入门教程(超详细) 第16张 简数采集文章入门教程(超详细) 第17张

IV、字段数据处理配置(可选)

每个字段都可进行数据处理(点击字段右侧绿色按钮或者下方设置按钮):删除、填充、替换、提取、过滤,设置随机或固定值等等。

以content字段为例,一般正文里的原有链接都不保存的,可以进入对应的字段数据处理选择【删除所有链接(保留文本)】,保存即可;

简数采集文章入门教程(超详细) 第18张

其他数据处理功能详情见字段数据处理配置

V、完成采集规则配置

完成详情提取器规则修改后,点击右上角【保存并关闭】按钮,在智能向导界面点击刷新,然后下一步,再点击finish,一般不直接点击启动采集,因为还有其他功能需要设置。

简数采集文章入门教程(超详细) 第19张

简数采集文章入门教程(超详细) 第20张

提示:完成任务创建后,如果还想要设置多页列表页采集,可以看详细教程 批量网址抓取配置

第五步:图片下载配置(可选)

如果需要将图片下载到用户服务器或者商业云存储(例:阿里云,七牛云等),需先设置图片下载,再启动采集。(不需要下载图片可跳过这一步)

以下载图片到用户服务器为例:

图片下载配置-存储方式选择

点击【图片下载配置】==》点选【存储到简数】==》选择对应CMS系统的官方配置选项,例 “暂存简数-WordPress(官方)”==》 保存;

提示:建议使用简数官方的图片下载配置即可,如果CMS系统默认存储图片的目录有改动,才需要创建新的暂存简数图片配置。

简数采集文章入门教程(超详细) 第21张

其它图片存储方式配置请见:图片文件下载及云存储;

第六步:启动采集任务

在任务中,点击右上角的【启动 | 定时采集】按钮,进入启动采集界面,一般使用默认配置即可,点击【启动 | 定时】按钮,开始采集。

简数采集文章入门教程(超详细) 第22张

采集完成: 简数采集文章入门教程(超详细) 第23张

第七步:数据SEO处理(可选)

不使用SEO规则的可以跳过这一步。

在任务中,进入【结果数据&发布】栏目 ==》点击【SEO&简繁体&翻译工具】按钮 ==》选择SEO规则 “正文插入动态段落(官方)” ==》执行SEO(按发布状态)==》查看是否执行成功,有灰底的段落就是插入的动态段落,内容来源于同一任务的其他数据;

简数采集文章入门教程(超详细) 第24张 简数采集文章入门教程(超详细) 第25张 简数采集文章入门教程(超详细) 第26张 简数采集文章入门教程(超详细) 第27张

第八步:发布目标设置

发布采集的文章到用户网站,需要2个步骤:

  1. 在用户网站系统后台安装简数发布插件;

  2. 创建发布目标(一般一个发布目标对应一个栏目);

I、安装简数发布插件(以发布到wordpress为例)

在WordPress网站后台左侧菜单打开:“插件” --》 “安装插件” --》 输入关键词 keydatas或简数 搜索插件--》 安装后,点击“启用”,左侧菜单便会出现“简数采集平台” --》 点击“简数采集平台” 即可修改发布密码等。

提示:其他CMS系统简数发布插件的安装请看数据发布的详细教程

简数采集文章入门教程(超详细) 第28张

简数采集文章入门教程(超详细) 第29张

简数采集文章入门教程(超详细) 第30张

II、创建发布目标

在任务里点击【发布目标管理】栏目,按照CMS系统创建对应类型的发布目标,点击【+发布目标-WordPress】

简数采集文章入门教程(超详细) 第31张

III、填写网站基本信息

名称可自命名,网站首页链接请填写网站首页URL(http或https协议也需填上),发布插件密码是在用户CMS系统后台的简数插件处获取;

简数采集文章入门教程(超详细) 第32张

简数采集文章入门教程(超详细) 第33张

VI、设置发布对应字段

对wordpress网站的属性(下图:目标网站字段名列)进行映射匹配,每个属性可以设置为详情提取器中定义字段获取的内容(下图:值来源1列)或者 固定值(下图:值来源2列),两列只能一个有填选内容存在(值来源1列的内容优先生效)。

例如下图中标题属性在值来源1列选择title,内容属性在值来源1列选择content,分类目录属性值来源1不选择对应字段,在值来源2列填写分类名称,例如新闻;(分类栏目设置详细教程)

简数采集文章入门教程(超详细) 第34张

设置完成后,保存关闭(第三步除非特殊需求,一般不用设置)。

提示:其他CMS系统的字段设置可以查看 数据发布教程 或者 发布常见问题 ;

第九步:手动发布数据

在任务中,进入【结果数据&发布】栏目 ==》点击【发布数据】按钮 ==》选择发布目标 ==》点击【发布】按钮 ==》查看发布结果(按状态发布过程中,可以关闭页面或电脑的,是云端发布的);

简数采集文章入门教程(超详细) 第35张 简数采集文章入门教程(超详细) 第36张 简数采集文章入门教程(超详细) 第37张

至此,手动创建任务,发布数据的流程就已结束,下面是自动化采集发布。

第十步:自动化采集与发布

自动化采集与发布主要作用:

  1. 用户只需设置一次,系统就会自动定时采集,自动数据SEO处理和自动发布,省时省力高效;

  2. 实现定时定量更新网站内容,可有效提高网站的收录;

I、自动发布与SEO设置

在任务中,进入【自动化:发布&SEO&翻译】栏目 ==》勾选上【自动发布】 ==》选择发布目标 ==》勾选上【采集后,自动执行SEO】==》选择SEO规则 “正文插入动态段落(官方)” ==》最后点击保存按钮;

简数采集文章入门教程(超详细) 第38张

II、定时采集启动

进入任务,点击右上角的【启动 | 定时采集】按钮 ==》勾上 “启用定时采集” ==》选择定时方式(以每天为例) ==》设置开始日期和时间(以30分钟后为例,点击30分钟按钮)==》设置截止时间(以2年后为例,点击设为2年后按钮)==》 点击【启动 | 定时】按钮==》查看定时采集是否成功运行;

简数采集文章入门教程(超详细) 第39张

简数采集文章入门教程(超详细) 第40张

红色时钟小图标的右侧为下次运行的定时时间

简数采集文章入门教程(超详细) 第41张

提示:建议开始时间为未来时间,不要设置已过去的时间;

至此,自动化采集与发布的设置就完成了,更多简数文章采集软件的资料请看其它章节内容。

标签: 简数采集 建站知识

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~