第一范文网 - 专业文章范例文档资料分享平台

4-侠客站群发布点、任务管理详细介绍

来源:用户分享 时间:2025/6/3 2:08:58 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

侠客站群软件-http://www.xiake.net 柳州侠客科技有限公司

任务信息显示区域包括三个部分:任务信息、发布点默认使用的库和运行信息 任务信息:

任务名称:任务的名称,方便自己区分,可自定义,默认为未命名任务

任务运行模式:有挂机任务(无限循环执行任务批次)和手动任务(只运行一个批次就自动停止),默认为挂机任务。挂机任务会自动循环执行,执行完之后会进入休眠状态等待下一次启动,手动任务只运行一个批次就自动停止

每批数量:任务每个批次发布的内容数量,默认为30篇,可以自定义

运行批次间隔:运行完这个批次之后任务休眠的时间间隔,系统会自动随机+-30% 任务间隔模式:总共有三个模式:准点发布、平均间隔发布和随机间隔发布。

准点发布:比如设置每批30篇,运行批次间隔为3600分钟,就会立刻连续发布30篇,进入休眠状态,隔24小时之后,再连续发布30篇,一直循环

平均间隔发布:比如设置每批次30篇,运行批次间隔为3600分钟,就会在24小时内间隔固定的时间发布,在24小时内发布30篇。

随机间隔发布:比如设置每批次30篇,运行批次间隔为3600分钟,就会在24小时内随机发布30篇文章,(在平均间隔的基础上上下浮动一定时间)

处理方式:可以选择发布时处理或者抓取时处理,软件默认为发布时进行内容处理,在同步追踪模式下该设置无效,(同步追踪会自动同步采集,处理,同步发布,内容不需要入库) 发布点默认使用的库

这里显示该任务对应的发布点默认使用的库,如果没有其他需求,可以使用发布点默认使用的库,当然,也可以为每个任务都新建一个对应的库,或者选择一个对应的库(温馨提示:只要公用一个哈希库,内容就不会重复,在一个站点下,可以公用5个库,设置一个任务只抓取内容,不执行发布,另外的任务只执行发布,不抓取) 默认库:点击后使用站点默认使用的库

选择库:点击后到对应的库管理中选择一个现有的库 新建库:点击后自动建立一个新的库

运行信息:显示该任务的相关运行相信信息

侠客站群软件-http://www.xiake.net 柳州侠客科技有限公司 抓取参数1

抓取参数1下面分为三个部分:抓取信息、抓取模块信息设置和抓取参数。 选择不同类型的抓取模块下面显示的抓取模块信息不同

基本参数:可以选择执行抓取过程或者跳过抓取过程,软件默认为执行抓取过程,如果选择跳过抓取过程任务就会不进行抓取任务。

查看文章库:点击进入查看该任务使用的文章库中内容 查看关键词库:点击查看该任务所使用的关键词库中内容,关键词抓取模式必须添加关键词才可以抓取

使用语料库:可选择不使用语料库或者使用语料库,软件默认为不使用语料库,选择使用语料库之后,需要选择一个语料库存放的位置

抓取模块:显示该任务使用的抓取模块,可以重新选择使用的抓取模块 选择模块:重新选择一个抓取模块

查看模块说明“如果您不知道该模块是做什么用的,有哪些注意事项,可以点击查看模块说明进入论坛对应介绍页面

抓取数量:有如果剩余数据不足指定批次抓取,和 无条件执行选项,不同模式决定着任务抓取任务触发的方式不同,软件默认为如果剩余数据不足指定批次抓取。 批次数:当任务文章库的文章数量不够发布的时候就会触发抓取,这里控制每次抓取的批次数,默认为3个批次,如果任务数量为30,启动后就会抓取30*3=90条数据

无条件执行:不受任务发布数量和抓取批次的影响,抓取所有符合条件的数据(可以用来单独做数据采集,提供给其他任务来发布) 如果剩余数据不足指定批次抓取:与任务设置的每批次发布数量有关,如果文章库中数据不足任务每批次发布所需要的数量,就会触发抓取过程,抓取指定的批次数(在发布参数中的“批次数”进行设置)。

比如:发布参数中设置的每批次发布数量为30,抓取参数中选择剩余数据不足就指定批次抓取,批次数为3,则每执行一次抓取过程,就会抓取30*3=90条数据。 更多可以参照:http://bbs.xiake.net/thread-12563-1-2.html

精度设置:控制抓取的精度,可以过滤不需要抓取的内容

侠客站群软件-http://www.xiake.net 柳州侠客科技有限公司 种子词:配合精度设置使用,可以点击编辑种子词,设定必须出现的词,一行一个 更多介绍:HTTP://bbs.xiake.net/thread-13468-1-2.html

关键词智能抓取参数:

抓取间隔:控制抓取间隔,避免某些网站屏蔽,单位为毫秒。默认间隔为0

引申数量:这个参数决定每个关键词最多抓取多少篇文章,默认为999.如果设置为5 就说明每个关键词只抓取5篇内容就不再通过该关键词抓取内容。

自定义抓取参数:

抓取间隔: 控制抓取间隔,避免某些网站屏蔽,单位为毫秒。默认间隔为0

要抓取的最大链接个数:控制自定义抓取模式下最大抓取的文章数量,默认为1000,最大抓取1000篇

最多页数:控制自定义抓取模式最大抓取的分页数量,默认为100,抓取100页内容 蜘蛛爬行抓取参数:

每篇文章的抓取间隔: 控制抓取每篇文章的间隔,避免某些网站屏蔽,单位为毫秒。默认间隔为0

每批次最大抓取量:表示每次抓取多少内容,抓到之后就会自动停止,默认为最大值,可自行修改

清理临时文件:如果想让系统重新爬行,需要清理临时文件,清理时需要将哈希库一起清空,因为软件的哈希库会自动记录抓取过的地址,避免重复抓取。 同步追踪模块参数

侠客站群软件-http://www.xiake.net 柳州侠客科技有限公司

每篇文章的抓取间隔: 控制抓取每篇文章的间隔,避免某些网站屏蔽,单位为毫秒。默认间隔为0

同步追踪间隔:控制同步目标网站的间隔时间,以秒为单位,默认为600秒,每10分钟同步一次目标网站数据,可以根据自己需要灵活设置同步目标网站数据间隔

语料库提取设置:

提取方式:可以选择根据关键词提取和随机提取,软件默认为根据关键词提取。根据关键词提取模式需要在对应的关键词库中添加关键词,语料库建议不要使用长尾关键词。随机提取会随机从语料库中提取所需要内容。

每次提取语句数量:控制软件调用语料库中的多少内容进行生成,数量越大,内容月丰富,重复率月底,数量较小提取速度就较快,但是重复率可能较高。软件默认为1 ,建议设置为最大值

引申数量:控制每个关键词最多提取的文章数量,在根据关键词提取模式下有效,随机提取选项下无效。

随机模式下最大获取数量:控制随机提取模式下提取的文章数量,默认为1 ,可以自行修改,该设置在根据关键词提取模式下无效。

抓取参数:

文章标题字数必须大于:控制标题的最小长度,默认为1 文章正文字数必须大于:控制抓取内容的正文长度,默认为5

哈希值判断模式:有三种判断模式:标题,正文和URL地址,软件默认为根据正文内容判断重复,如果不想出现重复标题,可以选择根据标题判断,如果只需要抓取的地址不同,可以选择根据URL地址判断

抓取参数2:

4-侠客站群发布点、任务管理详细介绍.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c336za44i168wrp7237sw_3.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top