网页信息收集器是一款网站站长会非常喜欢的网页信息抓取工具。如果你是一名网站站长,那么这款 网页信息收集器 相信你一定不会错过的~该软件可以很方便的针对某个网站的信息内容进行收集。需要的快来久友下载站下载使用吧!
功能特色:
1、执行任务
根据已建立的任务信息保存、提取网页,也可通过“双击”某项任务启动此功能
2、新建、复制、修改、删除任务
新建、复制、修改、删除任务信息
3、默认选项
设置默认工作路径(默认为当前程序目录下的WorkDir文件夹)
设置默认提取测试数 (默认为10)
设置默认文本分隔符 (默认为 *)
4、新建、编辑任务信息
任务名称:在默认的工作文件夹下生成以此命名的文件夹。
登录地址:针对某些需要登录才能查看其网页内容的网站,填写登录页面地址。在执行任务时,软件会打开此登录页面让您登录该网站
序数格式类型网页、非序数格式类型网:
这里的序数格式、非序数格式主要是指提取地址是否仅仅是数字的变化。例如类似于:
①http://xxx.com/1.html 和 http://xxx.com/2.html 就属于序数格式
②http://xxx.com/abc.html 和 http://xxx.com/def.html 则属于非序数格式
列表地址:在类型为“非序数格式类型网”时,第一页列表的链接地址
提取地址:由实际保存的网页地址共同部分 + * 号组成。
例如要提取:
①http://xxx.com/1.html 和 http://xxx.com/2.html 则提取地址为 http://xxx.com/*.html
②http://abc.xxx.com/abc.html 和 http://test.xxx.com/def.html 则提取地址为 http://*.xxx.com/*.html
翻页地址:为列表网页上的“下一页”链接地址,将其中变化的部分用 * 号代替。
页数起始:要开始提取的页数
页数截止:要停止提取的页数
当前页数:当前已经提取到的页数
已保存网页数:已经保存的网页数
任务详细描述:该任务的详细描述信息