XPath2Doc是一款专业的网站数据采集工具。网站数据怎么采集?有一种最简单的方式,那就是通过 XPath2Doc 来采集!这是一个半自动收集网页生成Word docx文件的工具,具有企业搜索,天眼搜索配置,使用XPath2Doc手动登录WebBrowser窗口,找到所需的数据页面,然后单击程序按钮收集,因此它是半自动的网页数据填充了Docx工具。
配置说明:
1,该程序需要三个配置文件:General.ini,custom .ini,custom template.docx。最后两个文件名由它们自己定义。
General.ini文件定义存储INI文件和Docx模板文件的目录。你可以留空。默认值是程序所在的目录。
自定义.ini,自定义template.docx是软件用户用来创建XPath语句和最后生成的文件的Docx模板。有关详细信息,请参阅ini文件中的说明。请注意,Docx模板文件中的“@ <#0001#> @”等字符是INI文件中定义的标记字符串,用于替换网页集的内容。替换关键字的后缀和模板文件名在ini文件中定义。
2.在使用此程序之前,请创建您自己的INI配置文件和Docx模板文件。 (详情请参阅附件公司文件,二维配置文件和起诉模板)
需要注意的是,模板文件支持要收集的文档不同部分的不同URL,注意Url的设置。
工作准则:
网页的每个元素都可以表示为XPath语句,因此我们可以阅读浏览器打开的网站页面的源代码,并通过XPath语句获取网页元素中的文本。
如何获取XPath语句:
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12打开开发者工具界面。在“ELements”选项卡下,当鼠标移动时,您可以看到Web内容被阴影覆盖。单击三角形符号以进一步。找到确切的位置,直到找到所需的最终数据位置。右键单击找到的文本,在弹出菜单中选择Copy-Copy XPath,然后将其粘贴到记事本中以获取所需的XPath语句。
需要在此解释:如果复制的XPath语句中的/ Tbody将影响集合,则问题由程序在内部处理,但在某些特殊情况下可能会影响数据收集,并且可以手动删除。
软件说明:
启动程序 - 选择模板 - 单击“捕获数据”按钮旁边的黑色三角形,单击下拉菜单,然后单击要捕获的部分。等待浏览器加载网页,手动输入需要查询的内容,单击查询,找到数据的特定页面,然后单击“收集数据”按钮以查看列表中是否有所需数据在右边。继续打开下拉菜单,然后选择要收集的下一个部分。如果URL更改,请等待浏览器加载并找到所需的数据页。单击“收集数据”按钮以查看是否在右侧列表中获取了数据的第二部分。重复此过程,直到完全收集数据。
如果两个部分的URL相同,则需要在单击下一部分中的下拉菜单之前在浏览器中重新查询新数据。新数据页出来后,单击下拉菜单以选择要收集的下一个部分。 (如果URL相同,单击下一部分将直接从网页获取数据。如果浏览器未更改页面,则数据错误。)如果需要重新获取部件,请单击下拉菜单中该部分的名称,然后单击捕获按钮以重复收集(您可以在此时更改浏览器的数据页面,并获取不同公司的数据)。
如果列表中收集的数据存在任何偏差,您可以单击以自行修改。如果XPath语句中有任何错误,您可以自己修改测试结果(XPath语句将在修改后立即重新抓取浏览器数据,因此浏览器最好是一个有效的数据页),修改后的XPath语句程序,不会保存到INI文件,请自行保存。
如果列表中的数据正确且预览窗口中Docx模板的内容正确,则可以单击“创建文档”按钮以填写要生成的文件的名称。该软件将使用捕获的网页数据替换模板中的索引字符串并自动生成。 Docx文档。
应该注意的是,右下角的Docx预览窗口不能完全支持Word文档。对于非标准文档,文本可能丢失或放错地方。在这种情况下,您可以忽略它或将模板文件更改为规范文本格式(s单行间距)。