欢迎来到培训无忧网!

全国切换

咨询热线 400-001-5729

位置:培训无忧网 > 新闻资讯 > 电脑/IT > 网页制作 >  网页制作培训中什么是网页的采集

网页制作培训中什么是网页的采集

来源:培训无忧网 发布人:星星

2022-02-26 11:34:06|已浏览:199次

网页的采集

       网页采集作为政府网站网页在线归档的首要环节,就是利用相关工具,以既定的频率和方式,及时选择值得保存的政府网页内容。网页采集的第一步是要确定采集对象,政府网页归档保存的信息采集对象是域名中含有“gov.cn”的政府网站,为确保政府网页的采集质量,需要对目标网站进行评价,将那些信息规模大、原生性信息多、更新频繁的政府网站选定为采集对象。在确定要采集的目标政府网站之后,还应根据实际需求选择相应的采集方式。

       完整性采集和选择性采集是目前比较常用的网络资源采集方式,它们各有优缺点,为了弥补其各自的不足,可以实现两种采集方式的优势互补,采用融合二者优点的混合型采集方式,在对选定的政府网站中所有网页进行完整性采集的同时,通过人工干预的方式对网页内容进行甄别,对其中有证据价值、历史价值、研究价值的重要网页,有选择性地进行深层次的频繁采集,这样既考虑到了政府网页采集面的广度,同时又照顾到了重要网页采集的深度。
       而网页的采集与捕获最终还需要依靠相应的网络爬虫工具来实现,目前面向网页存档的爬虫工具比较多,其中Heritrix、HTTrack最为常用,可利用这些工具来有针对性地完成对目标政府网站网页的自动批量在线采集。

      注:尊重原创文章,转载请注明出处和链接 https://www.pxwy.cn/news-id-23658.html 违者必究!部分文章来源于网络由培训无忧网编辑部人员整理发布,内容真实性请自行核实或联系我们,了解更多相关资讯请关注网页制作频道查看更多,了解相关专业课程信息您可在线咨询也可免费申请试课。关注官方微信了解更多:150 3333 6050

留下你的信息,课程顾问老师会一对一帮助你规划更适合你的专业课程!
  • 姓名:

  • 手机:

  • 地区:

  • 想学什么:

  • 培训无忧网
免 费 申 请 试 听
提交申请,《培训无忧网》课程顾问老师会一对一帮助你规划更适合你的专业课程!