导航菜单
首 页
模板
查询
套餐
代理
资讯
案例
关于
入口
您的位置:
首 页
>
新闻中心
>
公司网站制作
> 公司网站制作爬虫“黑洞”
官网公告
服务领域
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
动态观点
资讯动态
行业动态
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
公司网站制作
公司网站制作爬虫“黑洞”
发布:2020-10-21 12:00:31 浏览:2097
爬虫“黑洞”
。爬虫在搜集藏文网页的过程中, 必须考虑可能出现的“黑洞”情况。
爬虫黑洞是指, 在抓取一张网页的链接时, 链接本身是一个无限循环, 导致爬虫抓取时跟着循环, 浪费资源。有时一些URL看起来不同, 但实际指向同一张网页, 也会使爬虫陷入重复抓取的境地。
为了避免爬虫误入黑洞, 一般采取两种策略。一是爬虫回避动态网页, 因为动态网页常常会把爬虫带入黑洞。识别动态网页时, 只需要判断URL中是否出现问题, 含问号的就是动态网页。二是使用Visited表记录已经访问过的URL, 凡是遇到新的URL存在于Visited表, 就放弃对该URL的继续处理。例如:当遇到a→b→c→d→c→e这样的环路链接, 爬虫就会掉进去, 反复抓取c、d对应的页面。使用Visited表, 就能避免这个问题。
>>> 查看
《公司网站制作爬虫“黑洞”》
更多相关资讯 <<<
本文地址:http://www.phpweb.com.cn/news/html/21003.html
上一个:
公司网站制作边框的改进
下一个:
公司网站制作招贴设计中的民俗文化
首页
手机
分类
顶部
友情链接
谷歌地图
百度地图
HTML地图
TXT地图
华友机械
恒悦房地产
网站设计
广志建设工程
PHP开发
建站代理
赶快点击我,让我来帮您!