Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。本文介绍了如何为 Linux 构建 spider 和 scraper,从而实现在 Web 站点上爬行并搜集信息。
阅读全文:在 Linux 上构建 Web spider
业界
Comments (0)
Permalink
机器人对HTTP 1.1支持到HTTP压缩还是有一定难度的,如果来自某个IP有大量的MSIE 访问,却是只支持HTTP 1.0请求或者支持HTTP 1.1但又不支持压缩那个就有可能是伪装spam了。
阅读全文:Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻
互联网