综合技术交流

laical

5年用户 52经验值

擅长:可编程逻辑

私信关注

[问答]

使用爬虫代理错误问题解决方案

在如今的互联网时代，网络爬虫成了许多企业的重要岗位之一。当然在数据采集中会遇到各种问题，例如限制IP，出现访问验证码等。这种时候就需要各种反爬策略和使用HTTP代理去解决问题。在爬虫用在使用代理的时候也会遇到各种问题。

爬虫代理HTTP状态码问题解决方案：代理使用失败

让对方截图看看代理代码，代理信息是否提取配置正确。重点注意必须使用代理域名，不能是代理服务器IP。

要求对方复制demo，然后加上ua随机优化，按照所开代理的请求数，按照300毫秒为单位进行管理，运行程序后统计错误信息和http的状态码。

代理链接失败

原因：对方是否有防火墙，导致无法链接我们服务器；对方开的代理是否过期。

http状态码407

原因：代理认证信息失败，让对方严格按照demo配置代理信息

http状态码429

原因：请求超过代理限制，严格按照所开代理的请求数，按照300毫秒为单位进行管理。如果限制之后，既然大量429，需要优化爬虫策略，应该是目标网站返回的错误提示。

http状态码302

原因：访问的是https网站，会自动跳转一次，正常现象；访问的http网站，网站拒绝服务，大量302需要优化爬虫策略

http状态码403 503 或504

原因：少量不影响，大量403 503或504需要优化爬虫策略

http请求超时

原因：http请求的超时设置为10秒，尤其是对方访问国外网站的时候。

如何正确使用爬虫代理:

可以参考https://www.16yun.cn/help/ss_demo/index.html此链接复制正确的代码dmeo配置相关的代理信息即可使用

package main import ( "net/url" "net/http" "bytes" "fmt" "io/ioutil" ) // 代理服务器(产品官网 www.16yun.cn) const ProxyServer = "t.16yun.cn:31111" type ProxyAuth struct { Username string Password string } func (p ProxyAuth) ProxyClient() http.Client { var proxyURL *url.URL if p.Username != ""&& p.Password!="" { proxyURL, _ = url.Parse("http://" + p.Username + ":" + p.Password + "@" + ProxyServer) }else{ proxyURL, _ = url.Parse("http://" + ProxyServer) } return http.Client{Transport: &http.Transport{Proxy:http.ProxyURL(proxyURL)}} } func main() { targetURI := "https://httpbin.org/ip" // 初始化 proxy http client client := ProxyAuth{"username", "password"}.ProxyClient() request, _ := http.NewRequest("GET", targetURI, bytes.NewBuffer([] byte(``))) // 设置Proxy-Tunnel // rand.Seed(time.Now().UnixNano()) // tunnel := rand.Intn(10000) // request.Header.Set("Proxy-Tunnel", strconv.Itoa(tunnel) ) response, err := client.Do(request) if err != nil { panic("failed to connect: " + err.Error()) } else { bodyByte, err := ioutil.ReadAll(response.Body) if err != nil { fmt.Println("读取 Body 时出错", err) return } response.Body.Close() body := string(bodyByte) fmt.Println("Response Status:", response.Status) fmt.Println("Response Header:", response.Header) fmt.Println("Response Body:n", body) } }

互联网上的网站都会有反爬机制，网络爬虫用户需要做好相关的反爬策略和使用高效稳定的爬虫代理才能更加有效率的采集相关数据。

更多回帖

laical

使用爬虫代理错误问题解决方案

相关问答

问题解决了，谢谢

什么是爬虫？

分享一篇15547威廉希尔官方网站问题解决方法的记录

如何运行imdb爬虫？

关于峰值声音的计数方法

LED驱动IC解决方案，晶丰明源一级代理商，深圳长江泰电子

Blupill开发板STM32cube IDE & STM32实用程序无法工作怎么处理？

寻国产MVB 和 WTB 控制芯片及解决方案

程序框图出现红色边框，怎么办？

业界最佳单芯片隔离驱动器解决方案到底有多厉害？

20万+工程师都在用，免费PCB检查工具

laical

使用爬虫代理错误问题解决方案

相关问答

问题解决了，谢谢

什么是爬虫？

分享一篇15547威廉希尔官方网站 问题解决方法的记录

如何运行imdb爬虫？

关于峰值声音的计数方法

LED驱动IC解决方案，晶丰明源一级代理商，深圳长江泰电子

Blupill开发板STM32cube IDE & STM32实用程序无法工作怎么处理？

寻国产MVB 和 WTB 控制芯片及解决方案

程序框图出现红色边框，怎么办？

业界最佳单芯片隔离驱动器解决方案到底有多厉害？

20万+工程师都在用，免费PCB检查工具

分享一篇15547威廉希尔官方网站问题解决方法的记录