新手,用python写的爬虫,为什么出现404

新手,用python写的爬虫,为什么出现404,第1张

可能是你的header写的太简单了,我刚刚也是一直404,因为一开始我的header里只有User-Agent,再加上Accept,Accept-Encoding,Content-Type,Host,Origin,Proxy-Connection,Referer,Upgrade-Insecure-Requests就行了,这些都可以从chrome的开发者工具里直接看,或者用fiddler等工具看。

IP是上网需要唯一的身份地址,身份凭证,而代理IP就是我们上网过程中的一个中间平台,是由你的电脑先访问代理IP,之后再由代理IP比如IPIDEA可以切换全球的ip访问你点开的页面,所以在这个页面的访问记录里留下的是就是代理IP的地址,而不是你的电脑本机IP。

ip代理一般有以下几种作用:

1、突破自身IP访问限制,访问一些自己网络无法访问的网站等。

2、访问一些单位或团体内部资源,如某大学FTP(前提是该代理地址在该资源 的允许访问范围之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。

3、提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时, 则直接由缓冲区中取出信息,传给用户,以提高访问速度。

4、隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。

分两种类型。

一类是转发服务(动态转发,隧道等等不同命名方式),只需要挂上一个固定的服务器地址作为代理,商家会自动切换不同的代理来为我们转发请求,有允许手动 *** 作是否更换代理的,也有强制必须每次请求都更换的,一般根据请求数并发限制或者切换间隔时间来收取不同的费用。这个还是比较适合程序采集的,可以免去维护本地代理池。此类型代表有阿布云,迅代理,蚂蚁,微秒云等。

另外一类就是传统的直接给**和端口号(api代理,私密代理,短效代理等等不同命名方式)。通过请求一个接口直接返回**和端口号,有些则会返回二次封装过的虚拟ip。此类型代表有芝麻,站大爷,极光等。

具体 *** 作步骤如下:

1、以本地连接为例做介绍。 *** 作系统为WIN7。

打开本地连接配置界面

2、点击属性进入属性界面

3、选择IP4点击属性进行设置IP信息 。在这里设置一个常用IP地址信息,包括默认网关等

4、点击高级进行更多IP地址的设置。在这个界面,会列出所有配置的IP地址信息

5、点击IP设置内的添加按钮进行第二IP的添加;点击默认网关内的添加按钮进行默认网关的添加

6、如果还需要添加DNS,可以切换至DNS的tab页进行DNS的添加

以上就是关于新手,用python写的爬虫,为什么出现404全部的内容,包括:新手,用python写的爬虫,为什么出现404、什么是代理IP、代理网站哪个好等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9785472.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存