爬虫一直在扫ftp服务器端口_服务器

几种问题
1速度限制
速度限制是对抗爬虫的一种常见的方法，它的工作方式很简单：网站强制用户可以从单个IP地址执行有限数量的 *** 作。限制可能因网站而异，并基于在特定时间段内执行的 *** 作数量或用户使用的数据量。
2验证码提示
验证码是另一种更复杂的限制网络抓取的方法。用户可以通过在短时间内发出过多请求、未正确覆盖网络抓取工具的指纹，或使用低质量的代理方式触发验证码。
3网站结构变化
网站并不是一成不变的，尤其是当用户爬取大型网站时，站点经常更改 HTML 标记，以此破坏用户的网络抓取脚本。例如网站可以删除或重命名某些类或元素 ID，这将导致用户的解析器停止工作。
4网站使用JavaScript运行
如今许多网站的功能都需要通过用户点击某些区域使得JavaScript代码运行才能正常使用，对于爬虫程序而言常规的提取工具不具备处理动态页面的功能，所以在爬取这类网站时会遇到较大的阻碍。
5加载速度慢
当网站在短时间内收到大量请求时，其加载速度可能会变慢并变得不稳定。而在网站不稳定时爬虫程序会更快的进行刷新，但这只是雪上加霜，网站会中断抓取器，以确保站点不会崩溃。
6IP受限制
可能导致用户爬虫IP受限的因素有很多，例如用户使用的数据中心代理IP被网站识别、用户爬虫爬取速度过快被封禁等等。在遭遇这种问题时，用户可以选择使用动态爬虫代理，使得自己每次访问都使用不同的IP地址，以此来确保IP不被限制，爬虫高效爬取。

仅仅是想开启远程python爬虫的话，可以用ssh或者putty（windows下）远程连接到服务器，通过python命令直接运行；
调试，修改代码的话建议用vim；
putty长时间 *** 作（数分钟）会失去服务器连接，导致python程序中断，建议用screen命令来避免这个问题；
pycharm不熟悉，没有什么建议；

爬虫服务器有记录。
1、通过在程序中加入访问日志功能，并记录来访者的浏览器信息，从中分析请求信息。
2、通过开启服务器的访问日志功能，查看访问日志，google的爬虫都有特殊的主机信息。

总的来讲，网站的反爬虫的策略有：检测爬取频率、并发连接数目、>

其中最常见的就是判断你的请求频率和并发数量，如果你在短时间内发送了大量的请求，也就是你的爬取速度很快的话，那么他就直接判断你是爬虫，这时候先把你IP封了再说，免得给自己的网站带来负担。

那么这些策略我们都如何应对呢？这几个方法都不同，

1、爬虫伪装浏览器点击

我们先理解一下网站的代码执行，首先我们向服务器发送请求，这时服务器的后台php、java都会执行，然后网站代码被发送到本地，在本地时js、ajax会在浏览器内核中执行。所以这时候我们就知道，爬虫不仅要欺骗phpjava代码、还要欺骗js和ajax代码。

2、使用代理

爬的太快会被封，是一定的。爬的太慢又非常耗时间。所以很多人都会说可以使用代理，所谓代理就是介于用户与网站之间的第三者：用户先将请求发到代理，然后代理再发到服务器，这样看起来就像是代理在访问那个网站了，实现一个不断的切换IP的假象。网上免费代理很多，但是能用的没几个，如果不想购买付费的代理，大家可以学习一下

3、降低访问频率

如果一直找不到好用的免费代理，又不想付费，最好的办法就是降低访问频率了。这样做可以达到与用代理一样的效果——防止被对方从访问量上看出来。比如：每抓取一个页面就休息随机几秒、限制每天抓取的页面数量。当然，在抓取效率上会差很多，因为数据量大的话，时间就会很长。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10641778.html

爬虫一直在扫ftp服务器端口

发表评论

评论列表（0条）