新功能：阿里云反爬虫管理利器！_服务器

背景

爬虫形势

Web安全形势一直不容乐观, 根据 Globaldots的2018年机器人报告 , 爬虫占据Web流量的42%左右

为什么要反爬

防资源过度消耗

大量的机器人访问网站, 设想你的网站有42%的流量都不是真的人访问的相当一部分还会大量占用后台的网络带宽, 服务器计算, 存储资源

防黄牛党

航空公司占座: 黄牛党利用恶意爬虫遍历航空公司的低价票，同时批量发起机器请求进行占座，导致航班座位资源被持续占用产生浪费，最终引发航班空座率高对航空公司造成业务损失，并且损害正常用户的利益。

防薅羊毛党

黄牛党在电商活动时针对有限的高价值商品的限时秒杀、优惠活动等可牟利场景，批量发起机器请求来模拟正常的交易，再将商品、资源进行倒卖从中赚取差价，导致电商企业的营销资源无法触达正常用户，而被黄牛牟取暴利。

防黑客

核心接口被刷: 登录、注册、短信等业务环节作为业务中的关键节点，相关接口往往会被黑客利用，为后续的欺诈行为作准备。

私信菜鸟007即可获取数十套PDF！

为什么需要日志分析

找出隐藏更深的机器人

爬虫与反爬虫是一个攻与防的过程, 根据前述报告, 高级机器人占据了74%的比例(剩余是比较简单的机器人), 而根据 FileEye M-Trends 2018报告，企业组织的攻击从发生到被发现，一般经过了多达101天，其中亚太地区问题更为严重，一般网络攻击被发现是在近498（超过16个月）之后。有了日志才能更好的找出隐藏很深的坏机器人

了解机器人并区分对待

爬虫也分好与坏, 搜索引擎来查询, 才可以达到SEO效果并带来更多有价值的访问通过日志可以帮助管理员更好的区分哪些是好的机器人, 并依据做出更加适合自己的反爬配置

保留报案证据

发现非法攻击的机器人, 可以保留攻击者信息与路径, 作为报警的重要证据

增强运维效率

基于日志可以发现异常, 并能快速报警并采取行动

更多附加功能

依托日志服务的其他功能, 可以发挥日志的更大价值

阿里云反爬管理 - 实时日志分析概述

阿里云反爬管理

云盾Anti-Bot Service是一款网络应用安全防护产品，专业检测高级爬虫，降低爬虫、自动化工具对网站的业务影响。产品提供从Web、App到API接口的一整套全面的恶意Bot防护解决方案，避免某一环节防护薄弱导致的安全短板。

阿里云日志服务

阿里云的日志服务（log service）是针对日志类数据的一站式服务，无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能，提升运维、运营效率。日志服务主要包括实时采集与消费、数据投递、查询与实时分析等功能，适用于从实时监控到数据仓库的各种开发、运维、运营与安全场景：

目前，阿里云WAF与日志服务打通，对外开发Web访问与攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。

发布地域

适用客户

功能优势

反爬日志实时查询分析服务具有以下功能优势：

开通前提

限制说明

反爬管理所存储的日志库属于专属的日志库，有如下限制：

使用场景

1追踪机器人爬取与封禁日志，溯源安全威胁：

查看Top 100的爬取机器人列表:

2 实时正常可信Web请求活动，洞察状态与趋势：

查看PV/UV访问趋势的SQL:

3 快速了解安全运营效率，即时反馈处理：

查看有效请求与拦截率趋势的SQL:

4 输出安全网络日志到自建数据与计算中心

进一步参考

我们会陆续发布WAF安全日志分析的最佳时间, 这里可以进一步参考相关用户手册：

前期准备1修改Linux主机名，每台都得配置vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop-server12修改IP /etc/sysconfig/network-scripts/ifcfg-eth03修改主机名和IP的映射关系vim /etc/hosts192168146181 hadoop-server1192168146182 hadoop-server2192168146183 hadoop-server3192168146184 hadoop-server4192168146185 hadoop-server5######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等）/etc/hosts里面要配置的是内网IP地址和主机名的映射关系4关闭防火墙 #查看防火墙状态service iptables status#关闭防火墙service iptables stop#查看防火墙开机启动状态chkconfig iptables --list#关闭防火墙开机启动chkconfig iptables off前4步用root用户 *** 作， *** 作完后重启机器5ssh免登陆hadoop用户 *** 作#生成ssh免登陆密钥#进入到我的home目录cd ~/sshssh-keygen -t rsa （四个回车）执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsapub（公钥）将公钥拷贝到要免密登陆的目标机器上ssh-copy-id hadoop-server26安装JDK，配置环境变量等root用户 *** 作vim /etc/proflieexport JAVA_HOME=/usr/java/jdk170_65export HADOOP_HOME=/itcast/hadoop-241export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile集群规划：主机名 IP 安装软件运行进程hadoop-server1 192168146181:jdk、hadoopnamenode resourcemanageDFSZKFailoverController(zkfc)hadoop-server2 192168146182:jdk、hadoopnamenode resourcemanageDFSZKFailoverController(zkfc)hadoop-server3 192168146183:jdk、hadoop、zookeeperdatanode nodemanagejournalnode QuorumPeerMainhadoop-server4 192168146184:jdk、hadoop、zookeeperdatanode nodemanagejournalnode QuorumPeerMainhadoop-server5 192168146185:jdk、hadoop、zookeeperdatanode nodemanagejournalnode QuorumPeerMain安装步骤：1安装配置zooekeeper集群（在hadoop-server3上）11解压tar -zxvf zookeeper-345targz -C /home/hadoop/app/12修改配置cd /home/hadoop/app/zookeeper-345/conf/cp zoo_samplecfg zoocfgvim zoocfg修改：dataDir=/home/hadoop/app/zookeeper-345/data在最后添加：server1=hadoop-server3:2888:3888server2=hadoop-server4:2888:3888server3=hadoop-server5:2888:3888保存退出然后创建一个tmp文件夹mkdir /home/hadoop/app/zookeeper-345/data再创建一个空文件touch /home/hadoop/app/zookeeper-345/data/myid最后向该文件写入IDecho 1 > /home/hadoop/app/zookeeper-345/data/myid13将配置好的zookeeper拷贝到其他节点scp -r /home/hadoop/app/zookeeper-345/ weekend06:/home/hadoop/app/scp -r /home/hadoop/app/zookeeper-345/ weekend07:/home/hadoop/app/注意：修改hadoop-server4、hadoop-server5对应/home/hadoop/app/zookeeper-345/data/myid内容hadoop-server4：echo 2 > /home/hadoop/app/zookeeper-345/data/myidhadoop-server5：echo 3 > /home/hadoop/app/zookeeper-345/data/myid2安装配置hadoop集群（在hadoop-server1上 *** 作）21解压tar -zxvf hadoop-241targz -C /weekend/22配置HDFS（hadoop20所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下）#将hadoop添加到环境变量中vim /etc/profileexport JAVA_HOME=/hadoop/home/app/jdk170_55export HADOOP_HOME=/home/hadoop/app/hadoop-241export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin#hadoop20的配置文件全部在$HADOOP_HOME/etc/hadoop下cd /home/hadoop/app/hadoop-241/etc/hadoop221修改hadoo-envshexport JAVA_HOME=/home/hadoop/app/jdk170_55222修改core-sitexml<configuration><property><name>fsdefaultFS</name><value>hdfs://ns1/</value></property><property><name>hadooptmpdir</name><value>/home/hadoop/app/hadoop-241/tmp</value></property><property><name>hazookeeperquorum</name><value>hadoop-server3:2181,hadoop-server3:2181,hadoop-server3:2181</value></property></configuration>223修改hdfs-sitexml<configuration><property><name>dfsnameservices</name><value>ns1</value></property><property><name>dfshanamenodesns1</name><value>nn1,nn2</value></property><property><name>dfsnamenoderpc-addressns1nn1</name><value>hadoop-server1:9000</value></property><!-- nn1的>最近使用阿里云轻量级服务器，将常用命令列出来备忘。
mysql服务器重启：使用sudo su root切换到root用户，执行/etc/initd/mysqld start
查看系统信息：cat /etc/os-release
mysql日志位置：/usr/local/mysql/data目录下，err后缀文件。可以使用winscp查询。
mysql服务器登录：/usr/local/mysql/bin/mysql -u root -p
启动、查看、停止服务：
sudo systemctl start kestrel-zldnnappservice
sudo systemctl status kestrel-zldnnappservice
sudo systemctl stop kestrel-zldnnappservice

可以。
*** 作步骤：
1、登录轻量应用服务器管理控制台。
2、在左侧导航栏，单击服务器列表。
3、单击需要查看数据盘信息的服务器卡片。
4、在左侧导航栏，选择服务器运维>磁盘，查看服务器内的数据盘信息。
您也可以在登录轻量应用服务器管理控制台后，在左侧导航栏单击磁盘列表查看您的阿里云账号下所有轻量应用服务器的数据盘信息。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10550495.html

新功能：阿里云反爬虫管理利器！

发表评论

评论列表（0条）