
本文以App作为例子,实际应用不限于App范围。
大部分场合都可以通过程序调试来定位问题,但有些场景使用抓包来定位接口问题更准确、更方便,如以下场景:
要实现对App的网络数据抓包,需要监控App与服务器交互之间的网络节点,监控其中任意一个网络节点(网卡),获取所有经过网卡中的数据,对这些数据按照网络协议进行解析,这就是抓包的基本原理。
但是中间网络节点,不受我们控制,所以基本无法实现抓包的,只能在客户端和服务端进行抓包。
通常我们监控本地网卡数据,如下图:
本地网络 指的是WIFI的路由,如果直接抓路由器的包还是比较麻烦的,因此我们会在 手机 和 本地路由 之间加一层 代理服务 ,这样只要抓代理服务的网络数据即可:
虽然在 手机 侧也可实现抓包,但和 本地路由 一样,抓包比较麻烦,如果不是没有办法,尽量还是不在手机侧抓包。但是有一种情况必须在手机端抓包,那就是在4G网络情况下:
4G网络状态下如何抓包,以及它的劣势,我们后面章节再细讲。
抓包实际上是分析网络协议的一种过程,尽管繁琐的细节劳动都让抓包工具做了,但我们还是需要了解下基础的网络协议,好帮助我们更好的分析问题。
首先需要了解下经典的OSI七层网络模型,以及每层的作用,其次对TCP、>
一分钟了解互联网数据挖掘流程
1、爬虫抓取网络数据
真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。
Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobaocom,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据。nutch支持把抓取的数据转化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)转换成纯文字字符。
Nutch与Hadoop集成,可以将下载的数据保存到hdfs,用于后续离线分析。使用步骤为:
向hdfs中存入待抓取的网站url
$ hadoop fs -put urldir urldir
注:
第一个urldir为本地文件夹,存放了url数据文件,每行一个url地址
第二个urldir为hdfs的存储路径。
启动nutch,在NUTCH_HONE目录下执行以下命令
$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10
命令成功执行后,会在hdfs中生成crawl目录。
2、MapReduce预处理数据
对于下载的原始文本文档,无法直接进行处理,需要对文本内容进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等 *** 作。
常用的文本预处理算法是TF-IDF,其主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来做分类。
输入原始文本内容:
Againit seems that cocoa delivered……
执行TF-IDF预处理:
hadoop jar $JAR SparseVectorsFromSequenceFiles……
输出文本向量:
9219:0246 453:0098 10322:021 11947:0272 ……
每一列是词及其权重,使用冒号分隔,例如“9219:0246”表示编号为9219的词,对应原始单词为“Again”,其权重值为0246。
3、Mahout数据挖掘
预处理后的数据就可以用来做数据挖掘。Mahout是一个很强大的数据挖掘工具,是分布式机器学习算法的集合,包括:协同过滤、分类、聚类等。
以LDA算法为例,它可以将文档集中每篇文档的主题按照概率分布的形式给出。它是一种无监督学习算法,在训练时不需要手工标注主题,需要的仅仅是指定主题的数量K。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。
输入预处理后的数据:
9219:0246 453:0098 ……
执行LDA挖掘算法:
mahout cvb –k 20……
输出挖掘结果:
topic1 {computer,technology,system,internet,machine}
topic2 {play,film,movie,star,director,production,stage}
我们可以获知用户的偏好是哪些主题,这些主题是由一些关键词组成。
4、Sqoop导出到关系数据库
在某些场景下,需要把数据挖掘的结果导出到关系数据库,用于及时响应外部应用查询。
sqoop是一个用来把hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle 等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到关系型数据库中:
sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out
export *** 作实现把hdfs目录/user/mr/lda/out下数据导出到mysql的result_test表。
以上就是关于网络抓包原理全部的内容,包括:网络抓包原理、android开发怎样获取网络数据、一分钟了解互联网数据挖掘流程等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)