
首先就是数据源,也就是采集的目标,你必须十分清楚目标源URL的规律并总结出对应的算法,这样每次开奖后只需要从用算法算出来的URL取数据,再利用后面的步骤挖掘数据基本上就可以了
其次是数据挖掘,说人话就是找金子,从数据源URL中把整个网页的代码都down下来(其实这才是我们需要的数据源),然后你必须十分了解该网页的结构规律,再根据规律用算法将关键的部分筛选出来,根据源网站的规则将这些关键数据排在一起
当然你要考虑的问题还有一个,那就是在什么时间去采集数据,对于返回回来的各种数据要如何应对。光这一点就很伤脑筋了,因为你有可能down下来的是404页面,有可能是503、504等错误页面,要考虑的问题还是很多的。我是不懂什么双色球了,就数据采集和数据挖掘这块凭我那还没生锈的脑子希望能给你一些帮助吧
哇,这个长了,不是三言两语说的完的啊肯定要把数据库的所有选号都调出来判断下,符合的个数不就是中奖人个数嘛,中奖的号码在数据库里肯定对应有中奖人信息啊,echo出来不就好啦
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)