
你好,根据你的要求,我帮你写好了采集数据的程序给你参考。这个其实很简单,网页上获取不到,抓包可以得到:
然后我们正则匹配一下:
期号和开奖结果匹配完毕后,最后,写到软件里面:
源码已经打包上传了,采纳最佳吧,谢了!
虽说我没写过,但作为看过一些基础知识的开发者还是可以给你一些提议的首先就是数据源,也就是采集的目标,你必须十分清楚目标源URL的规律并总结出对应的算法,这样每次开奖后只需要从用算法算出来的URL取数据,再利用后面的步骤挖掘数据基本上就可以了
其次是数据挖掘,说人话就是找金子,从数据源URL中把整个网页的代码都down下来(其实这才是我们需要的数据源),然后你必须十分了解该网页的结构规律,再根据规律用算法将关键的部分筛选出来,根据源网站的规则将这些关键数据排在一起
当然你要考虑的问题还有一个,那就是在什么时间去采集数据,对于返回回来的各种数据要如何应对。光这一点就很伤脑筋了,因为你有可能down下来的是404页面,有可能是503、504等错误页面,要考虑的问题还是很多的。我是不懂什么双色球了,就数据采集和数据挖掘这块凭我那还没生锈的脑子希望能给你一些帮助吧
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)