
2、git checkout 9bc3d16(此分支中包含windows所需文件)
3、用visual studio2013打开位于xgboost/windows的项目
4、VS2013中打开configuration manager
选择active solution configuration中release
选择active solution platform中x64
5、重构(rebuild)xgboost和xgboost_wapper
6、拷贝xgboost/windows/x64/release文件夹里所有文件到到xgboost/wrapper
7、去xgboost/python-package运行python setup.py install
8、检查是否完成安装:python -c "import xgboost"
xgboost4j-spark 怎么安装使用1.windows server 2008是64位
2.先安装python 64位,版本选用2.7.10
3.安装numpy和scipy,版本都是64位,兼容python 2.7,这两个扩展包都选用http://www.lfd.uci.edu/~gohlke/pythonlibs/下的wheel文件,原因是安装时候不报错,其他安装方法,比如直接pip install scipy,easy_install numpy,会爆出各种莫名其妙的错误;
4.安装visual studio 2010或者2013均可,我开始装的是visual studio2015,各种按钮下拉框找不着,很麻烦;
5.安装vs2013后,直接将xgboost下windows文件夹中xgboost.sln导入solution,在vs上方选择好x64和release两个选项,在build下拉菜单中选择rebuild,最后出现 ========== Build: 3 succeeded, 0 failed, 0 up-to-date, 0 skipped ==========, 表明已经编译成功,不过我编译时候出了一个差错,说找不到jni.h文件,是fatal error,不过细看下应该是生成javawrapper时候出错,结果会导致无法以java方式调用xgboost,不过这些都是小事,我没打算用java调用xgboost;
6.dos下,进入xgboost\python-package目录下,输入命令python setup.py install,开始往c:\python27\lib\site-packages中装内容
7.然后import xgboost,导入成功
至此,一切搞定
安装首先安装XGBoost的C++版本,然后进入源文件的根目录下的 wrappers文件夹执行如下脚本安装Python模块python setup.py install
安装完成后按照如下方式导入XGBoost的Python模块
import xgboost as xgb
=
数据接口
XGBoost可以加载libsvm格式的文本数据,加载的数据格式可以为Numpy的二维数组和XGBoost的二进制的缓存文件。加载的数据存储在对象DMatrix中。
加载libsvm格式的数据和二进制的缓存文件时可以使用如下方式
dtrain = xgb.DMatrix('train.svm.txt') dtest = xgb.DMatrix('test.svm.buffer')
加载numpy的数组到DMatrix对象时,可以用如下方式
data = np.random.rand(5,10) # 5 entities, each contains 10 features label = np.random.randint(2, size=5) # binary target dtrain = xgb.DMatrix( data, label=label)
将scipy.sparse格式的数据转化为 DMatrix格式时,可以使用如下方式
csr = scipy.sparse.csr_matrix( (dat, (row,col)) ) dtrain = xgb.DMatrix( csr )
将 DMatrix 格式的数据保存成XGBoost的二进制格式,在下次加载时可以提高加载速度,使用方式如下
dtrain = xgb.DMatrix('train.svm.txt') dtrain.save_binary("train.buffer")
可以用如下方式处理 DMatrix中的缺失值:
dtrain = xgb.DMatrix( data, label=label, missing = -999.0)
当需要给样本设置权重时,可以用如下方式
w = np.random.rand(5,1) dtrain = xgb.DMatrix( data, label=label, missing = -999.0, weight=w)
参数设置
XGBoost使用key-value格式保存参数. Eg
* Booster(基本学习器)参数
param = {'bst:max_depth':2, 'bst:eta':1, 'silent':1, 'objective':'binary:logistic' } param['nthread'] = 4 plst = param.items() plst += [('eval_metric', 'auc')] # Multiple evals can be handled in this way plst += [('eval_metric', 'ams@0')]
还可以定义验证数据集,验证算法的性能
evallist = [(dtest,'eval'), (dtrain,'train')]
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)