
1.外部数据库导入
外部数据库是一个重要的数据来源。尤其电商平台对这种数据来源渠道非常常用。用于 HDFS 和外部数据库中导入导出数据的工具比较常用的是 Sqoop。
2.日志文件
日志文件也是一个非常常用的数据来源。而用于自动化迁移日志文件到 HDFS 上的工具是 Flume。
3.前端埋点
前端埋点是指在前端系统中将用户的一些动作行为部分或者全部上传到后台以供分析使用的。用户在前端的某些 *** 作是不会被记录到传统日志中,更不会被保存到后台数据库中的。但这些动作行为往往又代表着用户的心理状态,对于分析用户行为与刻画用户画像而言还是非常有参考价值的。为了得到这些数据,就有了前端埋点的 *** 作。
4.爬虫
爬虫获取数据的方式通常只会出现在某些特定性质的企业里。
1、新建或者打开要连接数据库的脚本。在下面的Global数据域中或者本地数据表中任选一个表格后,点击鼠标右键依次选择“数据表”“导入”“来自数据库”;
2、点击“创建”,打开选择数据源页,选择“机器数据源”,点击“新建”;
3、点击下一步打开选择数据源驱动程序页,选择完成后点击下一步;
4、名称字段可以任意命名,服务器为数据库所在非服务器地址等信息后,点击下一步;
5、选择“使用用户输入登陆ID和密码的SQL Server验证”,录入要连接数据库的用户
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)