
词云是一种直观展示数据频率的图表类型,可以对出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”,从而过滤掉大量的文本信息,是浏览者只要一眼扫过文本就可以领略重点:
拿帆软报表举例,打开finereport设计器:
1、准备数据
新建工作簿,添加内置数据集file1,分别记录搜索词和浏览量,如下图所示:
2、插入图表
以单元格图表为例,合并一片单元格,点击插入>单元格元素>插入图表,选择词云,如下图:
选中图表,在右侧图表属性表中选择图表属性表-类型,默认已选择词云:
3、图表数据设置
选中图表,在右侧图表属性表中选择图表属性表-数据,设置如下:
4、图表样式设置
选中图表,在右侧图表属性表中选择图表属性表-样式>图例,形态选择区域段,区间配置选择自定义,设置如下:
图例新增高亮功能,默认开启,鼠标移动到图例,对应的图表内容高亮显示:
选择图表属性表-样式>系列,形状可设置为默认,云朵/漏斗/金字塔/小屋/拇指/地图/货币/汽车,自定义,这里选择云朵:
词云只可设置图表区背景,考虑到美观度,选择图表属性表-样式>背景,此处背景颜色设置为黑色
5、保存与浏览
保存模板,点击分页预览,效果如上。
云图中的每个字的大小与出现的频率或次数成正比,词云图的统计意义不是特别大,主要是为了美观,用于博客和网站比较常见。
导入数据
library(tm)
library(wordcloud)
Text1<-paste(scan("Text1txt",what=character(0),sep=""),collapse="")
Text2<-paste(scan("Text2txt",what=character(0),sep=""),collapse="")
TEXT<-dataframe(c(Text1,Text2),rownames=c("Text1","Text2"))
TEXT_title<-dataframe(doc_id=rownames(TEXT),text=TEXT$cText1Text2
复制
)#这里的doc_id不可替换成别的词
创建数据框格式的文本
#创建数据框格式的文本,第一列是doc_id,第二列是文章内容
TEXT_ds<-DataframeSource(TEXT_title)
复制
构建语料库
Corpus<-VCorpus(TEXT_ds)
复制
针对语料库文本转换
思路:删除语料库中的标点符号,字母转换为小写,删除数字,删除空白字符,过滤掉停止词库之后转换为纯文本。
Corpus<-tm_map(Corpus,removePunctuation)#删除标点符号
Corpus<-tm_map(Corpus,tolower)#转换为小写
Corpus<-tm_map(Corpus,removeNumbers)#删除数字
Corpus <- tm_map(Corpus,stripWhitespace)#删除空白字符
Corpus <- tm_map(Corpus,function(x){removeWords(x,stopwords())})
Corpus <- tm_map(Corpus,PlainTextDocument)#转换为纯文本
复制
针对语料库断字处理,生成词频权重矩阵
Term_matrix<-TermDocumentMatrix(Corpus)
> Term_matrix
<<TermDocumentMatrix (terms: 2462, documents: 2)>>
Non-/sparse entries: 3215/1709
Sparsity : 35%
Maximal term length: 16
Weighting : term frequency (tf)
复制
查看Term_matrix得知2篇文章共2456个字,稀疏度为35%,最大词长度是16。
#计算频率
Term_matrix<-asmatrix(Term_matrix)
复制
#对词频权重矩阵的表头进行命名
colnames(Term_matrix)<-c("Text1","Text2")
复制
#把矩阵转为便于后续统计分析的数据框
Data<-dataframe(Term_matrix)
复制
#导出两篇文章的频率分析结果,文件名为Term_matrix
writecsv(Data,'Term_matrixcsv')
复制
读取文件
readcsv('Term_matrixcsv',header=TRUE,rownames=1)
复制
#分开绘制两篇文章的词云
wordcloud(rownames(Data),Data$Text1,minfreq=95,col=brewerpal(8,"Dark2"),rotper=03)
复制
wordcloud(rownames(Data),Data$Text2,minfreq=95,col=brewerpal(8,"Dark2"),rotper=02)
复制
#两篇文章对比
comparisoncloud(Data,maxwords=250,randomorder=FALSE,colors=c("#00B2FF","#084081"))
复制
#通过设置maxword的大小决定显示图中文本的多少。
两篇文章共有词部分
commonalitycloud(Data,maxwords=120,randomorder=FALSE,colors="#66A61E")
复制
绘制星形图
将Data数据计算频率Freq=n/sum(n),根据频率绘制星形图。
wordcloud2(Data1,size=04,shape='star')
复制
本文参与 腾讯云自媒体分享计划,欢迎热爱写作的你一起参与!
本文章分享自微信公众号
菜鸟学数据分析之R语言
作者:刘晓雪
原始发表时间:2020-07-25
如有侵权,请联系 cloudcommunity@tencentcom 删除。
展开阅读全文
腾讯云图
文章来自专栏
菜鸟学数据分析之R语言
77 篇文章22 人关注
订阅
评论 (0)
写评论
暂无人发表评论
相关文章
Python数据可视化 词云图 绘制词云的方法总结
pyecharts是基于echarts的python库,能够绘制多种交互式图表,和其他可视化库不一样,pyecharts支持链式调用。
(数据科学学习手札71)在Python中制作个性化词云图
词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词:
数据挖掘 | 可视化 WordCloud 词云(附详细代码案例)
在七夕节中,博主写了一篇为女友收集QQ聊天记录做可视化词云的文章获得广泛好评,一直有小伙伴希望能出一篇教程,今天他来啦! 一文带你速通词云♂️
R-wordcloud: 词云图
好几位读者来信说,《R语言数据可视化之美》(增强版)的词云图的代码有问题,我今天更新了一轮,这主要原因在R语言及其包的更新,导致源代码有可能运行错误。R语言的优
WordCloud词云库快速入门(一)
wordcloud是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本。
Day10如何给⽑不易的歌曲做词云展示
我们经常需要对分析的数据提取常⽤词,做词云展示。⽐如⼀些互联⽹公司会抓取⽤户的画像,或者每⽇讨论话题的关键词,形成词云并进⾏展示。
词云绘制,推荐三种 Python包外加一个在线网站!
本篇文章先介绍几种制作词云的 Python 库,分别是 WordCloud、StyleCloud、Pyecharts;再加一个在线词云制作网站;最后通过代码实 ***
关于词云可视化笔记一(wordcloud和英文词汇可视化)
一直比较关注数据可视化这块,对于分词和词的可视化却始终不明就里,直到看到词云,当时惊为天人,不过词云的制作还是非常麻烦,直到2017年Python走近我的视野中
词云图,看过没做过?快来,教你秘籍
今天我们来说一说可视化的问题,如果这个时候我们要对频数进行可视化的话,我们首先想到的应该是一个什么样子的图形呢?很多人可能会说是柱状图。还有一些科研喵们,看过我
使用pyecharts绘制词云图-淘宝商品评论展示
词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。
WordCloud 中英文词云图绘制,看这一篇就够了
摘要: 当我们手中有一篇文档,比如书籍、小说、**剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种
Python带你看不一样的《青春有你2》**姐之评论内容可视化
详细介绍和用法可以去github看:>
Python 作为一种功能强大的编程语言,因其简单易学而受到很多开发者的青睐。那么,Python 的应用领域有哪些呢?
概括起来,Python 的应用领域主要有如下几个。
Web应用开发
Python 经常被用于 Web 开发。例如,通过 mod_wsgi 模块,Apache 可以运行用 Python 编写的 Web 程序。Python 定义了 WSGI 标准应用接口来协调 >
经研究表明,人类大脑对视觉信息的处理优于对文本的处理。因此,数据可视化是使用图表、图形和设计元素把数据进行可视化,把相对复杂、抽象的数据通过可视的方式以人们更易理解的形式展示出来的一系列手段。数据可视化可以使人们更有效率地完成某些任务,我们可以理解为三点优势:
> 美观展示: 用数据展示企业特色,大会展台,媒体现场展示等
> 数据驱动:实时查看业务概况、监控预警、驱动内部快速响应
> 发掘价值:可视化数据呈现后,带来的视觉感受会帮助人发现新的因素
在 图扑软件(Hightopo,以下简称 HT )技术支持下,数据可视化除了“可视”,还有可交流、可互动的特点。设计带来的不仅是瞬息处理海量数据搭配酷炫的可视化样式所引起的视觉震撼,更应注重为业务需求服务,设计出符合不同行业需求的个性定制可视化,利于企业做出正确的商业决策,以有根据的数据呈现而帮助企业进行更科学的判断而避免决策的失误。
先确定图表类型,下一步要进入到布局具体的信息位置,确立交互稿的步骤。确立交互稿的第一步就是要确定大屏的尺寸。客户的大屏尺寸不用会影响到整体的布局和效果,设计的时候也要考虑下是否有拼接大屏接缝的问题,尽量以拼接屏尺寸来确立栅格化布局。
尺寸确立后,接下来要对设计稿进行布局和页面的划分。布局这里我们就要参考第一项的业务需求优先级来布局画面分割面积。核心业务指标安排在中间位置、占较大面积;其余的指标按优先级依次在核心指标周围展开。一般把有关联的指标让其相邻或靠近,把图表类型相近的指标放一起,这样能减少观者认知上的负担并提高信息传递的效率。视觉上要尽量规避文字罗列或图表罗列,注意方圆图表的面积比例问题等,也是布局期间需要注意的事项。
设计风格的确定主要以下几点来确定:设计风格的选择切勿追求效果炫酷而不符合业务需求,选择最合适的而不是选择最绚烂的尤为重要。因为设计中涉及的范围比较广,我们在后两章节单独着重讲解。下面展示部分我们做的不同行业对应的不同构图布局与元素的应用案例:
图扑软件(Hightopo)
发动机的可视化以突出发电机产品为主,周围 UI 以大圆角形式设计,使视觉由四周向中间包围,集中于中心。
图扑软件(Hightopo)
挖掘机的可视化采用了大地色进行设计,采用了色彩共情的原理,结合简洁的线性UI,使大屏在接地气的同时不失高端雅致的效果。
图扑软件(Hightopo)
医院的可视化设计以冷白色为主,突出医院给人的干净,严肃的感觉,仿佛能闻到消毒水的气味。以模型展示为主,按钮样式也采用了以面为主的设计配合大面积色块分布为主的模型设计。
图扑软件(Hightopo)
地铁站的可视化以写实风格为主,再现了真实地铁站的样貌,以及身临其境的动画交互体验。
图扑软件(Hightopo)
农业可视化案例尝试了 low poly 风格,以简洁插画风与略抽象画的模型浓缩了农业的运作场景,色调以贴近植物的绿色为主,设计出可爱的动画风格可视化效果。
同时在设计时因为使用的设备不同,大屏有它自己独特的分辨率、屏幕组成、色彩显示以及运行、展示环境,这里的很多问题只有设计稿投到大屏上才能够被发现,所以这一步在样图沟通确认环节非常重要,有时候需要开发出demo,反复测试多次来修改协调最终上屏效果。在测试时从设计上可以重点注重以下几点:
之前确立的布局在放入设计内容后是否依然合适
确立的图表类型带入数据后是否仍然客观准确
根据关键元素、色彩、结构、质感打造出的页面风格是否基本传达出了预期的氛围和感受
已有的样式、数据内容、动效等在开发实现方面是否存在问题
大屏是否存在色差、文字内容是否清晰可见、页面是否存在变形拉伸等现象
图表控件可实现数据可视化,图形化显示当前工业领域、商业领域、金融领域等不可或缺的元素,通常采用图表进行数据可视化展示,直观地显示数据、对比数据、分析数据。图表控件就是具有这一能力的控件,很多项目开发中都会需求图表控件。
NET开发平台
>
LightningChart®NET原名LightningChart Ultimate SDK。 LightningChart完全由GPU加速,并且性能经过优化,可用于实时显示海量数据-超过10亿个数据点。 LightningChart包括广泛的2D,高级3D,Polar,Smith,3D饼/甜甜圈,地理地图和GIS图表以及适用于科学,工程,医学,航空,贸易,能源和其他领域的体绘制功能。
Iocomp NET WinForm
Iocomp NET WinForm控件是一款100%由C#编写、充分利用GDI+的优点的工业仪表盘控件套装。是用于生成具有专业级外观的仪表的控件,其自定义的属性编辑器提供了“一行代码,全部搞定”的简单快捷的属性配置方法。Iocomp NET WinForm控件包最多可提供了56种专业级控件以及绘图控件包组件。分为标准版(StdPack)、专业版(ProPack)、曲线版(PlotPack)、终极版(UltraPack)四个版本。
TeeChart for NET
TeeChart for NET是优秀的工业40 WinForm图表控件,官方独家授权汉化,集功能全面、性能稳定、价格实惠等优势于一体。TeeChart for NET制图控件提供了一套出色的通用组件套件,可满足无数的制图要求,也针对重要的垂直领域,例如金融,科学和统计领域。制图控件提供了一套出色的通用组件套件,可满足无数的制图要求,也针对重要的垂直领域,例如金融,科学和统计领域。
MindFusionDiagramming for WinForms
MindFusionDiagramming for WinForms是一个能帮助你创建工作流和进程图表的NET控件;数据库实体关系图表;组织图表;对象层次和关系图表;图表和树。它是基于对象-图表框,表格和箭头类型,将其归类分派给其他并结合成复杂的结构。该控件提供超过预先定义的50多种图表框,如自定义设计样式和对图表框着色等。
HTML5开发平台
FusionCharts XT
FusionCharts XT作为FusionCharts图表套包的主打产品,是50万用户首选的跨平台、跨浏览器的JavaScript/HTML图表解决方案,它提供了所有通用的图表类型,同时它还支持 ASP、 ASPNET、 PHP、 JSP、 ColdFusion、 Ruby on Rails、 JavaScript、甚至简单的HTML页面。它是你值得信赖的JavaScript图表解决方案,目前在全球有50万用户选择Fusioncharts来制作专业的JavaScript图表。
AnyChart
AnyChart是基于JavaScript (HTML5) 的图表控件。使用AnyChart控件,可创建跨浏览器和跨平台的交互式图表和仪表。AnyChart 图表目前已被很多知名大公司所使用,可用于仪表盘、报表、数据分析、统计学、金融等领域。
AnyChar HTML5图表高度可定制且高度兼容。拥有纯JavaScript API,AnyChart图表内置客户端数据实时更新,多层次向下钻区和具体参数更新。强大的主题引擎使你通过一系列图表进行独特的演示体验,而PDF和图像输出能产出图书质量打印文档。
Highcharts
Highcharts是一款纯JavaScript编写的图表库,为你的Web网站、Web应用程序提供直观、交互式图表。当前支持折线、曲线、区域、区域曲线图、柱形图、条形图、饼图、散点图、角度测量图、区域排列图、区域曲线排列图、柱形排列图、极坐标图等几十种图表类型。
QT开发平台
QtitanChart
QtitanChart是一个C ++库,它代表一组控件,这些控件使您可以快速轻松地为应用程序提供漂亮而丰富的图表。QtitanChart在QtC ++上实现,并且支持所有主要的桌面 *** 作系统 - Windows、Linux和Mac OSX。要将QtitanChart添加到您的程序中,只需要几行代码,便捷的体系结构允许您自定义文本的每个部分。
Highcharts
Highcharts是一款纯JavaScript编写的图表库,为你的Web网站、Web应用程序提供直观、交互式图表。当前支持折线、曲线、区域、区域曲线图、柱形图、条形图、饼图、散点图、角度测量图、区域排列图、区域曲线排列图、柱形排列图、极坐标图等几十种图表类型。
QT开发平台
QtitanChart
QtitanChart是一个C ++库,它代表一组控件,这些控件使您可以快速轻松地为应用程序提供漂亮而丰富的图表。QtitanChart在QtC ++上实现,并且支持所有主要的桌面 *** 作系统 - Windows、Linux和Mac OSX。要将QtitanChart添加到您的程序中,只需要几行代码,便捷的体系结构允许您自定义文本的每个部分。
以上就是关于如何用BDP工具在线免费制作个性化词云全部的内容,包括:如何用BDP工具在线免费制作个性化词云、词云图中,文字的大小是有什么决定的、Python能干什么,Python的应用领域等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)