前言
大家好,我是黄伟。词云,相信大家对这个概念比较陌生,它其实就是指的是对某一段文本中出现频率最高的关键词进行特殊描绘,过滤到太多没用的字眼,以此达到视觉上的突出,让人一看就知道这篇文章讲的什么。
一、词云的运用
设计到的模块:wordcloud
编辑器:sublime text 3
编译器:Python 3.6
1.下载安装wordcloud模块
pipinstallwordcloud
2.导入模块并初始化词云对象
下面我们打开它的帮助文档看看它的使用方法:
可以看到这个类就是词云初始化的主要类,下面都是它的初始化参数,所以我们要使用它:
importwordcloudwc=wordcloud.WordCloud(font_path=r\’C:WindowsFonts华康少女文字简W5.ttc\’,width=200,height=100)#初始化
这里为了使得生成的词云图更好看,所以我加入了华康少女字体,这个字体不是系统自带的,得下载。下载好后把它放到window 字体文件夹中。
3.加入文本到词云中
使用初始化的对象来调用文本生成器,我们从帮助函数中可以得出它有两个生成器函数。
这两个生成器函数差不多,而且意思相近,这里不做过多讨论,我们来看下它的使用方法:
wc.generate(\’任性的90后boy\’)
这样就从文本中生成词云了。
4.显示词云对象
生成之后,我们需要把它显示出来,那怎么办呢?如图所示:
由此可以看出它有四种生成方式,即为:数组,文件,html,图片。我们随机选择一种,就选文件。
wg.to_file(\’gf.jpg\’)
这样就生成了一个以刚才的文本为主的华康少女字体的词云图了,是不是很简单了?别着急,还有大菜。
5.显示词云背景
我们从上幅图片可以看出,字体和图片的颜色都很让人揪心,那么有没有方法改变它们呢?答案当然是有的。
我们可以通过设置词云的背景颜色来改变词云背景:
wordcloud.WordCloud(font_path=r\’C:WindowsFonts华康少女文字简W5.ttc\’,width=200,height=100,background_color=\”gray\”)
这样我们可以将背景颜色改为灰色,要是改变字体颜色该怎么办呢?由刚才的帮助文档,我们可以看出有个颜色
生成器类ImageColorGenerator,它负责专门定义我们喜欢的颜色方案,而且它还可以随时修改,不过要在初始化后使用color_func函数进行回调才行,因为ImageColorGenerator传入的是一个图片数组,所以我们需要用到一个可以将图片转化为数组的模块numpy,今天我们只讲它的一个方法,下面我们来看下:
fromwordcloudimportImageColorGeneratorfromwordcloudimportWordCloudaswcfromPILimportImageimportnumpyasnff=open(\’OSI.txt\’,\’r\’,encoding=\’utf-8\’).read()#导入文本文件并读取内容bg=n.array(Image.open(\’g.png\’))#将图片以数组形式输出#注意如果背景图片是png,那么模式必须是RGBA,因为png图片支持透明度设置,设置背景图片,背景颜色必须是白色w=wc(font_path=r\’C:WindowsFonts华康少女文字简W5.ttc\’,mode=\’RGBA\’,mask=bg,repeat=True,background_color=\’#FFFFFF\’)wg=w.generate(ff)#嵌入文本ig=ImageColorGenerator(bg)#图片颜色导入wg.recolor(color_func=ig)#重新设置词云图颜色wg.to_file(\’gf.png\’)#保存图片
可以看到,最后图片里文字的颜色和引用的图片颜色一样:
除此之外WordCloud还有很多优秀的方法,比如:
mask=\’\’#设置背景图片font_path=\’C:WindowsFontsSTZHONGS.TTF\’#解决中文无法输出的尴尬max_words=5#设置单词显示最多的数目stopwords=\’\’#设置停用词如果为空,则使用内置的STOPWORDS方法max_font_size=4#设置字体最大值int类型random_state=1#设置有多少种配色方案int类型mode:\’RGB\’#当参数为“RGBA”并且背景颜色不为空时,背景为透明。color_func#生成新颜色的回调函数scale#按比例放大画布类型为floatcolormap#给每个词随机分配颜色,若指定color_func,则忽略该方法。repeat=True#如果文本太少无法充满整个照片导致效果不明显就用这个
6.选择性输出
不知道大家注意到没有,这里有一个停用词设置,它就是stopwords,它就是限制某些字不能输出在词云上,不过必须使用wordcloud内置的STOPWORDS方法才可以,下面我们来看下:
因为它只涉及到英文的分词限制,于是我们先选择个英文单词,就选择频率比较高的control:
sd=STOPWORDS.add(\’Control\’)#添加Control为禁用词
然后我们在给初始化时的wordcloud添加一个属性stopwords属性:
wc(font_path=r\’C:WindowsFonts华康少女文字简W5.ttc\’,mode=\’RGBA\’,mask=bg,width=500,height=300repeat=True,stopwords=sd,background_color=\’#FFFFFF\’)
可以看到我们的Control没了,这就是词云的神奇之处。
二、词云拓展
在这里,小编还要教大家解锁一个词云的新方式,那就是它不光是一个图片生成神器,还是一个看图,制图,图表生成神器,因为它与PIL ,matplotlib完美的契合在一起,使得它可以随心所欲的调用这两个模块的功能,不信的话,你可以随我来看看:
可以看到基本上都是pillow的方法,而且还有matplotlib 和random以及os的方法,可以说是很全了。
im=wordcloud.wordcloud.Image.open(\’q.jpg\’)im.show()
这样基本上你就可以打开一个词云生成的图片了,相信很多小伙伴还没解锁这一知识吧,哈哈哈。
三、总结
通过对词云的学习,可以使我们很直观的了解到文本中的数据的占比情况,其实它就是比较简单的数据分析。