词云可视化——中文分词与词云制作?

2024/11/2 21:19:50 作者:佚名 来源:伊秀娱乐网
词云可视化——中文分词与词云制作?

第一:主题和意义

你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。

当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。 因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

第二:语料收集

个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:1、标签关键词 2、关键词词频,词频决定关键词的显示大小。

语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。

第三:分词和关键词抽取

当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词。

如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。

少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。

特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词。(包括中文分词,体验效果:不同语料和多少,时好时坏)

可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。

它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。目前正在飞速发展的虚拟现实技术也是以图形图像的可视化技术为依托的。

可视化的意义

1、展现全貌:很多讨论所涉及的主题都是包括多个元素,其中一个元素会影响到多个其他元素,如果不采取可视化,则无法看到全貌、也无法进行真正的讨论。

2、增强理解、便于对话、探索、交流。

3、简化复杂性,增强审视。

4、处理异议:在讨论过程中,出现观点不同时,争论的双方看到自己的观点得以记录并展现于众时,情绪会逐渐趋于缓和。