博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:4980 次
发布时间:2019-06-12

本文共 948 字,大约阅读时间需要 3 分钟。

作业要求来源:

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

1480612-20190318214651784-1764415863.png

4. 更新词库,加入所分析对象的专业词汇。

1480612-20190318214912340-671190941.png

5. 生成词频统计、排序、排除语法型词汇,代词、冠词、连词等停用词、输出词频最大TOP20,把结果存放到文件里

源代码:

import jiebafo = open(r"d:/三体.txt",encoding="utf-8")santi_txt = fo.read()jieba.load_userdict(r"d:/stWord.txt") #添加专业词汇词库fo2 = open(r"d:/stops_chinese1.txt",encoding="utf-8")cnStops = fo2.read()cnStops = cnStops.split("\n")st=[]ss=set(cnStops)for d in jieba.cut_for_search(santi_txt):    st.append(d)for n in a:    g.update(n)    g[n]=santi_txt.count(n)    print("{}  :  {}".format(n,santi_txt.count(n)))for w in st:    isStop = False    for a in cnStops:        if w==a:            isStop=True    if isStop==True:        st.remove(w)santi_Txt =' '.join(wordlist)  wordCount = WordCloud().generate(wl_split)santi_txt.sort(key=lambda x: x[1], reverse=True)  # 列表排序print(santi_txt[0:20])  #输出top20plt.imshow(wordCount)plt.axis("off")plt.show()

结果:

1480612-20190318215107323-1582717006.png

6. 生成词云:

1480612-20190318215043988-436462133.png

转载于:https://www.cnblogs.com/Xi-Chen00/p/10555378.html

你可能感兴趣的文章
spring ehcache使用笔记
查看>>
【知识总结】多项式全家桶(三点五)(拆系数解决任意模数多项式卷积)
查看>>
HTML5中input文本框输入,h1标签实时输出代码
查看>>
MySQL数据类型
查看>>
WPF 带水印的密码输入框
查看>>
ASP.NET Core 2.2 基础知识(十一) ASP.NET Core 模块
查看>>
ASP.NET Core 运行原理解剖[4]:进入HttpContext的世界
查看>>
sql-----STR 函数
查看>>
WPF中类似使用tab键功能,可以向上向下定位
查看>>
设置WPF输入框焦点
查看>>
SQLServer数据库差异备份
查看>>
SQL SERVER GO命令循环使用实例
查看>>
C# 调用导致堆栈不对称。原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配...
查看>>
你可能不知道的字符比较中的“秘密”
查看>>
SQL server 2005 PIVOT运算符的使用
查看>>
ASP.NET MVC基于标注特性的Model验证:将ValidationAttribute应用到参数上
查看>>
用Excel做出比肩任务管理软件的操作技巧
查看>>
Jquery--仿制360右下角弹出窗口
查看>>
jQuery的选择器中的通配符[id^='code'] 【转】
查看>>
vmware osx10.12分辨率问题
查看>>