博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 结巴分词(2)关键字提取
阅读量:6302 次
发布时间:2019-06-22

本文共 986 字,大约阅读时间需要 3 分钟。

 

提取关键字的文章是,小说完美世界的前十章;

我事先把前十章合并到了一个文件中;

然后直接调用关键字函数;

1 import sys 2 sys.path.append('../') 3  4 import jieba 5 import jieba.analyse 6 from optparse import OptionParser#引入关键词的包 7 from docopt import docopt 8 data_path = "C:\\Users\\wangyuguang\\Desktop\\work_data\\profect_world\\" 9 topK = 1010 withWeight = False11 content = ""12 for i in range(1,2):13     Data_path = data_path + "he"+".txt"14     content ="".join(open(Data_path, 'rb').read())15 # print content16 tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)#直接调用17 18 if withWeight is True:19     for tag in tags:20         print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))21 else:22     print(",".join(tags))

关键字结果:

Building prefix dict from the default dictionary ...Loading model from cache c:\users\wangyuguang\appdata\local\temp\jieba.cacheLoading model cost 0.386 seconds.Prefix dict has been built succesfully.小不点,孩子,族长,石云峰,石村,凶禽,青鳞鹰,凶兽,一群,石昊

转载于:https://www.cnblogs.com/lovychen/p/5681019.html

你可能感兴趣的文章
Fabrik – 在浏览器中协作构建,可视化,设计神经网络
查看>>
防恶意注册的思考
查看>>
http2-head compression
查看>>
C# 命名空间
查看>>
订餐系统之同步美团商家订单
查看>>
使用ArrayList时设置初始容量的重要性
查看>>
Java Web-----JSP与Servlet(一)
查看>>
Maven搭建SpringMVC+Mybatis项目详解
查看>>
关于量子理论:最初无意的简化,和一些人有意的强化和放大
查看>>
CentOS 6.9通过RPM安装EPEL源(http://dl.fedoraproject.org)
查看>>
“区块链”并没有什么特别之处
查看>>
2017年IT基础架构五大预测
查看>>
没有功能需求设计文档?对不起,拒绝开发!
查看>>
4星|《先发影响力》:影响与反影响相关的有趣的心理学研究综述
查看>>
IE8调用window.open导出EXCEL文件题目
查看>>
python之 列表常用方法
查看>>
vue-cli脚手架的搭建
查看>>
在网页中加入百度搜索框实例代码
查看>>
在Flex中动态设置icon属性
查看>>
采集音频和摄像头视频并实时H264编码及AAC编码
查看>>