python中jieba模块怎么使用


这篇文章主要介绍“python中jieba模块怎么使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python中jieba模块怎么使用”文章能帮助大家解决问题。英语单词之间是通过空格分隔的,但是中文却不存在空格的概念,因此需要一个模块来解决中文的分词问题。jieba模块是一个python第三方中文分词模块,可以用于将语句中的中文词语分离出来jieba模块作为python的一个第三方模块,是需要我们自行下载安装后才能使用的,我们主要采用pip安装工具进行jieba的安装,具体步骤如下:在windows操作系统中,快捷键win+R,然后输入cmd,点击确定,打开输入:pip install jieba即可安装成功。jieba模块支持三种分词模式:全模式、精准模式以及搜索引擎模式。①全模式:全模式可以将句子中所有可能的词语全部提取出来,该模式提取速度快,但可能会出现冗余词汇。如图,第一行出现了冗余词汇,其采用的就是全模式,而第二行采用精准模式。②精准模式:精准模式通过优化的智能算法将语句精准的分隔,适用于文本分析搜索引擎模式:搜索引擎模式在精准模式的基础上对词语进行再次划分,提高召回率,适用于搜索引擎分词。参数解析: sentence:要分割的str(unicode)。 cut_all:模型类型。True 表示全模式,False 表示精准模式。其默认为精准模式。 HMM:是否使用隐马尔可夫模型。函数功能:将包含汉字的整个句子分割成单独的单词的主要功能。如图,其是迭代器类型,可以用以下三种方式显示结果①’ ‘.join()②for循环遍历③列表推导式查看jieba模块,其定义lcut()函数如上,可以发现lcut()函数最终返回的是list(cut())结果如下 :注意:cut_all=False是精准模式,也是其默认的类型。cut_for_search(sentence, HMM=True)和lcut_for_search(sentence, HMM=True)和上面所讲的类似。其都是对搜索引擎进行更精细的细分,即采用搜索引擎模式。函数功能:在字典中添加一个单词。参数解析:freq 和 tag 可以省略,freq 默认是一个计算值,保证单词可以被切掉。结果如上,最终最好的就没有被切掉。函数功能:分词词典中删除词word不过经过笔者更改word,发现word是编程语言时,最后就分割成了编程和语言;当word是编程时,结果没变化;当word是python时,结果也没变化。因此有些需要笔者自己去尝试。函数功能:建议词频,强制将单词中的字符合并或拆分。参数解析: segment :该单词预期被切割成的片段,如果该单词应该被视为一个整体,则使用str。 tune : 如果为True,则调整词频。注意:HMM可能会影响最终结果。如果结果不变,设置HMM=False。函数功能:标记一个句子并产生 (wo免费云主机域名rd, start, end) 的元组参数解析: unicode_sentence:要分割的 str(unicode)。 模式:“default” or “search”, “search” is for finer segmentation. “默认”或“搜索”,“搜索”用于更精细的分割。 HMM: 是否使用隐马尔可夫模型。关于“python中jieba模块怎么使用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注百云主机行业资讯频道,小编每天都会为大家更新不同的知识点。

相关推荐: django中怎么使用ModleForm

这篇文章主要讲解了“django中怎么使用ModleForm”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“django中怎么使用ModleForm”吧!models.pyforms.py同目录下创建一个form…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 03/15 17:35
下一篇 03/15 17:35

相关推荐