snownlp安装,snownlp安装教程

http://www.itjxue.com  2023-01-13 16:55  来源:未知  点击次数: 

如何用python做舆情时间序列可视化

如何批量处理评论信息情感分析,并且在时间轴上可视化呈现?舆情分析并不难,让我们用Python来实现它吧。

痛点

你是一家连锁火锅店的区域经理,很注重顾客对餐厅的评价。从前,你苦恼的是顾客不爱写评价。最近因为餐厅火了,分店越来越多,写评论的顾客也多了起来,于是你新的痛苦来了——评论太多了,读不过来。

从我这儿,你了解到了情感分析这个好用的自动化工具,一下子觉得见到了曙光。

你从某知名点评网站上,找到了自己一家分店的页面,让助手把上面的评论和发布时间数据弄下来。因为助手不会用爬虫,所以只能把评论从网页上一条条复制粘贴到Excel里。下班的时候,才弄下来27条。(注意这里我们使用的是真实评论数据。为了避免对被评论商家造成困扰,统一将该餐厅的名称替换为“A餐厅”。特此说明。)

好在你只是想做个试验而已,将就了吧。你用我之前介绍的中文信息情感分析工具,依次得出了每一条评论的情感数值。刚开始做出结果的时候,你很兴奋,觉得自己找到了舆情分析的终极利器。

可是美好的时光总是短暂的。很快你就发现,如果每一条评论都分别运行一次程序,用机器来做分析,还真是不如自己挨条去读省事儿。

怎么办呢?

序列

办法自然是有的。我们可以利用《贷还是不贷:如何用Python和机器学习帮你决策?》一文介绍过的数据框,一次性处理多个数据,提升效率。

但是这还不够,我们还可以把情感分析的结果在时间序列上可视化出来。这样你一眼就可以看见趋势——近一段时间里,大家是对餐厅究竟是更满意了,还是越来越不满意呢?

我们人类最擅长处理的,就是图像。因为漫长的进化史逼迫我们不断提升对图像快速准确的处理能力,否则就会被环境淘汰掉。因此才会有“一幅图胜过千言万语”的说法。

准备

首先,你需要安装Anaconda套装。详细的流程步骤请参考《 如何用Python做词云 》一文。

助手好不容易做好的Excel文件restaurant-comments.xlsx,请从这里下载。

用Excel打开,如果一切正常,请将该文件移动到咱们的工作目录demo下。

因为本例中我们需要对中文评论作分析,因此使用的软件包为SnowNLP。情感分析的基本应用方法,请参考《如何用Python做情感分析?》。

到你的系统“终端”(macOS, Linux)或者“命令提示符”(Windows)下,进入我们的工作目录demo,执行以下命令。

pip install snownlp

pip install ggplot

运行环境配置完毕。

在终端或者命令提示符下键入:

jupyter notebook

如果Jupyter Notebook正确运行,下面我们就可以开始编写代码了。

代码

我们在Jupyter Notebook中新建一个Python 2笔记本,起名为time-series。

首先我们引入数据框分析工具Pandas,简写成pd以方便调用。

import pandas as pd

接着,读入Excel数据文件:

df = pd.read_excel("restaurant-comments.xlsx")

我们看看读入内容是否完整:

df.head()

结果如下:

注意这里的时间列。如果你的Excel文件里的时间格式跟此处一样,包含了日期和时间,那么Pandas会非常智能地帮你把它识别为时间格式,接着往下做就可以了。

反之,如果你获取到的时间只精确到日期,例如"2017-04-20"这样,那么Pandas只会把它当做字符串,后面的时间序列分析无法使用字符串数据。解决办法是在这里加入以下两行代码:

from dateutil import parser

df["date"] = df.date.apply(parser.parse)

这样,你就获得了正确的时间数据了。

确认数据完整无误后,我们要进行情感分析了。先用第一行的评论内容做个小实验。

text = df.comments.iloc[0]

然后我们调用SnowNLP情感分析工具。

from snownlp import SnowNLP

s = SnowNLP(text)

显示一下SnowNLP的分析结果:

s.sentiments

结果为:

0.6331975099099649

情感分析数值可以正确计算。在此基础上,我们需要定义函数,以便批量处理所有的评论信息。

def get_sentiment_cn(text):

s = SnowNLP(text) return s.sentiments

然后,我们利用Python里面强大的apply语句,来一次性处理所有评论,并且将生成的情感数值在数据框里面单独存为一列,称为sentiment。

df["sentiment"] = df.comments.apply(get_sentiment_cn)

我们看看情感分析结果:

df.head()

新的列sentiment已经生成。我们之前介绍过,SnowNLP的结果取值范围在0到1之间,代表了情感分析结果为正面的可能性。通过观察前几条数据,我们发现点评网站上,顾客对这家分店评价总体上还是正面的,而且有的评论是非常积极的。

但是少量数据的观察,可能造成我们结论的偏颇。我们来把所有的情感分析结果数值做一下平均。使用mean()函数即可。

df.sentiment.mean()

结果为:

0.7114015318571119

结果数值超过0.7,整体上顾客对这家店的态度是正面的。

我们再来看看中位数值,使用的函数为median()。

df.sentiment.median()

结果为:

0.9563139038622388

我们发现了有趣的现象——中位数值不仅比平均值高,而且几乎接近1(完全正面)。

这就意味着,大部分的评价一边倒表示非常满意。但是存在着少部分异常点,显著拉低了平均值。

下面我们用情感的时间序列可视化功能,直观查看这些异常点出现在什么时间,以及它们的数值究竟有多低。

我们需要使用ggplot绘图工具包。这个工具包原本只在R语言中提供,让其他数据分析工具的用户羡慕得流口水。幸好,后来它很快被移植到了Python平台。

我们从ggplot中引入绘图函数,并且让Jupyter Notebook可以直接显示图像。

%pylab inlinefrom ggplot import *

这里可能会报一些警告信息。没有关系,不理会就是了。

下面我们绘制图形。这里你可以输入下面这一行语句。

ggplot(aes(x="date", y="sentiment"), data=df) + geom_point() + geom_line(color = 'blue') + scale_x_date(labels = date_format("%Y-%m-%d"))

你可以看到ggplot的绘图语法是多么简洁和人性化。只需要告诉Python自己打算用哪个数据框,从中选择哪列作为横轴,哪列作为纵轴,先画点,后连线,并且可以指定连线的颜色。然后,你需要让X轴上的日期以何种格式显示出来。所有的参数设定跟自然语言很相似,直观而且易于理解。

执行后,就可以看到结果图形了。

在图中,我们发现许多正面评价情感分析数值极端的高。同时,我们也清晰地发现了那几个数值极低的点。对应评论的情感分析数值接近于0。这几条评论,被Python判定为基本上没有正面情感了。

从时间上看,最近一段时间,几乎每隔几天就会出现一次比较严重的负面评价。

作为经理,你可能如坐针毡。希望尽快了解发生了什么事儿。你不用在数据框或者Excel文件里面一条条翻找情感数值最低的评论。Python数据框Pandas为你提供了非常好的排序功能。假设你希望找到所有评论里情感分析数值最低的那条,可以这样执行:

df.sort(['sentiment'])[:1]

结果为:

情感分析结果数值几乎就是0啊!不过这里数据框显示评论信息不完全。我们需要将评论整体打印出来。

print(df.sort(['sentiment']).iloc[0].comments)

评论完整信息如下:

这次是在情人节当天过去的,以前从来没在情人节正日子出来过,不是因为没有男朋友,而是感觉哪哪人都多,所以特意错开,这次实在是馋A餐厅了,所以赶在正日子也出来了,从下午四点多的时候我看排号就排到一百多了,我从家开车过去得堵的话一个小时,我一看提前两个小时就在网上先排着号了,差不多我们是六点半到的,到那的时候我看号码前面还有才三十多号,我想着肯定没问题了,等一会就能吃上的,没想到悲剧了,就从我们到那坐到等位区开始,大约是十分二十分一叫号,中途多次我都想走了,哈哈,哎,等到最后早上九点才吃上的,服务员感觉也没以前清闲时周到了,不过这肯定的,一人负责好几桌,今天节日这么多人,肯定是很累的,所以大多也都是我自己跑腿,没让服务员给弄太多,就虾滑让服务员下的,然后环境来说感觉卫生方面是不错,就是有些太吵了,味道还是一如既往的那个味道,不过A餐厅最人性化的就是看我们等了两个多小时,上来送了我们一张打折卡,而且当次就可以使用,这点感觉还是挺好的,不愧是A餐厅,就是比一般的要人性化,不过这次就是选错日子了,以后还是得提前预约,要不就别赶节日去,太火爆了!

通过阅读,你可以发现这位顾客确实有了一次比较糟糕的体验——等候的时间太长了,以至于使用了“悲剧”一词;另外还提及服务不够周到,以及环境吵闹等因素。正是这些词汇的出现,使得分析结果数值非常低。

好在顾客很通情达理,而且对该分店的人性化做法给予了正面的评价。

从这个例子,你可以看出,虽然情感分析可以帮你自动化处理很多内容,然而你不能完全依赖它。

自然语言的分析,不仅要看表达强烈情感的关键词,也需要考虑到表述方式和上下文等诸多因素。这些内容,是现在自然语言处理领域的研究前沿。我们期待着早日应用到科学家们的研究成果,提升情感分析的准确度。

不过,即便目前的情感分析自动化处理不能达到非常准确,却依然可以帮助你快速定位到那些可能有问题的异常点(anomalies)。从效率上,比人工处理要高出许多。

你读完这条评论,长出了一口气。总结了经验教训后,你决定将人性化的服务贯彻到底。你又想到,可以收集用户等候时长数据,用数据分析为等待就餐的顾客提供更为合理的等待时长预期。这样就可以避免顾客一直等到很晚了。

祝贺你,经理!在数据智能时代,你已经走在了正确的方向上。

下面,你该认真阅读下一条负面评论了……

讨论

除了情感分析和时间序列可视化,你觉得还可以如何挖掘中文评论信息?除了点评网站之外,你还知道哪些舆情分析的数据来源?欢迎留言分享给大家,我们一起交流讨论。

如果你对我的文章感兴趣,欢迎点赞,并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你身边有好友正在做舆情分析的研究工作,也欢迎你把这篇文章转发给他们,共同学习和提高。

python汉化和不汉化区别

image.png (208.33 KB, 下载次数: 0)

2020-11-27 11:10 上传

对于这种语言开发的程序,本人认为这就是个大杂烩。

image.png (21.15 KB, 下载次数: 0)

2020-11-27 11:12 上传

image.png (67.99 KB, 下载次数: 0)

2020-11-27 11:12 上传

image.png (53.11 KB, 下载次数: 0)

2020-11-27 11:14 上传

这些MO、PO文件是需要汉化的,但是尽管你汉化过了,但还是有些不显示中文

接下来要说的是编码问题: # -*- coding: UTF-8 -*-这个是一定最好是加的,不然汉化过的程序会导致主程序运行不起来!

[Python] 纯文本查看 复制代码_kLanguages = [

(

_('System Default'), None),

('English', 'en'),

('Chinese(ZhongWen', 'de'),

(u'Fran\xe7ais (French)', 'fr'),

(u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 (Russian)', 'ru')]

kDisplayLanguage = CTextIOValueDef('main', 'display-language', _('The language to use for the user interface. Either the default for this system, or set to a specific supported language.'), None, CValue(*[ l[1] for l in _kLanguages ]), CPopupChoiceGui(_kLanguages))

kDocumentationLanguage = CTextIOValueDef('main', 'documentation-language', _('The language to use for the documentation, when available (not all documentation is translated into all supported languages).'), 'en', CValue(*[ l[1] for l in _kLanguages ]), CPopupChoiceGui(_kLanguages))

kAutoReopenLastProject = CTextIOValueDef('main', 'auto-reopen-last-project', _('Controls whether most recent project is reopened at startup, in the absence of any other project on the command line.'), 1, CBoolean(), CBooleanGui())

from guiutils import scintilla

上面的这些行来说

u'是一定得加上的,不然给你打脸,其他文件中,

出现这类的行打头也得加,不然汉化就完蛋

System Default能不能,把后面的空(NONE)改成别的呢? 建议别来试,不行的。

可以修改English行,en为语言文件夹(可以把汉化的文件替换进去),这样打开就是中文的了。

image.png (71.97 KB, 下载次数: 0)

2020-11-27 11:20 上传

经过“改!改!改“,一大通折腾,你们终于变成中文的了。费劲,好费劲呐。

PYO要转换成PY文件,汉化完之后,再转换回来

在线utf-8转换:在线反编译pyo:(也可以使用上面提到的命令行工具;两种方法都是可以的)

注意输出的版本号信息(反编译在线 或 使用相关的命令行工具等),这个很重要,不然就会有以上问题

C:\Python27\python.exe -O -m py_compile C:\U\prefs2.py

搜索字符串时要注意 _字母 ,相当于首字母大写,注意利用ALT键,不然会搜索不到的。

文章知识点与官方知识档案匹配

Python入门技能树首页概览

189142 人正在系统学习中

点击阅读全文

打开CSDN,阅读体验更佳

Python(PyCharm)的下载安装汉化(2022)

一、下载 首先我们需要下载最新版的python和pycharm,也就是两个包,进入官网 接下来点击下载最新版的python 接下来,我们继续下载另一个包,python编辑器——pycharm,进入官网 完成上面步骤之后就会有两个软件包,下载部分就结束了 二、安装 双击python-3.10.4-amd64,记得...

继续访问

最新发布 Python的准备工作——安装、配置、第一个项目、汉化(可不做)

安装python、pycharm

继续访问

python汉化之后好用吗_wingware python ide非常好用,就是不知该如何去汉化(已解决...

C:\Program Files (x86)\Wing IDE 6.1\resources\PO├文件夹1:[de]│├(1)build-files.po│├(2)scripts_debugger_extensions.po│├(3)scripts_django.po│├(4)scripts_editor_extensions.po│├(5)scripts_emacs_exte...

继续访问

IO中编码方式的详解

为什么存在字节流和字符流? String s = "中国"; byte[] bytes = s.getBytes(); System.out.println(Arrays.toString(bytes)); //[-28, -72, -83, -27, -101, -67] byte[] bytes1 = s.getBytes("GBK"); System.out.println(Arrays.toString(

继续访问

python缺点不容易反编译_关于Python写的程序汉化心得和所走过的各种坑儿

本文以wing ide for python 8.0来说对于这种语言开发的程序,本人认为这就是个大杂烩。这些MO、PO文件是需要汉化的,但是尽管你汉化过了,但还是有些不显示中文接下来要说的是编码问题: # -*- coding: UTF-8 -*-这个是一定最好是加的,不然汉化过的程序会导致主程序运行不起来![Python] 纯文本查看 复制代码_kLanguages = [ ( _('Syst...

继续访问

python汉化之后好用吗_买了《Python学习手册(中文第4版)》后悔了

以下是我在joyo上的书评一颗星是看在原书的面子上给的,要不真想直接给0分。可以说,这本书是我买书以来,让我最不爽的一本。今天刚拿到书后翻了一下目录,看到第八部分的时候,赫然看到旁边有一个注解:第八部分请到华章网站下载。紧接着第九部分依旧如是标注。于是我再到华章的网站上下了所谓的“增值服务”,期间还有注册环节,搜集无数多的个人信息。整个被电子化的部分共计239页,而实体书部分的最后一页编号为889...

继续访问

Python官方中文文档上线了,不用再苦寻民间汉化组了

终于,Python有官方中文文档了。 从今往后,不论是版本新变化,入门教程,语法讲解,Python模块安装指南……各种各样的手册,都可以直接看中文了。 你看,比起英文原版,中文的语气好像更加鸡冻一些: 春天来了,再也不用苦等野生汉化组了。 就算你没有更新到3.7,也不要紧。3.6还是有中文文档,3.5也有,连2.7都找得到: 入门教程,无微不至 如果你是一只萌新,恭喜你赶上了最好的年华。 这...

继续访问

Python编码方式以及改变方法

在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下: # code: UTF-8 因为python 只检查 #、coding 和编码字符串,所以你可能回见到下面的声明方式,这是有些人为了美观等原因才这样写的: #-*- coding: UTF-8 -*- 常见编码介绍: GB2

继续访问

关于python的开发软件pycharm设置中文(无需汉化包)

之前也是自己想着学python,在网上看了很多资料,然后选择了pycharm这个开发软件,软件就是很简单,自己可以去他的官网上面下载,但是一定要选择好对应的安装包,自己是Windows电脑就选择wing

继续访问

pycharm搭建python环境

原文连接 一.python环境的搭建 1.下载python(这里以python3.6为例) step 1:打开下载网址: step 2:我这里选着python3的版本 step 3:选择python的可执行文件安装包 ...

继续访问

python汉化之后好用吗_关于Python中输出中文的一点疑问

#encoding=gb2312import urllibimport redef getHtml(url):page = urllib.urlopen(url)html = page.read()return htmldef getImg(html):reg = r'(.*)'imgre = re.compile(reg)imglist = re.findall(imgre, html)retu...

继续访问

python中文版好用吗_有哪些好的python用的中文自然语言包推荐?

这里介绍2个python中文处理的包,分别是jieba和snownlp,这2个包处理起来中文都挺简单的,下面我简单介绍一下这2个包的安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:jieba分词:这个中文处理包比较常用,大部分都应该听说过,可以实现分词、标注词性、提取关键词等大部分功能,使用起来挺简单的,下面我简单介绍一下这个包:1.下载安装jieba,这里...

继续访问

pycharm 汉化

对于英文不好的同学使用pycharm比较困扰,因此汉化的中文版界面使用起来会方便很多。 下面介绍的汉化的方法希望大家能用上: 1,打开本地pycharm安装路径,找到lib文件夹并删除它(英文版的语言包) 2,把下载好的中文语言包拷贝到lib文件夹下,重新打开pycharm,就可以看到熟悉的中文界面了。

继续访问

如何让python输出中文

昨天一整天都在和中文和编码做斗争,最终我还是有一点小小的收获的。今天我来说说如何让python输出中文。在上一篇里说过,terminal是utf8亲生的,所以不能显示gbk,让人甚是郁闷,不过只要把python中的字符编码变换为utf8,那不就大功告成了嘛。 a='昨天' print a 这样会报错SyntaxError: Non-ASCII character '\xe6' in file

继续访问

Python基本常识(包含pycharm2019.2.3汉化以及专业版安装方法)-*- Python基础知识01 -*-

Python要点 Python要点中部分引用于 菜鸟教程-Python Python 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 Python 是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言...

继续访问

热门推荐 彻底搞懂 python 中文乱码问题

前言 曾几何时 Python 中文乱码的问题困扰了我很多很多年,每次出现中文乱码都要去网上搜索答案,虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼,究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使用中文,注释和提示都用英文,我曾经也这样干过,但这并不是解决问题,而是逃避问题,今天我们一起彻底解决 Python 中文乱码的问题。 基础知识 ASC...

继续访问

python软件介绍-Python3.8.2 软件介绍(附安装包)

【软件名称】Python3.8.2【文件大小】51 MB【语言支持】简体中文【系统类型】?64位【兼容系统】?Win7/Win8/Win10【下载链接】 pan.baidu.com/s/1wb63L8LO-mHkZbu-6rF7Eg【提取密码】?1hdd【下载方法】 复制上方蓝字链接到浏览器打开【安装教程】?安装包内获取软件简介:python是一款功能强大的可视化编程工具。这款软件拥有hex、py...

继续访问

如何汉化并编译 Python 源代码

如何汉化并编译 Python 源代码前言参考文章我的工具关键字汉化其他源代码汉化Linux 下编译Windows 下编译汉化效果演示 前言 笔者是一名业余编程爱好者,年初偶然混进中文编程OO群。因觉得中文编程乃大势所趋,遂入了 Python 汉化(我称之为“草蟒”项目)的坑。笔者孤陋寡闻,刚开始汉化的时候只知道 GCC 且 GCC 不支持中文,所以没有选择汉化源代码的方式,而是采用替换式表层汉化方...

继续访问

不属于python语言特点支持中文_python语言支持中文吗

python的中文问题一直是困扰新手的头疼问题,Python的发行版至今尚未包括任何中文支持模块。那么python语言支持中文吗?遇到中文问题怎么办?1. print打印中文的问题:在编辑器中输入一段测试代码:s=’测试’print s运行结果如下:Non-ASCII character '\xb2' in file c:\Documents and Settings\Administrator\...

继续访问

pycharm汉化教程-超简单的python开发教程

在搜索栏 Markettplace搜索 chinese 如下图,点击安装汉化包下载,下载好了点击运行,软件会自动重启。汉化完成。

snownlp和nltk什么关系

没什么关系吧。 SnowNLP的开发者在GitHub描述中提到是受TextBlobd的启发才写的SnowNLP,而这两个类库的最大区别就是SnowNLP具体实现的时候没有用nltk,主要针对中文文本处理。

SnowNLP:一个强大的python中文文本处理库

笔者由于最近做一个监控应用评论内容的项目,为满足需求,需要对抓取下来的应用评论做中文语义识别,结果搜出来的大部分都是仅限英文语义识别的库,搜好久才找到这个国人开发的中文文本处理库(包含语义识别功能),特此介绍给大家。

跟其他python类库一样,使用pip安装就行了

用的时候,有时候可能会觉得有些语句分析出来的结果会不太准确,这时候你就需要更新语料库,再进行训练,这样下次分析出来的结果就更加准确了。下面介绍一下如何进行训练

首先准备两份语料文本,neg.txt(负面语料文本) pos.txt(积极语料文本)

再次把生成好的sentiment.marshal放入类库的/sentiment 就可以了

试用效果如下,分析各渠道应用市场评论内容的情感:

目前笔者也仅仅试用了情感分析的功能而已,其他功能欢迎读者自行试用,总之就是相当强大

部分常用分词工具使用整理

以下分词工具均能在Python环境中直接调用(排名不分先后)。

1、jieba(结巴分词) 免费使用

2、HanLP(汉语言处理包) 免费使用

3、SnowNLP(中文的类库) 免费使用

4、FoolNLTK(中文处理工具包) 免费使用

5、Jiagu(甲骨NLP) 免费使用

6、pyltp(哈工大语言云) 商用需要付费

7、THULAC(清华中文词法分析工具包) 商用需要付费

8、NLPIR(汉语分词系统) 付费使用

1、jieba(结巴分词)

“结巴”中文分词:做最好的 Python 中文分词组件。

项目Github地址:jieba

安装 :

pip install jieba

使用 :

import jieba

jieba.initialize()

text = '化妆和服装'

words = jieba.cut(text)

words = list(words)

print(words)

2、HanLP(汉语言处理包)

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

项目Github地址:pyhanlp

安装:

pip install pyhanlp

使用 :

import pyhanlp

text = '化妆和服装'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP(中文的类库)

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

项目Github地址:snownlp

安装:

pip install snownlp

使用:

import snownlp

text = '化妆和服装'

words = snownlp.SnowNLP(text).words

print(words)

4、FoolNLTK(中文处理工具包)

可能不是最快的开源中文分词,但很可能是最准的开源中文分词。

项目Github地址:FoolNLTK

安装:

pip install foolnltk

使用:

import fool

text = '化妆和服装'

words = fool.cut(text)

print(words)

5、Jiagu(甲骨NLP)

基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。

项目Github地址:jiagu

安装:

pip3 install jiagu

使用:

import jiagu

jiagu.init()

text = '化妆和服装'

words = jiagu.seg(text)

print(words)

6、pyltp(哈工大语言云)

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

项目Github地址:pyltp,3.4模型下载链接:网盘

安装:

pip install pyltp

使用:

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径

text = '化妆和服装'

words = segmentor.segment(text)

words = list(words)

print(words)

7、THULAC(清华中文词法分析工具包)

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与 社会 人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

项目Github地址:THULAC-Python

安装:

pip install thulac

使用:

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妆和服装'

words = thu.cut(text, text=True).split()

print(words)

NLPIR(汉语分词系统)

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

项目Github地址:pynlpir

安装:

pip install pynlpir

下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data

使用 :

import pynlpir

pynlpir.open()

text = '化妆和服装'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

(责任编辑:IT教学网)

更多

推荐网页背景文章