nltk.corpus,nltkcorpusgutenbergfileids

http://www.itjxue.com  2023-01-23 18:27  来源:未知  点击次数: 

如何使用NLTK或Python删除停用词

1.filtered_words = [w for w in word_list if not w in stopwords.words('english')]

2. 我想您有您想要删除停用词字(WORD_LIST)的列表。你可以这样做:filtered_word_list = word_list[:] #make a copy of the word_list

for word in word_list: # iterate over word_list

if word in stopwords.words('english'):

filtered_word_list.remove(word) # remove word from filtered_word_list if it is a stopword

3. 你也可以做一组差异,例如:list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))

nlp和python有什么关系?

nlp的很多工具都有python版本

nlp是研究领域,python是语言工具。

如何查看python2.7的nltk

1.安装Python(我安装的是Python2.7,目录C:\Python27)

可以到CSDN、OSChina、Sina Share等网站下载

也可以到Python官网下载:

2.安装NumPy(可选)

到这里下载:

注意Py版本

下载之后执行exe文件(程序会自动搜索python27目录)

3.安装NLTK(我下载的是nltk-2.0.3)

到这里下载:

把nltk-2.0.3解压到C:\Python27目录

打开cmd,进到C:\Python27\nltk-2.0.3目录(输入:cd C:\Python27\nltk-2.0.3)

输入命令:python setup.py install

4.安装PyYAML:

到这里下载:

注意Py版本

下载之后执行exe文件(程序会自动搜索python27目录)

5.打开IDLE,输入import nltk,没有错误的话,就说明安装成功了。

到这里,NLP所需的基本python模块都已经安装好了,然后要安装NLTK_DATA了

下载NLTK_DATA有好几种方法,这里我只介绍一种

6.继续第五步,已经import nltk了,然后输入nltk.download(),这样就可以打开一个NLTK Downloader(NLTK下载器)

7.注意下载器下边的Download Directory,我设置的是C:\nltk_data

8.在计算机-属性-高级系统设置-高级-环境变量-系统变量-新建:上边:NLTK_DATA,下边:C:\nltk_data

9.选择你要下载的包(语料库、模块),可以一次性下载(我在下载过程中总是出现out of date),也可以逐个下载(我就这么做的。。。)

10.成功安装包之后怎么测试呢?输入下边的语句就可以。

from nltk.corpus import brown

brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

(责任编辑:IT教学网)

更多

相关管理维护文章

推荐管理维护文章