nltk.corpus,nltkcorpusgutenbergfileids
如何使用NLTK或Python删除停用词
1.filtered_words = [w for w in word_list if not w in stopwords.words('english')]
2. 我想您有您想要删除停用词字(WORD_LIST)的列表。你可以这样做:filtered_word_list = word_list[:] #make a copy of the word_list
for word in word_list: # iterate over word_list
if word in stopwords.words('english'):
filtered_word_list.remove(word) # remove word from filtered_word_list if it is a stopword
3. 你也可以做一组差异,例如:list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))
nlp和python有什么关系?
nlp的很多工具都有python版本
nlp是研究领域,python是语言工具。
如何查看python2.7的nltk
1.安装Python(我安装的是Python2.7,目录C:\Python27)
可以到CSDN、OSChina、Sina Share等网站下载
也可以到Python官网下载:
2.安装NumPy(可选)
到这里下载:
注意Py版本
下载之后执行exe文件(程序会自动搜索python27目录)
3.安装NLTK(我下载的是nltk-2.0.3)
到这里下载:
把nltk-2.0.3解压到C:\Python27目录
打开cmd,进到C:\Python27\nltk-2.0.3目录(输入:cd C:\Python27\nltk-2.0.3)
输入命令:python setup.py install
4.安装PyYAML:
到这里下载:
注意Py版本
下载之后执行exe文件(程序会自动搜索python27目录)
5.打开IDLE,输入import nltk,没有错误的话,就说明安装成功了。
到这里,NLP所需的基本python模块都已经安装好了,然后要安装NLTK_DATA了
下载NLTK_DATA有好几种方法,这里我只介绍一种
6.继续第五步,已经import nltk了,然后输入nltk.download(),这样就可以打开一个NLTK Downloader(NLTK下载器)
7.注意下载器下边的Download Directory,我设置的是C:\nltk_data
8.在计算机-属性-高级系统设置-高级-环境变量-系统变量-新建:上边:NLTK_DATA,下边:C:\nltk_data
9.选择你要下载的包(语料库、模块),可以一次性下载(我在下载过程中总是出现out of date),也可以逐个下载(我就这么做的。。。)
10.成功安装包之后怎么测试呢?输入下边的语句就可以。
from nltk.corpus import brown
brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]