python英文分词题(python 英语分词)
如何用python和jieba分词,统计词频?
?#!?python3
#?-*-?coding:?utf-8?-*-
import?os,?codecs
import?jieba
from?collections?import?Counter
?
def?get_words(txt):
????seg_list?=?jieba.cut(txt)
????c?=?Counter()
????铅衫让for?x?in?seg_list:
????????if?len(x)1?and?x?!=?'塌镇\r\n':
????????????c[x]?+=?1
????print('常用词频度统计结果')
????for?(k,v)?in?c.most_common(100):
?槐局???????print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))
?
if?__name__?==?'__main__':
????with?codecs.open('19d.txt',?'r',?'utf8')?as?f:
????????txt?=?f.read()
????get_words(txt)
用Python实现英文文章难度评级
By Jiaxian Shi
英文文章的难度从直觉上来讲可以从以下两方面来定义:
句子的难易程度可以从句子的长度和复杂性(从句数量,嵌套)方面来考虑。词汇的难易程度可以从词汇的长度和使用频率(专业词汇,罕见词汇)方面来考虑。通过查阅维基百科等相关资料,发现目前普遍得到运用的可读性标准为Flesch–Kincaid可读性测试消码祥指标。Flesch–Kincaid可读性测试指标由两个指标构成:Flesch Reading Ease(FRE)和Flesch–Kincaid Grade Level(FKGL)。与我们的直觉一致,两者都使用了类似的方法:句子长度和词汇长度(由音节数确定,不单纯考虑字母数)。由于两个指标对句子长度和词汇长度所采取的权重不同(包括正负号),所以两个指标的意义相反:FRE数值越高,文章就越简单,可读性也越高。而FKGL数值越高,文章就越复杂,文章的可读性也就越低。
使用Python强大的自然语言处理(NLP)包NLTK,来实现下述3个功能:
其中,断句使用NLTK提供的非监督学习的预训练模型tokenizers/punkt/english.pickle,分词则使用NLTK推荐的word_tokenize函数(使用TreebankWordTokenizer和PunktSentenceTokenizer模块),分音节则使用NLTK供的SyllableTokenizer模块。需要注意的是,分词会将标点符号分为一个单词,需要手动去除。同时,分音节时会讲英语中的连字符“-”分为一个音拿搏节,也需要手动去除。另外,文章需要进行预处理,去除回车符和空格,并将非标准标点符号转换为英文标准标点符号。
统计出句数,词数和音节数后,即可根据上文提供的公式计算出FRE和FKGL了。本程序使用4段不同类型的英文文章分别计算FRG和FKGL,并使用matplotlib模块绘制出柱状图已做比较。
文章:模行
比较结果如下图所示:
可以发现,文章的难度为:儿童文学侦探小说杂志文章学术论文,这与我们的实际感受是一致的。
求问用python实现:编写程序,计算用户输入的英文句子中的词语数量,以及
这个你需要去网上找一个python版本的英文的分词包,做句尘简子的分词,当然最简单的你可以按空格对英文进行分词。。用text.split(" ")来局培分。然后统计每个词派腊裤的长度并求平均值
cc = raw_input('input a string:')
sen_list = cc.split(" ")
count = len(sen_list)
sum = 0
for word in sen_list:
if word:
sum += len(word)
avg = sum*1.0/count
print avg
python 英文分词获取词组有什么解决方案吗
卡羡橘方检验 你的数据应该用交叉列联表做,数据录入格式为巧首:建立两个变量,变量1是组兄宽团别, 正常对照组用数据1表示,病例组用数据2表示;变量2是疗效等分类变量,用1表示分类属性1,用2表示分类属性