当前位置： > 平面设计 > Illustrator教程 > 文章内容

python英文分词题(python 英语分词)

http://www.itjxue.com 2023-04-12 22:02 来源:未知 点击次数:

如何用python和jieba分词，统计词频？

?#!?python3

#?-*-?coding:?utf-8?-*-

import?os,?codecs

import?jieba

from?collections?import?Counter

def?get_words(txt):

????seg_list?=?jieba.cut(txt)

????c?=?Counter()

????铅衫让for?x?in?seg_list:

????????if?len(x)1?and?x?!=?'塌镇\r\n':

????????????c[x]?+=?1

????print('常用词频度统计结果')

????for?(k,v)?in?c.most_common(100):

?槐局???????print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))

if?__name__?==?'__main__':

????with?codecs.open('19d.txt',?'r',?'utf8')?as?f:

????????txt?=?f.read()

????get_words(txt)

用Python实现英文文章难度评级

By Jiaxian Shi

英文文章的难度从直觉上来讲可以从以下两方面来定义：

句子的难易程度可以从句子的长度和复杂性（从句数量，嵌套）方面来考虑。词汇的难易程度可以从词汇的长度和使用频率（专业词汇，罕见词汇）方面来考虑。通过查阅维基百科等相关资料，发现目前普遍得到运用的可读性标准为Flesch–Kincaid可读性测试消码祥指标。Flesch–Kincaid可读性测试指标由两个指标构成：Flesch Reading Ease（FRE）和Flesch–Kincaid Grade Level（FKGL）。与我们的直觉一致，两者都使用了类似的方法：句子长度和词汇长度（由音节数确定，不单纯考虑字母数）。由于两个指标对句子长度和词汇长度所采取的权重不同（包括正负号），所以两个指标的意义相反：FRE数值越高，文章就越简单，可读性也越高。而FKGL数值越高，文章就越复杂，文章的可读性也就越低。

使用Python强大的自然语言处理（NLP）包NLTK，来实现下述3个功能：

其中，断句使用NLTK提供的非监督学习的预训练模型tokenizers/punkt/english.pickle，分词则使用NLTK推荐的word_tokenize函数（使用TreebankWordTokenizer和PunktSentenceTokenizer模块），分音节则使用NLTK供的SyllableTokenizer模块。需要注意的是，分词会将标点符号分为一个单词，需要手动去除。同时，分音节时会讲英语中的连字符“-”分为一个音拿搏节，也需要手动去除。另外，文章需要进行预处理，去除回车符和空格，并将非标准标点符号转换为英文标准标点符号。

统计出句数，词数和音节数后，即可根据上文提供的公式计算出FRE和FKGL了。本程序使用4段不同类型的英文文章分别计算FRG和FKGL，并使用matplotlib模块绘制出柱状图已做比较。

文章：模行

比较结果如下图所示：

可以发现，文章的难度为：儿童文学侦探小说杂志文章学术论文，这与我们的实际感受是一致的。

求问用python实现：编写程序,计算用户输入的英文句子中的词语数量,以及

这个你需要去网上找一个python版本的英文的分词包，做句尘简子的分词，当然最简单的你可以按空格对英文进行分词。。用text.split(" ")来局培分。然后统计每个词派腊裤的长度并求平均值

cc = raw_input('input a string:')

sen_list = cc.split(" ")

count = len(sen_list)

sum = 0

for word in sen_list:

if word:

sum += len(word)

avg = sum*1.0/count

print avg

python英文分词题(python 英语分词)

python 英文分词获取词组有什么解决方案吗

卡羡橘方检验你的数据应该用交叉列联表做，数据录入格式为巧首：建立两个变量，变量1是组兄宽团别，正常对照组用数据1表示，病例组用数据2表示；变量2是疗效等分类变量，用1表示分类属性1，用2表示分类属性

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：零基础想学油画从哪里入手(想学油画,零基础一般要学多久?)

下一篇：零基础小白怎么学画画(零基础怎样学画)

python英文分词题(python 英语分词)

如何用python和jieba分词，统计词频？

用Python实现英文文章难度评级

求问用python实现：编写程序,计算用户输入的英文句子中的词语数量,以及

python 英文分词获取词组有什么解决方案吗

(责任编辑：IT教学网)

相关Illustrator教程文章

阅读排行

专题教程

推荐Illustrator教程文章

最新更新Illustrator教程