正则生成工具有哪些(正则在线生成工具)

http://www.itjxue.com  2023-01-26 12:53  来源:未知  点击次数: 

学术论文写作——Corpus

????????语料库分析可分为在线查询和离线工具,off-line Corpus Analysis tools有AntConc和CORPUS,on-line 有美国当代英语语料库COCA: 。工具使用得当往往会达到事半功倍的效果,因此接下来对这两款工具的使用分别进行介绍记录。

????????PatternBuilder是一款专门用于辅助编写正则表达式以方便词性赋码语料库检索的工具,可以很方便地编写复杂的正则表达式。

????????PatternBuilder是自动生成正则表达式的工具,帮助用户从词性符码语料库中提取各种语言特征。该工具可以生成简单的表达式如方位名词(\S+_NNL2\s)或较复杂的结构的表达式如被动语态(\S+ VB\w*\s(\S+ [RX]\w+\s) \S+_V\wN\s),用户可以测试并保存自己编写的表达式。具体用法可见 梁茂成词性赋码语料库的检索与正则表达式的编写pdf 。

????????用法示例如下图:

(1)显示赋码首字母,如名词以N开头、动词以V开头。

(2)包含特定赋码首字母的各种语言特征。

(3)用户自定义的各种语言特征,如被动语态等。

(4)显示所选语言特征的正则表达式,用户也可在此编辑表达式。

(5)按正则表达式检索语料库后的索引行,用以验证表达式的正误。

????????同时,为了尽可能做到少有遗漏,我们在得到基本的表达式后常常需要进行更细致的分析和推敲。我们可以利用 PatternBuilder 的【Get (Pattern) 】按钮,在表达式中使用一个可选的(optional)组块。

1、索引工具

????????单击File菜单,选择Open File(s).. 或Open Di..加载一个或多个要分析的文件,加载出来的文件会在主窗户的左边“Corpus Files”框里显示出来。

????????在下方Search Term下的输入框里输入搜索词,单击“start”。以“work”为例,可以看到三个语料库中检索到了973条结果。这种结果是以KWIC(Key Word in Context)模式显示的。如果需要调整检索词两边显示的字符数,可以使用"Search Window Size"进行调整(调整完成后单击start重新检索)。

????????除了检索整个词外,还可以用通配符进行高级检索。除了检索整个词外,还可以用通配符进行高级检索。

????????我们还可以对检索的结果进行排序。使用Kwic Sort下的Level对检索结果排序,0是指该检索词,1L指检索词左边第一个词。2R指检索词右边第二个词。Level共有三级,可根据需要进行勾选。设置完成后单击“Sort”即可进行分类排序。

2、索引检索及定位

????????单击“Advanced”,勾选“Use search term(s) from list below”。就检索下面框内的单词。可以手动输入多个单词,也可以直接加载一个txt词表用来检索。注意每个单词独立成行。设置完成后单击“Apply”。

????????而高级设置中的“Use Context Words and Horizons”是指检索上下文词和该词出现的范围。例如,在Context Words中输入“with”,单击add添加,之后将该词出现的范围设置成“From 3L to 3R”。就可以看到work从左边数3个词到右边数3个词出现with的所有句子。

3、词丛 Clusters/N-Grams

????????通过Clusters这一功能,可以把检索词及其临近的词生成一个列表,并且可以根据自身的需求进行排序分析。

????????N元是什么呢?简单来说,N元指单词的N 元。比如,“This is a pen.”这句话中二元是”this is”, “is a”和”a pen”。三元则是”this is a”和”is a pen”。因此,一个大的文件将会产生大量的N 元。N-Grams与Clusters功能操作起来很像。

4、搭配 Collocates

????????搭配功能,简单来说,可以生成检索词的有序的单词列表,用来查看搭配词与检索词相关性。

????????由于搭配功能需在生成词单的基础上才可使用,因此会自动弹出生成词单的对话框,我们单击确定即可。

5、词单 Word List

????????打开AntConc,加载语料库文件后,单击“Word List”选项卡,之后单击“Start”,即可生成词单。 在界面上方可以看到形符和类符的数量。所有的单词默认按照词频来排序,包含序号(Rank)、词频(Freq)、单词(Word)的统计信息。

????????界面中有一列是Lemma Word Form(词型)。该功能的启用要加载词元列表(Lemma List)。在菜单栏“Tool Preferences”中的“Word List”中,可以在“Lemma List”中加载词元列表。

????????在菜单栏“Tool Preferences”中的“Word List”中,可以对检索单词进行过滤。例如,输入“that”和“this”,选择“Use specific words below”,在词单页面仅能查看“that”和“this”的相关结果。若选中“Use a stoplist below”,则会在词单中排除“that”和“this”的相关结果。选择“Use all words”不会对结果产生变化。

6、实际例子

1)What is the word most frequently used at the immediate left/right of 'classification'?

COCA

Antconc

参考链接

1、

2、国科大学术论文写作

js 正则验证不能含有中文与特殊字符

varmyReg = /^[a-zA-Z0-9_]{0,}$/;

if(!myReg.test(input.val())) {

??$.validation.tip(false, input, "用户名不能含有中文或特殊字符");

??return;

}

js通过正则表达式限制input输入框只能输入英文字母和数字,不能输入中文。

input onkeyup="value=value.replace(/[^\w\.\/]/ig,'')"

文本框中仅允许输入英文字母,小数点,数字,禁止输入中文字符以及其他特殊字符!

input?type="text"?name="username"?onkeyup="value=value.replace(/[^\w\.\/]/ig,'')"?/

输入大于0的正整数

input onkeyup="if(this.value.length==1){this.value=this.value.replace(/[^1-9]/g,'')}else{this.value=this.value.replace(/\D/g,'')}" onafterpaste="if(this.value.length==1){this.value=this.value.replace(/[^1-9]/g,'')}else{this.value=this.value.replace(/\D/g,'')}"

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:

正则表达式在线生成工具:

var temp = 'abcdefg Fw:123456 Fw:789.1011';

temp =temp.indexOf(‘.’); //匹配某个字符位置

alert(temp);??var temp = 'dsd-5555'

temp =temp.replace('-',''); //匹配某个字符必替换

alert(temp);

八爪鱼如何将正文分行抓取

八爪鱼是可以进行分段提取的,有两种情况,具体设置步骤如下:

一、第一种情况:页面中的文章内容是有格式的,字段是在不同的标签里的(如下图);

即采集的时候鼠标移动到页面的内容上时,是可以进行单独的抓取,类似这种的我们就可以按照需求,进行文章内容的抓取了;

二、第二种情况是文章的内容是包含在一个标签里面的(如下图):

遇到这类型的网页内容采集,我们可以先把整个文章的HTML抓取下来;

再使用提取数据步骤里的格式化数据里面的正则工具将你要的文章内容提取出来。

1.第一步将整个文章的HTML抓取下来;

2.点击红色方框的按钮,进入数据格式化处理的页面;

3.选择格式化数据;

4.点击添加步骤,再选择“正则表达式匹配”进行数据的格式化处理

5.点击红色方框,使用八爪鱼自带的正则工具

6.这里我将文章的标题从HTML提取出来

(1)将html中标题内容前后的标签,分别复制到右边的开始和结束中;

(2)勾选开始和结束;

(3)点击生成,工具会生成一个正则表达式;

(4)点击匹配,在左边的匹配结果,就会显示出现文章的标题了;

(5)点击应用

7.点击确认

8.再次点击确定

9.标题通过正则工具给从HTML中分离出来了。

相同的方法,我们就重复上面的操作就可以将文章中需要的内容给分段提取出来。

一般网页都是第一种情况居多,都是有分段的,字段都可以进行单独的提取。

希望可以帮到你,有什么不明白的可以继续提问。

python之re提取字符串括号内的内容

输出:

解释一下:

1.正则匹配串前加了r就是为了使得里面的特殊符号不用写反斜杠了。

2.[ ]具有去特殊符号的作用,也就是说[(]里的(只是平凡的括号

3.正则匹配串里的()是为了提取整个正则串中符合括号里的正则的内容

输出:

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:

正则表达式在线生成工具:

更多关于Python相关内容可查看本站专题:《 Python正则表达式用法总结 》、《 Python数据结构与算法教程 》、《 Python函数使用技巧总结 》、《 Python字符串操作技巧汇总 》、《 Python入门与进阶经典教程 》及《 Python文件与目录操作技巧汇总 》

参考:

jQuery实现手机号正则验证输入及自动填充空格功能

本文实例讲述了jQuery实现手机号正则验证输入及自动填充空格功能。分享给大家供大家参考,具体如下:

先来看看运行效果(在删除时连删即可):

具体代码:

!DOCTYPE

html

html

lang="en"

head

meta

charset="UTF-8"

titleDocument/title

/head

body

input

type="text"

id="inp"

script

src="jquery-1.12.3.min.js"/script

script

$(function(){

$("#inp").keyup(function(){

/*

手机号验证时:

var

pattern

=

/^1[3|4|5|7|8]\d{1}\s\d{4}\s\d{4}$/;

pattern.test(str);

*/

_self

=

$(this);

if(_self.val().length

==

3

||

_self.val().length

==

8){

var

str

=

_self.val()+"

";

_self.val(str);

}

});

});

/script

/body

/html

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:

正则表达式在线生成工具:

更多关于jQuery相关内容可查看本站专题:《jQuery正则表达式用法总结》、《jQuery字符串操作技巧总结》、《jQuery操作xml技巧总结》、《jQuery扩展技巧总结》、《jquery选择器用法总结》及《jQuery常用插件及用法总结》

希望本文所述对大家jQuery程序设计有所帮助。

jQuery插件form-validation-engine正则表达式操作示例

本文实例讲述了jQuery插件form-validation-engine正则表达式操作。分享给大家供大家参考,具体如下:

form-validation-engine是一个不错的表单验证插件,示例如下:

(function($)

{

$.fn.validationEngineLanguage

=

function()

{};

$.validationEngineLanguage

=

{

newLang:

function()

{

$.validationEngineLanguage.allRules

=

{"required":{

//

Add

your

regex

rules

here,

you

can

take

telephone

as

an

example

"regex":"none",

"alertText":"*

必选字段",

"alertTextCheckboxMultiple":"*

请选择选项",

"alertTextCheckboxe":"*

需要这个复选框"},

"length":{

"regex":"none",

"alertText":"*在

",

"alertText2":"

",

"alertText3":

"

之间"},

"maxCheckbox":{

"regex":"none",

"alertText":"*

检查允许超过"},

"minCheckbox":{

"regex":"none",

"alertText":"*

请选择

",

"alertText2":"

选项"},

"confirm":{

"regex":"none",

"alertText":"*

你的字段不匹配"},

"telephone":{

"regex":"/^[0-9\-\(\)\

]+$/",

"alertText":"*

无效的号码"},

"email":{

"regex":"/^[a-zA-Z0-9_\.\-]+\@([a-zA-Z0-9\-]+\.)+[a-zA-Z0-9]{2,4}$/",

"alertText":"*

无效的邮箱"},

"date":{

"regex":"/^[0-9]{4}\-\[0-9]{1,2}\-\[0-9]{1,2}$/",

"alertText":"*

无效的日期,必须是YYYY-MM-DD的格式"},

"onlyNumber":{

"regex":"/^[0-9\

]+$/",

"alertText":"*

只允许输入数字"},

"noSpecialCaracters":{

"regex":"/^[0-9a-zA-Z]+$/",

"alertText":"*

有非法字符"},

"ajaxUser":{

"file":"validateUser.php",

"extraData":"name=eric",

"alertTextOk":"*

这个用户是合法的",

"alertTextLoad":"*

加载中,请等待",

"alertText":"*

这个用户已经存在"},

"ajaxName":{

"file":"validateUser.php",

"alertText":"*

这个名字已经被使用",

"alertTextOk":"*

这个名字是可以的",

"alertTextLoad":"*

加载中,请等待"},

"onlyLetter":{

"regex":"/^[a-zA-Z\

\']+$/",

"alertText":"*

只允许输入字母"},

"validate2fields":{

"nname":"validate2fields",

"alertText":"*

你必须有姓和名"}

}

}

}

})(jQuery);

$(document).ready(function()

{

$.validationEngineLanguage.newLang()

});

这里面有不少正则表达式,很有意思。

很有意思的form表单验证。

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:

正则表达式在线生成工具:

更多关于jQuery相关内容可查看本站专题:《jQuery正则表达式用法总结》、《jQuery字符串操作技巧总结》、《jQuery操作xml技巧总结》、《jQuery扩展技巧总结》、《jquery选择器用法总结》及《jQuery常用插件及用法总结》

希望本文所述对大家jQuery程序设计有所帮助。

(责任编辑:IT教学网)

更多

推荐新书快递文章