当前位置： > 网络编程 > PHP教程 > 文章内容

PHP扩展curl和正则表达式轻松采集新闻

http://www.itjxue.com 2015-07-17 08:18 来源:未知 点击次数:

采集已经不是什么新名词了，很多站长为了省事，也局限于人力的缺乏，使用程序来给自己的网站添砖加瓦，比如本人的个人网站www.xxfsw.com也采集了大量的新闻，那么如果实现呢？今天我们运用php来实现这个功能。

谈到采集，我们不得不说两个东西，第一个是如何获取远程网站的源代码，这个可以通过php的一个扩展curl来获取，另一个是如果去匹配你需要的信息，这个的解决办法是正则表达式。

Windows下开启curl的方法如下：

1、拷贝PHP目录中的libeay32.dll， ssleay32.dll， php5ts.dll， php_curl.dll文件到 system32 目录。

2、修改php.ini：配置好 extension_dir ，去掉 extension = php_curl.dll 前面的分号。

3、重起apache。

Linux下开启curl的方法如下：

进入安装原php 的源码目录，

cd ext
cd curl
phpize
./configure --with-curl =DIR
make

就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。

复制curl .so文件到extensions的配置目录，修改php .ini就好了。

然后你就可以利用curl来获取到指定url的网页源码了，这里给大家一个封装好的函数：

接下来就应该说到php中的正则表达式了：

1.中括号

［0-9］匹配0-9

［a-z］匹配a-z小写字母

［A-Z］匹配A-Z大写字母

［a-zA-Z］匹配所有大小写字母

可以使用ascii来制定更多

2.量词

3.预定义字符范围

废话不多说，直接上我的源码吧，有什么不懂的可以上百度查查。

然后如何实现比较实时的同步呢，这可以利用windows下的任务计划或linux下的crontab 了，定时（比如十分钟）执行这个程序，这样，你就不再愁网站没有内容了，哈哈，另外本人开了个工作室www.beijingjianzhan.com（北京建站），我们开发了一个系统，不仅能够采集信息，而且能自动地进行再加工，进行伪原创，这样就更符合搜索引擎的品味了，让你的网站疯狂地被收录吧，另外可以加我的Q376504340讨论技术性话题。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：PHP教程：isset() , unnset(), empty()

下一篇：PHP教程:PHP编程中的变量生存周期

PHP扩展curl和正则表达式轻松采集新闻

(责任编辑：IT教学网)

相关PHP教程文章

阅读排行

专题教程

推荐PHP教程文章

最新更新PHP教程