python爬虫心得1000字的简单介绍

http://www.itjxue.com  2023-04-03 06:16  来源:未知  点击次数: 

Python爬虫模拟登录遇到的问题——CSRF防御

去年在公司写过一个爬虫工具,用于抓取自动化报告通过率、自动发送报告。由于当时是第一次接触爬虫,难免会遇到各种问题,解决方案全都是按照网上的一些爬虫文章示例,照猫画虎写的。虽然能正常使用,但其实很多地方都没弄明白。最近学习了一些前端和后台的原理,了解了cookie与session的机制,总算弄明白了爬虫登录过程中的一个疑问。

编写爬虫第一步,在登录公司的自动化平台时就遇到了一个难题,登录请求中必须包含一个authenticity_token字段。令人头大的是,完全不知道这个字段从何而来,而且该字段还每次都不一样,参考的爬虫登录示例也没教啊!真是急坏苯宝宝了??

后来翻了好多CSDN的爬虫贴,了解到 知乎 的登录请求中也包含这样一个字段,而作者的处理方式就是先访问一次登录页,然后从登录页中查找一个隐藏的authenticity_token字段。

借助F12发现,公司的自动化平台登录页中也包含了这样一个隐藏字段,试之,果然成功了......

"多年后的一个平静的下午,当我无意间浏览了一片CSRF攻击的帖子,突然眼前一亮......老衲终于明白了这个authenticity_token的含义了!!!终于彻底理解了当年困扰我两小时的难题了!!!"

其实,该token的作用就是防御CSRF攻击,关于什么是CSRF,还得先了解下Session id。

HTTP请求的一大特点就是无状态,这也就导致服务端无法区分请求来自哪个客户端。为了记录每个用户的状态,跟踪用户的整个会话,web程序普遍采用了cookie与session技术。(由于cookie与session的内容过多,在此不表,详细原理可以参考一片文章: Cookie与Session机制 )

关于cookie与session,最需要了解的几点是:

根据session机制以上特点,就引申出了一个问题:CSRF攻击。

用户每次点击一个链接、提交一个表单,其本质就是对服务端发起一次请求。而CSRF攻击的原理就是:攻击者诱导用户点击一个链接,用户在不知情的情况下提交了一次表单请求。而表单的内容则是攻击者事先准备好的。

简单举个栗子??:

备注: 以上攻击成功实施的关键在于,小明已经登录论坛A,并且点击跳转后的浏览器子窗体是可以访问父窗体的session id的。

假如小明复制该链接,然后手动打开一个新的浏览器粘贴访问该链接,则会提示用户处于非登录状态,该发帖请求会被拒绝。原因是新打开的浏览器无法获取前一个浏览器中的session id,服务端会将该请求当成一个新的会话,需要重新登录后才能成功执行发帖请求。

既然大家都了解CRSF攻击,自然有相应的防御措施,其中比较常用的就是采用token验证。

工作机制就是: 用户在发送表单时还需要携带一个token值 。该token一般是填写表单页中的一个隐藏字段,每次访问都不同。通过该token的验证,服务端就能知道用户的表单请求是否从表单填写页面跳转而来了。

简单举例:

简单来说,服务端每次通过请求数据中的token来验证表单请求是否由用户主动发送的,从而有效防御了CRSF攻击。

至此,也就明白了为什么登录页面时需要携带一个authenticity_token参数了,同时也理解了为什么需要访问登录页面获取该token。??

java工程师一般用python做什么 知乎

#做网站后台

Python在网站后台这边有大量的成熟的框架,如django,flask,bottle,tornado,我曾经用过flask和django搭建了的两个网站已经上线

#写网络爬虫

Python写爬虫非常简单,库很健全

以下是我写的一些爬虫教程和心得

#科学计算

Python有三大神器:numpy,scipy,matplotlib,其中numpy很多底层使用C语言实现的,所以速度很快,我曾经用它参加各种数学建模大赛,完全可以替代r语言和MATLAB

以下是我写的科学计算简单教程

#数据挖掘,机器学习

Python

的机器学习包很多,或者自己可以试着实现机器学习算法,因为Python的类似伪代码的语法,很容易快速实现自己的想法,另外主流的机器学习算法都有成熟

的包,加上谷歌开源的TensorFlow,常用的机器学习包:scikit-learn,pattern,jieba,pybrain等等

#数据科学

最近spark,Hadoop都开了Python的接口,所以使用Python做大数据的mapreduce也非常简单,加上py对数据库支持都很好,或者类似sqlalchemy的orm也非常强大好用

以及剩下的码算法,玩玩树莓派什么的我就不多说了,

py的强大其实在于他能迅速的实现想法

从零开始学Python爬虫(四):正则表达式

Regular Expression, 正则表达式, 种使 表达式的 式对字符串进 匹配的语法规则。

我们抓取到的 源代码本质上就是 个超 的字符串, 想从 提取内容。 正则再合适不过了。

正则的优点: 速度快, 效率 , 准确性 正则的缺点: 新 上 难度有点 。

不过只要掌握了正则编写的逻辑关系, 写出 个提取 内容的正则其实并不复杂

正则的语法: 使 元字符进 排列组合 来匹配字符串

在线测试正则表达式网址:

元字符: 具有固定含义的特殊符号 常 元字符:

量词: 控制前 的元字符出现的次数

贪婪匹配和惰性匹配

这两个要着重的说 下,因为我们写爬 的最多的就是这个惰性匹配。

先看案例

那么接下来的问题是, 正则我会写了, 怎么在python程序中使 正则呢?答案是re模块

re模块中我们只需要记住这么 个功能就 够我们使 了。

下面一个案例,是练习用正则表达式提取豆瓣电影top250的数据并保存,一起来学一下吧。

(责任编辑:IT教学网)

更多

推荐淘宝营销文章