当前位置： > 网络营销 > 淘宝营销 > 文章内容

python爬虫心得1000字的简单介绍

http://www.itjxue.com 2023-04-03 06:16 来源:未知 点击次数:

Python爬虫模拟登录遇到的问题——CSRF防御

去年在公司写过一个爬虫工具，用于抓取自动化报告通过率、自动发送报告。由于当时是第一次接触爬虫，难免会遇到各种问题，解决方案全都是按照网上的一些爬虫文章示例，照猫画虎写的。虽然能正常使用，但其实很多地方都没弄明白。最近学习了一些前端和后台的原理，了解了cookie与session的机制，总算弄明白了爬虫登录过程中的一个疑问。

编写爬虫第一步，在登录公司的自动化平台时就遇到了一个难题，登录请求中必须包含一个authenticity_token字段。令人头大的是，完全不知道这个字段从何而来，而且该字段还每次都不一样，参考的爬虫登录示例也没教啊！真是急坏苯宝宝了??

后来翻了好多CSDN的爬虫贴，了解到知乎的登录请求中也包含这样一个字段，而作者的处理方式就是先访问一次登录页，然后从登录页中查找一个隐藏的authenticity_token字段。

借助F12发现，公司的自动化平台登录页中也包含了这样一个隐藏字段，试之，果然成功了......

"多年后的一个平静的下午，当我无意间浏览了一片CSRF攻击的帖子，突然眼前一亮......老衲终于明白了这个authenticity_token的含义了！！！终于彻底理解了当年困扰我两小时的难题了！！！"

其实，该token的作用就是防御CSRF攻击，关于什么是CSRF，还得先了解下Session id。

HTTP请求的一大特点就是无状态，这也就导致服务端无法区分请求来自哪个客户端。为了记录每个用户的状态，跟踪用户的整个会话，web程序普遍采用了cookie与session技术。(由于cookie与session的内容过多，在此不表，详细原理可以参考一片文章： Cookie与Session机制 )

关于cookie与session，最需要了解的几点是：

根据session机制以上特点，就引申出了一个问题：CSRF攻击。

用户每次点击一个链接、提交一个表单，其本质就是对服务端发起一次请求。而CSRF攻击的原理就是：攻击者诱导用户点击一个链接，用户在不知情的情况下提交了一次表单请求。而表单的内容则是攻击者事先准备好的。

简单举个栗子??：

备注: 以上攻击成功实施的关键在于，小明已经登录论坛A，并且点击跳转后的浏览器子窗体是可以访问父窗体的session id的。

假如小明复制该链接，然后手动打开一个新的浏览器粘贴访问该链接，则会提示用户处于非登录状态，该发帖请求会被拒绝。原因是新打开的浏览器无法获取前一个浏览器中的session id，服务端会将该请求当成一个新的会话，需要重新登录后才能成功执行发帖请求。

既然大家都了解CRSF攻击，自然有相应的防御措施，其中比较常用的就是采用token验证。

工作机制就是：用户在发送表单时还需要携带一个token值。该token一般是填写表单页中的一个隐藏字段，每次访问都不同。通过该token的验证，服务端就能知道用户的表单请求是否从表单填写页面跳转而来了。

简单举例：

简单来说，服务端每次通过请求数据中的token来验证表单请求是否由用户主动发送的，从而有效防御了CRSF攻击。

至此，也就明白了为什么登录页面时需要携带一个authenticity_token参数了，同时也理解了为什么需要访问登录页面获取该token。??

python爬虫心得1000字的简单介绍

java工程师一般用python做什么知乎

#做网站后台

Python在网站后台这边有大量的成熟的框架，如django，flask，bottle，tornado，我曾经用过flask和django搭建了的两个网站已经上线

#写网络爬虫

Python写爬虫非常简单，库很健全

以下是我写的一些爬虫教程和心得

#科学计算

Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底层使用C语言实现的，所以速度很快，我曾经用它参加各种数学建模大赛，完全可以替代r语言和MATLAB

以下是我写的科学计算简单教程

#数据挖掘，机器学习

Python

的机器学习包很多，或者自己可以试着实现机器学习算法，因为Python的类似伪代码的语法，很容易快速实现自己的想法，另外主流的机器学习算法都有成熟

的包，加上谷歌开源的TensorFlow，常用的机器学习包：scikit-learn,pattern,jieba，pybrain等等

#数据科学

最近spark，Hadoop都开了Python的接口，所以使用Python做大数据的mapreduce也非常简单，加上py对数据库支持都很好，或者类似sqlalchemy的orm也非常强大好用

以及剩下的码算法，玩玩树莓派什么的我就不多说了，

py的强大其实在于他能迅速的实现想法

从零开始学Python爬虫（四）：正则表达式

Regular Expression，正则表达式，种使表达式的式对字符串进匹配的语法规则。

我们抓取到的源代码本质上就是个超的字符串，想从提取内容。正则再合适不过了。

正则的优点：速度快，效率，准确性正则的缺点：新上难度有点。

不过只要掌握了正则编写的逻辑关系，写出个提取内容的正则其实并不复杂

正则的语法：使元字符进排列组合来匹配字符串

在线测试正则表达式网址：

元字符：具有固定含义的特殊符号常元字符：

量词: 控制前的元字符出现的次数

贪婪匹配和惰性匹配

这两个要着重的说下，因为我们写爬的最多的就是这个惰性匹配。

先看案例

那么接下来的问题是, 正则我会写了, 怎么在python程序中使正则呢？答案是re模块

re模块中我们只需要记住这么个功能就够我们使了。

下面一个案例，是练习用正则表达式提取豆瓣电影top250的数据并保存，一起来学一下吧。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：Python入门书籍推荐(python入门好书)

下一篇：送快递需要具备什么条件(送快递有什么条件)

python爬虫心得1000字的简单介绍

Python爬虫模拟登录遇到的问题——CSRF防御

java工程师一般用python做什么知乎

从零开始学Python爬虫（四）：正则表达式

(责任编辑：IT教学网)

相关淘宝营销文章

阅读排行

专题教程

推荐淘宝营销文章

最新更新淘宝营销

python爬虫心得1000字的简单介绍

Python爬虫模拟登录遇到的问题——CSRF防御

java工程师一般用python做什么 知乎

从零开始学Python爬虫（四）：正则表达式

(责任编辑：IT教学网)

相关淘宝营销文章

阅读排行

专题教程

推荐淘宝营销文章

最新更新淘宝营销

java工程师一般用python做什么知乎