当前位置： > 网络营销 > 搜索营销 > 文章内容

Python如何获取数据(python获取信息)

http://www.itjxue.com 2023-04-10 03:26 来源:未知 点击次数:

如何提取Python数据

首先是准备工作，导入需要使用的库，读取并创建数据表取名为loandata。

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

设置索引字段

在开始提取数据前，先将member_id列设置为索引字段。然后开始提取数据。

Loandata = loandata.set_index('member_id')

按行提取信息

第一步是按行提取数据，例如提取某个用户的信息。下面使用ix函数对member_id为1303503的用户信息进行了提取。

loandata.ix[1303503]

按列提取信息

第二步是按列提取数据，例如提取用户工作年限列的所有信息，下面是具体的代码和提取结果，显示了所有用户的工作年龄信息。

loandata.ix[:,'emp_length']

按行与列提取信息

第三步是按行和列提取信息，把前面两部的查询条件放在一起，查询特定用户的特定信息，下面是查询member_id为1303503的用户的emp_length信息。

loandata.ix[1303503,'emp_length']

在前面的基础上继续增加条件，增加一行同时查询两个特定用户的贷款金额信息。具体代码和查询结果如下。结果中分别列出了两个用户的代码金额。

loandata.ix[[1303503,1298717],'loan_amnt']

在前面的代码后增加sum函数，对结果进行求和，同样是查询两个特定用户的贷款进行，下面的结果中直接给出了贷款金额的汇总值。

loandata.ix[[1303503,1298717],'loan_amnt'].sum()

除了增加行的查询条件以外，还可以增加列的查询条件，下面的代码中查询了一个特定用户的贷款金额和年收入情况，结果中分别显示了这两个字段的结果。

loandata.ix[1303503,['loan_amnt','annual_inc']]

多个列的查询也可以进行求和计算，在前面的代码后增加sum函数，对这个用户的贷款金额和年收入两个字段求和，并显示出结果。

loandata.ix[1303503,['loan_amnt','annual_inc']].sum()

Python如何获取数据(python获取信息)

如何用python爬取网站数据？

这里简单介绍一下吧，以抓取网站静态、动态2种数据为例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事百科网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

python数据分析时间序列如何提取一个月的数据

python做数据分析时下面就是提取一个月数据的教程1. datetime库

1.1 datetime.date

1） datetime.date.today() 返回今日，输出的类型为date类

import datetime

today = datetime.date.today()

print(today)

print(type(today))

– 输出的结果为：

2020-03-04

class 'datetime.date'

将输出的结果转化为常见数据类型（字符串）

print(str(today))

print(type(str(today)))

date = str(today).split('-')

year,month,day = date[0],date[1],date[2]

print('今日的年份是{}年,月份是{}月,日子是{}号'.format(year,month,day))

– 输出的结果为：(转化为字符串之后就可以直接进行操作)

2020-03-04

class 'str'

今日的年份是2020年,月份是03月,日子是04号

2） datetime.date(年,月,日)，获取当前的日期

date = datetime.date(2020,2,29)

print(date)

print(type(date))

– 输出的结果为：

2020-02-29

class 'datetime.date'

1.2 datetime.datetime

1） datetime.datetime.now()输出当前时间，datetime类

now = datetime.datetime.now()

print(now)

print(type(now))

– 输出的结果为：(注意秒后面有个不确定尾数)

2020-03-04 09:02:28.280783

class 'datetime.datetime'

可通过str()转化为字符串（和上面类似）

print(str(now))

print(type(str(now)))

– 输出的结果为：（这里也可以跟上面的处理类似分别获得相应的数据，但是也可以使用下面更直接的方法来获取）

2020-03-04 09:04:32.271075

class 'str'

2）通过自带的方法获取年月日，时分秒（这里返回的是int整型数据，注意区别）

now = datetime.datetime.now()

print(now.year,type(now.year))

print(now.month,type(now.month))

print(now.day,type(now.day))

print(now.hour,type(now.hour))

print(now.minute,type(now.minute))

print(now.second,type(now.second))

print(now.date(),type(now.date()))

print(now.date().year,type(now.date().year))

– 输出的结果为：（首先注意输出中倒数第二个还是上面的datetime.date对象，这里是用来做时间对比的，同时除了这里的datetime.datetime有这种方法，datetime.date对象也有。因为此方法获取second是取的整型数据，自然最后的不确定尾数就被取整处理掉了）

2020 class 'int'

3 class 'int'

4 class 'int'

9 class 'int'

12 class 'int'

55 class 'int'

2020-03-04 class 'datetime.date'

2020 class 'int'

python爬取大量数据(百万级)

当用python爬取大量网页获取想要的数据时，最重要的问题是爬虫中断问题，python这种脚本语言，一中断

进程就会退出，怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。

第一个问题: 简单点的用动态代理池就能解决，在爬取大量数据的时候，为了速度不受影响，建议使用一些缓

存的中间件将有效的代理 ip 缓存起来，并定时更新。这里推荐 github 这个仓库

，它会做ip有效性验证并将 ip 放入 redis ，不过实现过于复杂

了，还用到了 db ，个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否

是爬虫，当我们过于聚焦我们的爬虫请求而忽略了其他的请求时，可能就会被服务器判定为爬虫，进而这个ip

会被列入黑名单，而且你换了ip一样也会卡死在这里。这种方式呢，简单点就用 selenium + chrome 一个一个

去爬，不过速度太慢了。还是自己去分析吧，也不会过复杂的。

第二个问题：网络连接超时是大概率会遇到的问题，有可能是在爬取的时候本地网络波动，也有可能是爬

取的服务端对ip做了限制，在爬取到了一定量级的时候做一些延迟的操作，使得一些通用的 http 库超时

（ urllib ）。不过如果是服务端动的手脚一般延迟不会太高，我们只需要人为的设置一个高一点的

timeout 即可（30 秒），最好在爬取开始的时候就对我们要用的爬取库进行一层封装，通用起来才好改

动。

第三个问题: 在解析大量静态页面的时候，有些静态页面的解析规则不一样，所以我们就必须得做好断点

续爬的准备了（ PS : 如果简单的忽略错误可能会导致大量数据的丢失，这就不明智了）。那么在调试的过

程中断点续爬有个解决方案，就是生产者和消费者分离，生产者就是产生待爬 url 的爬虫，消费者就是爬取

最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接，生产者往消息中间件发送待

爬取的目标信息，消费者从里面取就行了，还间接的实现了个分布式爬取功能。由于现在的消费中间件都有

ack 机制，一个消费者爬取链接失败会导致消息消费失败，进而分配给其他消费者消费。所以消息丢失的

概率极低。不过这里还有个 tips ，消费者的消费超时时间不能太长，会导致消息释放不及时。还有要开启

消息中间价的数据持久化功能，不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。

第四个问题：这种情况只能 try except catch 住了，不好解决，如果单独分析的话会耗费点时间。但在

大部分数据（99%）都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这

种偶尔中断的问就方便多了。

希望能帮到各位。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：没有了

下一篇：python基础单词(python必背100单词)

Python如何获取数据(python获取信息)

如何提取Python数据

如何用python爬取网站数据？

python数据分析时间序列如何提取一个月的数据

python爬取大量数据(百万级)

(责任编辑：IT教学网)

相关搜索营销文章

阅读排行

专题教程

推荐搜索营销文章

最新更新搜索营销