当前位置： > 网络安全 > 安全基础 > 安全技术 > 文章内容

resample,resampledmodll

http://www.itjxue.com 2023-01-08 00:17 来源:未知 点击次数:

pandas resample 怎么实现

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

方法的格式是：

DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind

=None, loffset=None, limit=None, base=0)

resample在数据处理的过程中有什么作用

数据预处理中，有一个原理很简单但是非常重要的部分：采样。良好的采样可以让数据集变得平衡，会大大的提高预测和分类的效果。

采样是很复杂的一个领域，背后涉及到数据的分布/数据的性质等很多内容。常见的采样有：

Simple Random Sampling(简单随机采样)，

OfflineSampling(离线等可能K采样)，

Online Sampling(在线等可能K采样)，

Ratio-based Sampling(等比例随机采样)，

Acceptance-RejectionSampling(接受-拒绝采样)，

Importance Sampling(重要性采样)，

MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法)。

简单有放回随机采样

利用Python进行数据分析(9)-重采样resample和频率转换

Python-for-data-重新采样和频率转换

重新采样指的是将时间序列从一个频率转换到另一个频率的过程。

但是也并不是所有的采样方式都是属于上面的两种

pandas中使用resample方法来实现频率转换，下面是resample方法的参数详解：

将数据聚合到一个规则的低频上，例如将时间转换为每个月，"M"或者"BM"，将数据分成一个月的时间间隔。

每个间隔是半闭合的，一个数据只能属于一个时间间隔。时间间隔的并集必须是整个时间帧

默认情况下，左箱体边界是包含的。00:00的值是00：00到00：05间隔内的值

产生的时间序列按照每个箱体左边的时间戳被标记。

传递span class="mark"label="right"/span可以使用右箱体边界标记时间序列

向loffset参数传递字符串或者日期偏置

在金融数据中，为每个数据桶计算4个值是常见的问题：

通过span class="girk"ohlc聚合函数/span能够得到四种聚合值列的DF数据

低频转到高频的时候会形成缺失值

ffill() ：使用前面的值填充， limit 限制填充的次数

resample,resampledmodll

MATLAB中如何使用resample函数降低采样率

resample为信号降采样处理，理解如下：

B=resample(x,90,250); %

采样从250Hz降到90Hz，如果250在前,就是插值从90到250,可以看B的长度,250Hz采样4000个数据等于90hz采样1440个数据,这就是降采样。

resample是抽取decimate和插值interp的两个结合

具体完成如下操作，

先插值90变成 250*9Hz

然后抽取250变成速率 90Hz

怎么使用Python中Pandas库Resample，实现重采样，完成线性插值

#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是

#数据框(主要是借鉴R里面的data.frame)，Series也就是序列，pandas底层是c写的性能很棒，有大神

#做过测试处理亿级别的数据没问题，起性能可以跟同等配置的sas媲美

#DataFrame索引 df.loc是标签选取操作，df.iloc是位置切片操作

print(df[['row_names','Rape']])

df['行标签']

df.loc[行标签,列标签]

print(df.loc[0:2,['Rape','Murder']])

df.iloc[行位置,列位置]

df.iloc[1,1]#选取第二行，第二列的值，返回的为单个值

df.iloc[0,2],:]#选取第一行及第三行的数据

df.iloc[0:2,:]#选取第一行到第三行（不包含）的数据

df.iloc[:,1]#选取所有记录的第一列的值，返回的为一个Series

df.iloc[1,:]#选取第一行数据，返回的为一个Series

print(df.ix[1,1]) # 更广义的切片方式是使用.ix，它自动根据你给到的索引类型判断是使用位置还是标签进行切片

print(df.ix[0:2])

#DataFrame根据条件选取子集类似于sas里面if、where ,R里面的subset之类的函数

df[df.Murder13]

df[(df.Murder10)(df.Rape30)]

df[df.sex==u'男']

#重命名相当于sas里面的rename R软件中reshape包的中的rename

df.rename(columns={'A':'A_rename'})

df.rename(index={1:'other'})

#删除列相当于sas中的drop R软件中的test['col']-null

df.drop(['a','b'],axis=1) or del df[['a','b']]

#排序相当于sas里面的sort R软件里面的df[order(x),]

df.sort(columns='C') #行排序 y轴上

df.sort(axis=1) #各个列之间位置排序 x轴上

#数据描述相当于sas中proc menas R软件里面的summary

df.describe()

#生成新的一列跟R里面有点类似

df['new_columns']=df['columns']

df.insert(1,'new_columns',df['B']) #效率最高

df.join(Series(df['columns'],name='new_columns'))

#列上面的追加相当于sas中的append R里面cbind()

df.append(df1,ignore_index=True)

pd.concat([df,df1],ignore_index=True)

#最经典的join 跟sas和R里面的merge类似跟sql里面的各种join对照

merge()

#删除重行跟sas里面nodukey R里面的which(!duplicated(df[])类似

df.drop_duplicated()

#获取最大值最小值的位置有点类似矩阵里面的方法

df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什么不同自己摸索去

#读取外部数据跟sas的proc import R里面的read.csv等类似

read_excel() read_csv() read_hdf5() 等

与之相反的是df.to_excel() df.to_ecv()

#缺失值处理个人觉得pandas中缺失值处理比sas和R方便多了

df.fillna(9999) #用9999填充

#链接数据库不多说 pandas里面主要用 MySQLdb

import MySQLdb

conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")

read_sql() #很经典

#写数据进数据库

df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)

#groupby 跟sas里面的中的by R软件中dplyr包中的group_by sql里面的group by功能是一样的这里不多说

#求哑变量

dumiper=pd.get_dummies(df['key'])

df['key'].join(dumpier)

#透视表和交叉表跟sas里面的proc freq步类似 R里面的aggrate和cast函数类似

pd.pivot_table()

pd.crosstab()

#聚合函数经常跟group by一起组合用

df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#数据查询过滤

test.query("0.2

将STK_ID中的值过滤出来

stk_list = ['600809','600141','600329']中的全部记录过滤出来，命令是：rpt[rpt['STK_ID'].isin(stk_list)].

将dataframe中，某列进行清洗的命令

删除换行符：misc['product_desc'] = misc['product_desc'].str.replace('\n', '')

删除字符串前后空格：df["Make"] = df["Make"].map(str.strip)

如果用模糊匹配的话，命令是：

rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

对dataframe中元素，进行类型转换

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#时间变换主要依赖于datemie 和time两个包

#其他的一些技巧

df2[df2['A'].map(lambda x:x.startswith('61'))] #筛选出以61开头的数据

df2["Author"].str.replace(".+", "").head() #replace(".+", "")表示将字符串中以””开头;以””结束的任意子串替换为空字符串

commits = df2["Name"].head(15)

print commits.unique(), len(commits.unique()) #获的NAME的不同个数，类似于sql里面count(distinct name)

#pandas中最核心最经典的函数apply map applymap

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：QQ新版表情包GIF图片,表情包gif

下一篇：微软官方pe工具,微软官方pe工具下载路径

resample,resampledmodll

pandas resample 怎么实现

resample在数据处理的过程中有什么作用

利用Python进行数据分析(9)-重采样resample和频率转换

MATLAB中如何使用resample函数降低采样率

怎么使用Python中Pandas库Resample，实现重采样，完成线性插值

(责任编辑：IT教学网)

相关安全技术文章

阅读排行

专题教程

推荐安全技术文章

最新更新安全技术

resample,resampledmodll

pandas resample 怎么实现

resample在数据处理的过程中有什么作用

利用Python进行数据分析(9)-重采样resample和频率转换

MATLAB中 如何使用resample函数 降低采样率

怎么使用Python中Pandas库Resample，实现重采样，完成线性插值

(责任编辑：IT教学网)

相关安全技术文章

阅读排行

专题教程

推荐安全技术文章

最新更新安全技术

MATLAB中如何使用resample函数降低采样率