[bigdata-121] python科学计算

发布时间：2020-12-14 04:58:12 所属栏目：大数据来源：网络整理

导读：python科学计算，目前用的比较多的库，列一下。用的人多，也就意味着坑少，该踩的坑都被踩完了 1. 数值计算 1.1 numpy http://www.numpy.org/ 1.2 scipy https://www.scipy.org/ 1.3 pandas http://pandas.pydata.org/ 2. 符号计算 sympy 3.绘图 matplot ---

python科学计算，目前用的比较多的库，列一下。用的人多，也就意味着坑少，该踩的坑都被踩完了

1. 数值计算

1.1 numpy

http://www.numpy.org/

1.2 scipy

https://www.scipy.org/

1.3 pandas

http://pandas.pydata.org/

2. 符号计算

sympy

3.绘图

matplot

--------

关于numpy

1.
numpy提供的东西：多维数组以及扩展功能，比如掩码数组和矩阵; 数组的快速操作，包括数据的，逻辑的，改变形状，排序，选择，IO，离散变换，线性代数，随机模拟等等。

1.1 numpy的ndaarray封装同质的数据类型，数据必须是同一类型的; 数据创建时大小固定，改变大小，其实就是创建了新数组。

[1,2,1]是一个数组，rank 1，只有一个axis，这个axis的长度是3，而[[1.,0.,0.],[0.,1.,2.]]是rank 2，第一个axis/dimentsion的长度是2,第二个axis/dimentsion的长度是3。

numpy的数组类是ndararry，也叫做array。numpy.array和python标准库的array.array不同。

ndarray.ndim，几个axis，也就是rank
ndarray.shape，dimensions of array，是一个tuple，比如(3,5)，它的长度是rank，也就是ndarry.ndim。

ndarry.size,数组里有多少个元素，等于shape所有值的乘积。

ndarry.dtype，numpy.int32,numpy.int16,numpy.float64，等等。

ndarray.itemsize,比如faoat64的itemsize是8,也就是64/8。

ndarray.data,存放数据的buffer，通常不需要直接使用。

1.2 创建数组
一个二维数据的定义，a = np.arange(15).reshape(3,5)

一个一维数组的定义，a = np.array([6.,7.,8.])

b = np.array([(1.5,3),(4,5,6)])

b = np.array( [ [1,2],[3,4] ],dtype=complex )

b = np.ones( (2,3,4),dtype=np.int16 )np.zeros( (3,4) )

b = np.empty( (2,3) )

b = np.arange( 10,30,5 )

1.3 复杂一点的
from numpy import pi
np.linspace( 0,9 )
x = np.linspace( 0,2*pi,100 )
f = np.sin(x)

1.4 相关函数
array,zeros,zeros_like,ones,ones_like,empty,empty_like,arange,linspace,numpy.
random.rand,numpy.random.randn,fromfunction,fromfile

2. 计算
2.1 *和dot不一样，前者是两个数组的元素和元素乘积结果，后者是按照矩阵相乘计算。

2.3 诸多运算函数

3.numpy 基础

强制类型转换，x=np.float32(1.0) ? x=np.int_([1.1,2.2,3.3])

broadcasting: 这个表示，numpy如何处理计算时的shape问题。比如说，在计算中，小的数据要broadcast到更大的数据，以适配shape。比如说，a = np.array([1.,2.,3.]),b = np.array([2.,3.,4.])，那么a*b的结果就是np.array([2.,6.,12.])。对 a = np.array([1.,3.])，b=2.，a*b就是np.array[2.,4.,6.]，broadcast将b拉伸成跟a一样的尺寸然后进行计算。

byte-swapping，在存储上，可能会遇到不同的数，在python和c或者操作系统上的存储方式不同，比如大端法或者小端法。

结构数据类型，也就是创建一个包涵不同数据类型的数组，比如:

x=np.array([(1,'hello'),(2,'world') ],dtype=[('foo','i4'),('bar','f4'),('bza','s10')])

更多的细节，可以参考num-ref

-----------------------------------------------------

关于 scipy

scipy的namespace只包含numpy里的函数。scipy是基于numpy的数学算法和便用函数库，比numpy的应用层面更高一些。主要包括，聚类，数学物理方法，快速复立叶变换，积分，插值，线代，图像处理，回归，优化，信号处理，稀疏矩阵，空间数据，统计等等。

-----------------------------------------------------

关于pandas

主要解决如下问题：有标记的数据，多种索引方式，数据集变换，输入数据，高效的内存稀疏数据，移动窗统计。

创建时序数据

s = pd.Series([1,np.nan,6,8])

创建DataFrame

dates = pd.date_range('20130101',periods=6)

df = pd.DataFrame(np.random.randn(6,index=dates,columns=list('ABCD'))

这就是创建了一个label是日期的6行4列的随机数矩阵。

在基于DataFrame上，出现了一大批算法操作函数。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!