数学研发论坛

 找回密码
 欢迎注册
查看: 117|回复: 9

[求助] 有了koalas 和pyspark以后还需要学习numpy和pandas么?

[复制链接]
发表于 2020-7-29 09:13:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?欢迎注册

x
看了知乎上一些关于pyspark和koalas的文章,感觉和numpy,pandas做同样的事情,但是处理数据量更大,速度更快,更节省内存。如果以上理解没错,那还需要学习后两者么?

如果认识有误,还请指出错在哪里,谢谢!如果有例子说明就更好了!
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2020-7-29 23:06:12 | 显示全部楼层
不知道
因为我觉得
这个论坛里至少有一半的人,认为,“学会”的定义是,可以借助百度等工具完成程序的编写

——至少我就是这种人……

我认为的“学”,是知道自己要做什么,应该如何去做,然后让计算机帮我做完——这个意义下,当然是程序算得越快越好/我写得越快越好

我并不清楚你的“学”跟我的“学”是否一致
如果你的“学”是,你知道做什么,不知道如何去做,想让计算机帮你做完……
把主流的教程挨个学一遍好了
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2020-7-30 15:10:01 | 显示全部楼层
.·.·. 发表于 2020-7-29 23:06
不知道
因为我觉得
这个论坛里至少有一半的人,认为,“学会”的定义是,可以借助百度等工具完成程序的编 ...

我在这里说学的意思是:在库之间做取舍。即便是百度,你也要先确定使用哪个库,然后再通过百度完成知识的定向积累。在一个库上定向积累,比同时再两个库上定向积累要更高效吧。如果koalas 或pyspark可以代替numpy和pandas。且只是数据量更大,运行速度更快,硬件开销更小。你会不会做取舍呢?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2020-7-30 21:09:51 | 显示全部楼层
wufaxian 发表于 2020-7-30 15:10
我在这里说学的意思是:在库之间做取舍。即便是百度,你也要先确定使用哪个库,然后再通过百度完成知识的 ...

你说取舍的话

如果明知有1T数据等待处理,你肯定会做取舍
如果数据只有不足1M,随便怎么处理都差不多
如果数据有上百G但只有“慢的要死”的numpy版本,你会选择取舍呢,还是凑合着用呢?

所以我说,主流的都学一遍。
比如现在我在玩炼丹,目前感觉上最快的炼丹程序是MXNet(尚未尝试Jittor和OneFlow),快于Tensorflow跟Pytorch
但...
Tensorflow跟Pytorch我都(百度意义下的)会用。

混圈子的话,迟早,圈子里的软件你都得学一遍。

另外,推荐Julia,传说这货挺快的(但我坚持用R哪怕R慢到爆炸)
道理很简单,R包多。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2020-7-31 00:17:24 | 显示全部楼层
.·.·. 发表于 2020-7-30 21:09
你说取舍的话

如果明知有1T数据等待处理,你肯定会做取舍

R包多,这句话我在很多地方都看过。请教一下。言下之意是:个别R包能做事情,python目前还没有三方库能做么?或者做起来效率低,代码量大?

还是R的拥趸由于不熟悉python的三方库,造成的认知偏差。求教。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2020-7-31 15:05:00 | 显示全部楼层
wufaxian 发表于 2020-7-31 00:17
R包多,这句话我在很多地方都看过。请教一下。言下之意是:个别R包能做事情,python目前还没有三方库能做 ...


都能做
只是如果你不用R,用其他方法,要不然你需要找相应版本程序,要不然你需要找论文对着论文自己写一个。

我是统计系的,我们的常用方法都在R包里,发paper主要也是用R发
不写R是找不自在

上面那两行基本就是R包多的原因了
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2020-7-31 20:23:01 | 显示全部楼层
.·.·. 发表于 2020-7-31 15:05
都能做
只是如果你不用R,用其他方法,要不然你需要找相应版本程序,要不然你需要找论文对着论文自己 ...

只是如果你不用R,用其他方法,要不然你需要找相应版本程序,要不然你需要找论文对着论文自己写一个。---------自己写一个我是从来没有这种想法
      我的意思是python处理不同领域的工作主要是靠第三方库。这些第三方库难道在统计工作方面无法满足部分计算需求? 因此必须用R?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2020-7-31 22:05:23 | 显示全部楼层
wufaxian 发表于 2020-7-31 20:23
只是如果你不用R,用其他方法,要不然你需要找相应版本程序,要不然你需要找论文对着论文自己写一个。--- ...

如果想用最新的统计方法,必须用R,因为基本全部统计算法都有R脚本。R语言的作者不会给你弄一个python包,因为统计系约定俗成用R,了不起学校有钱给你顺便支持一下Matlab

哪怕R慢得要死,大不了写C/C++/Fortran然后拿R调用C/C++/Fortran
(比如knockoff,一种限定FDR的变量选择方法,如果你不看论文,你只能拿到R跟Matlab代码)

当然如果你想用很古老的方法,那用什么就随便了。
感觉世界上肯定有knockoff的其他语言实现
但能不能找得到,就全凭运气了。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2020-8-1 00:44:40 | 显示全部楼层
.·.·. 发表于 2020-7-31 22:05
如果想用最新的统计方法,必须用R,因为基本全部统计算法都有R脚本。R语言的作者不会给你弄一个python包 ...

明白了。没想到统计学这么生机勃勃。总有新的且具备广泛用途的统计方法面试。按照目前的态势,最新统计方法面世以后同时支持python的比例和三四年前比是否有改善?

    比如5年前新出10种统计方法,只有1个同时除了python包。今年新出始终统计方法会有2.5款支持python?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2020-8-1 13:57:13 | 显示全部楼层
wufaxian 发表于 2020-8-1 00:44
明白了。没想到统计学这么生机勃勃。总有新的且具备广泛用途的统计方法面试。按照目前的态势,最新统计方 ...

不会

统计系都是用R(或者外加一个Matlab)的

python多用于工业,学术上我很少见到python代码
(深度学习除外)
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2020-8-12 00:38 , Processed in 0.061929 second(s), 16 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表