python处理几十g的数据

@夹软6726：如何用python快速读取几G以上的大文件 -
孔霍15611354257…… 如果你没那么大的内存解决方法有几个: 1. 使用swap 一次性read()读取 2. 系统层面分割大文件为数个小于系统内存的小文件,分别读取 3. 使用python 按数据大小逐块读取,使用完数据即释放该部分内存: while True: chunk_data = file_object.read(chunk_size) if not chunk_data: break yield chunk_data

@夹软6726：如何使用python复制大概200G的数据[任何语言只要能实现] -
孔霍15611354257…… 如果我理解的正确的话,楼主是要copy大文件吧.python最经常使用的copy函数,应该是shutil.copyfile()了,它默认以16384bytes 的大小作为缓冲区,对于小的文件,的确不错.但是处理到大的文件的时候,性能下降就很严重.过小的buffer...

@夹软6726：用python处理一个1G左右的数据集,运行速度非常慢,怎样优化 -
孔霍15611354257…… 第一个办法,降低数据集的大小.python处理数据,如果数据结构中的数据超过2GB,通常都会很慢.如何降低数据集大小,需要修改算法.第二个办法,将数据结构采用数组array或者是numarray存贮.这样内存数量与查找效率都会提高.尽量不要使用大的dict.使用一个省内存的blist代替list 第三个办法,将数据通过共享内存,让C++扩展模块来处理.常用的是第二种办法.就是换个数据结构就可以提高效率.

@夹软6726：python 循环内要处理大量数据时怎么优化 -
孔霍15611354257…… 先尝试优化程序的时间复杂度,寻找更有效的算法确保了算法复杂度在可接受范围之内后,开始进行常数优化,以下是Python优化的几个小技巧:1. 实测表明,for语句一般比while语句效率更高2. 同样实测表明,xrange一般比range要高效3. 如果要存储动态数据(即有可能频繁变动的数据)少用list和str,多用dict4. 实测表明,两个str的连接效率从高到低+=,join,+ 多个str的连接效率从高到低join,+=,+5. 尽可能使用列表解析表达式和生成器表达式代替循环一遍来构建list6. 避免使用global关键字,无论是从代码效率还是可移植性的方面考虑

@夹软6726：怎样用Python实现大文件遍历并修改内容 -
孔霍15611354257…… 用生成器处理大文本文件,效率超级高.2个多G文件,7秒处理完.

@夹软6726：Python 适合大数据量的处理吗 -
孔霍15611354257…… 对性能要求不是很高的都可以如果处理的数据量或计算比较大的就不适合了...一般核心用C/C++ 外壳用python

@夹软6726：python处理大数据的能力怎么样 -
孔霍15611354257…… 有些办法.比如使用array, numpy.array. 主要的思路是节约内存的使用,同时提高数据查询的效率.如果能够注意这些内容,处理几个GB的数据还是轻松的. 接下来就是分布式计算. 按mapreduce的思路.数据尽量在本地处理.所以算法上要...

@夹软6726：大量数据怎么导入python进行计算 -
孔霍15611354257…… 适合大数据处理.而不是大数据量处理. 如果大数据量处理,需要采用并用结构,比如在hadoop上使用python,或者是自己做的分布式处理框架. 大数据量处理使用python的也多.如果单机单核单硬盘大数据量(比如视频)处理.显然只能用c/c++语言了....

@夹软6726：python 文件内容处理后输出 -
孔霍15611354257…… 首先确认下,你确定格式正确吗?你写的逻辑是,输出的第二行是第一行的内容加上第二行的内容, 第三行的内容是1,2,3行相加的内容, 这样累加,文件当然大了,至于内存不足,你的写法很有问题,学python时间不长吧,没有人用python这...

@夹软6726：python 数据太大内存不足怎么办 -
孔霍15611354257…… 买内存条插上,或者不要一次把数据全都读入内存.除了这两个办法,没别的办法了.

客安网

python处理几十g的数据

相关推荐