python处理几十g的数据
@夹软6726:如何用python快速读取几G以上的大文件 -
孔霍15611354257…… 如果你没那么大的内存 解决方法有几个: 1. 使用swap 一次性read()读取 2. 系统层面分割大文件为数个小于系统内存的小文件,分别读取 3. 使用python 按数据大小逐块读取,使用完数据即释放该部分内存: while True: chunk_data = file_object.read(chunk_size) if not chunk_data: break yield chunk_data
@夹软6726:如何使用python复制大概200G的数据[任何语言只要能实现] -
孔霍15611354257…… 如果我理解的正确的话,楼主是要copy大文件吧.python最经常使用的copy函数,应该是shutil.copyfile()了,它默认以16384bytes 的大小作为缓冲区,对于小的文件,的确不错.但是处理到大的文件的时候,性能下降就很严重.过小的buffer...
@夹软6726:用python处理一个1G左右的数据集,运行速度非常慢,怎样优化 -
孔霍15611354257…… 第一个办法,降低数据集的大小.python处理数据,如果数据结构中的数据超过2GB,通常都会很慢.如何降低数据集大小,需要修改算法.第二个办法,将数据结构采用数组array或者是numarray存贮.这样内存数量与查找效率都会提高.尽量不要使用大的dict.使用一个省内存的blist代替list 第三个办法,将数据通过共享内存,让C++扩展模块来处理.常用的是第二种办法.就是换个数据结构就可以提高效率.
@夹软6726:python 循环内要处理大量数据时怎么优化 -
孔霍15611354257…… 先尝试优化程序的时间复杂度,寻找更有效的算法 确保了算法复杂度在可接受范围之内后,开始进行常数优化,以下是Python优化的几个小技巧:1. 实测表明,for语句一般比while语句效率更高2. 同样实测表明,xrange一般比range要高效3. 如果要存储动态数据(即有可能频繁变动的数据)少用list和str,多用dict4. 实测表明,两个str的连接效率从高到低+=,join,+ 多个str的连接效率从高到低join,+=,+5. 尽可能使用列表解析表达式和生成器表达式代替循环一遍来构建list6. 避免使用global关键字,无论是从代码效率还是可移植性的方面考虑
@夹软6726:怎样用Python实现大文件遍历并修改内容 -
孔霍15611354257…… 用生成器处理大文本文件,效率超级高.2个多G文件,7秒处理完.
@夹软6726:Python 适合大数据量的处理吗 -
孔霍15611354257…… 对性能要求不是很高的都可以如果处理的数据量或计算比较大的 就不适合了...一般核心用C/C++ 外壳用python
@夹软6726:python处理大数据的能力怎么样 -
孔霍15611354257…… 有些办法.比如使用array, numpy.array. 主要的思路是节约内存的使用,同时提高数据查询的效率.如果能够注意这些内容,处理几个GB的数据还是轻松的. 接下来就是分布式计算. 按mapreduce的思路.数据尽量在本地处理.所以算法上要...
@夹软6726:大量数据怎么导入python进行计算 -
孔霍15611354257…… 适合大数据处理.而不是大数据量处理. 如果大数据量处理,需要采用并用结构,比如在hadoop上使用python,或者是自己做的分布式处理框架. 大数据量处理使用python的也多.如果单机单核单硬盘大数据量(比如视频)处理.显然只能用c/c++语言了....
@夹软6726:python 文件内容处理后输出 -
孔霍15611354257…… 首先确认下,你确定格式正确吗?你写的逻辑是,输出的第二行是第一行的内容加上第二行的内容, 第三行的内容是1,2,3行相加的内容, 这样累加,文件当然大了,至于内存不足,你的写法很有问题,学python时间不长吧,没有人用python这...
@夹软6726:python 数据太大 内存不足怎么办 -
孔霍15611354257…… 买内存条插上,或者不要一次把数据全都读入内存.除了这两个办法,没别的办法了.
孔霍15611354257…… 如果你没那么大的内存 解决方法有几个: 1. 使用swap 一次性read()读取 2. 系统层面分割大文件为数个小于系统内存的小文件,分别读取 3. 使用python 按数据大小逐块读取,使用完数据即释放该部分内存: while True: chunk_data = file_object.read(chunk_size) if not chunk_data: break yield chunk_data
@夹软6726:如何使用python复制大概200G的数据[任何语言只要能实现] -
孔霍15611354257…… 如果我理解的正确的话,楼主是要copy大文件吧.python最经常使用的copy函数,应该是shutil.copyfile()了,它默认以16384bytes 的大小作为缓冲区,对于小的文件,的确不错.但是处理到大的文件的时候,性能下降就很严重.过小的buffer...
@夹软6726:用python处理一个1G左右的数据集,运行速度非常慢,怎样优化 -
孔霍15611354257…… 第一个办法,降低数据集的大小.python处理数据,如果数据结构中的数据超过2GB,通常都会很慢.如何降低数据集大小,需要修改算法.第二个办法,将数据结构采用数组array或者是numarray存贮.这样内存数量与查找效率都会提高.尽量不要使用大的dict.使用一个省内存的blist代替list 第三个办法,将数据通过共享内存,让C++扩展模块来处理.常用的是第二种办法.就是换个数据结构就可以提高效率.
@夹软6726:python 循环内要处理大量数据时怎么优化 -
孔霍15611354257…… 先尝试优化程序的时间复杂度,寻找更有效的算法 确保了算法复杂度在可接受范围之内后,开始进行常数优化,以下是Python优化的几个小技巧:1. 实测表明,for语句一般比while语句效率更高2. 同样实测表明,xrange一般比range要高效3. 如果要存储动态数据(即有可能频繁变动的数据)少用list和str,多用dict4. 实测表明,两个str的连接效率从高到低+=,join,+ 多个str的连接效率从高到低join,+=,+5. 尽可能使用列表解析表达式和生成器表达式代替循环一遍来构建list6. 避免使用global关键字,无论是从代码效率还是可移植性的方面考虑
@夹软6726:怎样用Python实现大文件遍历并修改内容 -
孔霍15611354257…… 用生成器处理大文本文件,效率超级高.2个多G文件,7秒处理完.
@夹软6726:Python 适合大数据量的处理吗 -
孔霍15611354257…… 对性能要求不是很高的都可以如果处理的数据量或计算比较大的 就不适合了...一般核心用C/C++ 外壳用python
@夹软6726:python处理大数据的能力怎么样 -
孔霍15611354257…… 有些办法.比如使用array, numpy.array. 主要的思路是节约内存的使用,同时提高数据查询的效率.如果能够注意这些内容,处理几个GB的数据还是轻松的. 接下来就是分布式计算. 按mapreduce的思路.数据尽量在本地处理.所以算法上要...
@夹软6726:大量数据怎么导入python进行计算 -
孔霍15611354257…… 适合大数据处理.而不是大数据量处理. 如果大数据量处理,需要采用并用结构,比如在hadoop上使用python,或者是自己做的分布式处理框架. 大数据量处理使用python的也多.如果单机单核单硬盘大数据量(比如视频)处理.显然只能用c/c++语言了....
@夹软6726:python 文件内容处理后输出 -
孔霍15611354257…… 首先确认下,你确定格式正确吗?你写的逻辑是,输出的第二行是第一行的内容加上第二行的内容, 第三行的内容是1,2,3行相加的内容, 这样累加,文件当然大了,至于内存不足,你的写法很有问题,学python时间不长吧,没有人用python这...
@夹软6726:python 数据太大 内存不足怎么办 -
孔霍15611354257…… 买内存条插上,或者不要一次把数据全都读入内存.除了这两个办法,没别的办法了.