高效读取大文件,再也不用担心 OOM 了! |
您所在的位置:网站首页 › java对象转json内存溢出 › 高效读取大文件,再也不用担心 OOM 了! |
每天早上七点三十,准时推送干货 Photo by Luisa Brimble on Unsplash 最近阿粉接到一个需求,需要从文件读取数据,然后经过业务处理之后存储到数据库中。这个需求,说实话不是很难,阿粉很快完成了第一个版本。 内存读取第一个版本,阿粉采用内存读取的方式,所有的数据首先读读取到内存中,程序代码如下: Stopwatch stopwatch = Stopwatch.createStarted(); // 将全部行数读取的内存中 List lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset()); for (String line : lines) { // pass } stopwatch.stop(); System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s"); // 计算内存占用 logMemory();logMemory方法如下: MemoryMXBean memoryMXBean = ManagementFactory.getMemoryMXBean(); //堆内存使用情况 MemoryUsage memoryUsage = memoryMXBean.getHeapMemoryUsage(); //初始的总内存 long totalMemorySize = memoryUsage.getInit(); //已使用的内存 long usedMemorySize = memoryUsage.getUsed(); System.out.println("Total Memory: " + totalMemorySize / (1024 * 1024) + " Mb"); System.out.println("Free Memory: " + usedMemorySize / (1024 * 1024) + " Mb");上述程序中,阿粉使用 Apache Common-Io 开源第三方库,FileUtils#readLines将会把文件中所有内容,全部读取到内存中。 这个程序简单测试并没有什么问题,但是等拿到真正的数据文件,运行程序,很快程序发生了 OOM。 之所以会发生 OOM,主要原因是因为这个数据文件太大。假设上面测试文件 test.txt总共有 200W 行数据,文件大小为:740MB。 通过上述程序读取到内存之后,在我的电脑上内存占用情况如下: 可以看到一个实际大小为 700 多 M 的文件,读到内存中占用内存量为 1.5G 之多。而我之前的程序,虚拟机设置内存大小只有 1G,所以程序发生了 OOM。 当然这里最简单的办法就是加内存呗,将虚拟机内存设置到 2G,甚至更多。不过机器内存始终有限,如果文件更大,还是没有办法全部都加载到内存。 不过仔细一想真的需要将全部数据一次性加载到内存中? 很显然,不需要! 在上述的场景中,我们将数据到加载内存中,最后不还是一条条处理 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |