之前拆分的时候,设置每个小文件包含 10w 行的数据。由于担心一下子将 10w 数据读取应用中,导致堆内存占用过高,引起频繁的
Full GC,所以下面采用流式读取的方式,一行一行的读取数据。
当然了,如果拆分之后文件很小,或者说应用的堆内存设置很大,我们可以直接将文件加载到应用内存中处理。这样相对来说简
单一点。
逐行读取的代码如下:
File file = ...
try (LineIterator iterator = IOUtils.lineIterator(new FileInputStream(file), "UTF-8")) {
while (iterator.hasNext()) {
String line=iterator.nextLine();
convertToDB(line);
}
}
上面代码使用 commons-io 中的 LineIterator类,这个类底层使用了 BufferedReader 读取文件内容。它将其封装成迭代器模式,这
样我们可以很方便的迭代读取。
如果当前使用 JDK1.8 ,那么上述操作更加简单,我们可以直接使用 JDK 原生的类 Files将文件转成 Stream 方式读取,代码如下:
Files.lines(Paths.get("文件路径"), Charset.defaultCharset()).forEach(line -> {
convertToDB(line);
});
其实仔细看下 Files#lines底层源码,其实原理跟上面的 LineIterator类似,同样也是封装成迭代器模式。
多线程的引入存在的问题
上述读取的代码写起来不难,但是存在效率问题,主要是因为只有单线程在导入,上一行数据导入完成之后,才能继续操作下一行。
为了加快导入速度,那我们就多来几个线程,并发导入。
多线程我们自然将会使用线程池的方式,相关代码改造如下:
File file = ...;
ExecutorService executorService = new ThreadPoolExecutor(
5,
10,
60,
TimeUnit.MINUTES,
// 文件数量,假设文件包含 10W 行
new ArrayBlockingQueue<>(10*10000),
// guava 提供
new ThreadFactoryBuilder().setNameFormat("test-%d").build());
try (LineIterator iterator = IOUtils.lineIterator(new FileInputStream(file), "UTF-8")) {
while (iterator.hasNext()) {
String line = iterator.nextLine();
executorService.submit(() -> {
convertToDB(line);
});
}
}
上述代码中,每读取到一行内容,就会直接交给线程池来执行。
我们知道线程池原理如下:
1. 如果核心线程数未满,将会直接创建线程执行任务。
评论