协慌网

登录 贡献 社区

如何从文件内容创建 Java 字符串?

我一直在使用下面的成语一段时间了。它似乎是最广泛的,至少在我访问过的网站上。

是否有更好 / 不同的方式将文件读入 Java 中的字符串?

private String readFile(String file) throws IOException {
    BufferedReader reader = new BufferedReader(new FileReader (file));
    String         line = null;
    StringBuilder  stringBuilder = new StringBuilder();
    String         ls = System.getProperty("line.separator");

    try {
        while((line = reader.readLine()) != null) {
            stringBuilder.append(line);
            stringBuilder.append(ls);
        }

        return stringBuilder.toString();
    } finally {
        reader.close();
    }
}

答案

从文件中读取所有文本

这是 Java 7 的一个紧凑,健壮的习惯用法,包含在一个实用程序方法中:

static String readFile(String path, Charset encoding) 
  throws IOException 
{
  byte[] encoded = Files.readAllBytes(Paths.get(path));
  return new String(encoded, encoding);
}

从文件中读取文本行

Java 7 添加了一种方便的方法来将文件读取为文本行,表示为List<String> 。这种方法是 “有损” 的,因为行分隔符从每行的末尾剥离。

List<String> lines = Files.readAllLines(Paths.get(path), encoding);

Java 8 添加了Files.lines()方法以生成Stream<String> 。同样,这种方法是有损的,因为剥离了行分隔符。如果在读取文件时遇到IOException ,它将被包装在UncheckedIOException ,因为Stream不接受抛出已检查异常的 lambdas。

try (Stream<String> lines = Files.lines(path, encoding)) {
  lines.forEach(System.out::println);
}

Stream确实需要close()调用; 这在 API 上记录很少,我怀疑很多人甚至没有注意到Stream有一个close()方法。请务必使用 ARM 块,如图所示。

如果您使用的是文件以外的源,则可以使用BufferedReaderlines()方法。

内存利用率

第一种保留换行符的方法可以暂时需要几倍于文件大小的内存,因为短时间内原始文件内容(一个字节数组)和解码后的字符(即使编码也是 16 位)因为文件中的 8 位)一次驻留在内存中。最安全的方法是应用于您知道相对于可用内存较小的文件。

读取行的第二种方法通常更有效,因为用于解码的输入字节缓冲区不需要包含整个文件。但是,它仍然不适合相对于可用内存非常大的文件。

对于读取大型文件,您需要为程序设计一个不同的设计,一个从流中读取一块文本,处理它,然后继续下一个,重用相同的固定大小的内存块。这里,“大” 取决于计算机规格。如今,这个阈值可能是几千兆字节的 RAM。如果您的输入 “记录” 恰好是单独的行,则使用Stream<String>的第三种方法是执行此操作的一种方法。 (使用BufferedReaderreadLine()方法是与此方法等效的过程。)

字符编码

原始帖子中的示例中缺少的一件事是字符编码。在某些特殊情况下,平台默认值是您想要的,但它们很少见,您应该能够证明您的选择。

StandardCharsets类为所有 Java 运行时所需的编码定义了一些常量:

String content = readFile("test.txt", StandardCharsets.UTF_8);

平台默认值可从Charset本身获得:

String content = readFile("test.txt", Charset.defaultCharset());

注意:这个答案很大程度上取代了我的 Java 6 版本。 Java 7 的实用程序安全地简化了代码,使用映射字节缓冲区的旧答案阻止了读取的文件被删除,直到映射的缓冲区被垃圾收集。您可以通过此答案中的 “已编辑” 链接查看旧版本。

Commons FileUtils.readFileToString

public static String readFileToString(File file)
                       throws IOException

使用 VM 的默认编码将文件内容读入 String。该文件始终关闭。

参数:

  • file - 要读取的文件,不能为 null

返回:文件内容,永远不为 null

抛出: - IOException - 如果发生 I / O 错误

自:Commons IO 1.3.1

该类(间接)使用的代码是:

Apache License 2.0下的IOUtils.java

public static long copyLarge(InputStream input, OutputStream output)
       throws IOException {
   byte[] buffer = new byte[DEFAULT_BUFFER_SIZE];
   long count = 0;
   int n = 0;
   while (-1 != (n = input.read(buffer))) {
       output.write(buffer, 0, n);
       count += n;
   }
   return count;
}

它与 Ritche_W 使用的非常相似。

这个页面非常精简的解决方案:

Scanner scanner = new Scanner( new File("poem.txt") );
String text = scanner.useDelimiter("\\A").next();
scanner.close(); // Put this call in a finally block

要么

Scanner scanner = new Scanner( new File("poem.txt"), "UTF-8" );
String text = scanner.useDelimiter("\\A").next();
scanner.close(); // Put this call in a finally block

如果要设置 charset