Java中PDF转高质量图片:使用Apache PDFBox库

2024-11-29 12:02 更新

大家好,我是 V 哥。在Java中,将PDF文件转换为高质量的图片可以使用不同的库,其中最常用的库之一是 Apache PDFBox。通过该库,你可以读取PDF文件,并将每一页转换为图像文件。为了提高图像的质量,你可以指定分辨率等参数。此外,也可以结合 Java ImageIO 来保存生成的图片文件。

如何实现

下面V哥通过一个详细的案例,来展示如何使用 PDFBox 实现 PDF 转高质量图片:

所需依赖

首先,确保你已经在项目中添加了 PDFBox 依赖。你可以通过Maven来添加:

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version> <!-- 确保使用最新的版本 -->
</dependency>

实现步骤

先来捋一下实现步骤哈。

  1. 加载 PDF 文件
  2. 设置渲染参数(如 DPI 来控制图片分辨率)
  3. 将每页 PDF 渲染为图片
  4. 保存图片

通过以上1,2,3,4个步骤,咱们具体来实现一下代码:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;


public class VGPdfToImage {


    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";


        // 设置DPI(越高图片越清晰,但文件也会更大)
        int dpi = 300;


        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);

            
            // 遍历PDF每一页并转换为图片
            for (int page = 0; page < document.getNumberOfPages(); ++page) {
                // 使用BufferedImage来表示图像
                BufferedImage bim = pdfRenderer.renderImageWithDPI(page, dpi);

                
                // 生成文件名
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";

                
                // 将图片保存为PNG格式
                ImageIO.write(bim, "png", new File(fileName));

                
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

来解释一下

  1. PDFRenderer: PDFBox 提供的 PDFRenderer 类用于将 PDF 文档页渲染为图像对象(BufferedImage)。
  2. renderImageWithDPI: 该方法可以指定DPI(每英寸点数),它直接影响图片的分辨率。通常,72 DPI 是屏幕显示的默认分辨率,而300 DPI 被视为高质量打印的分辨率。
  3. ImageIO: Java的 ImageIO 用于将 BufferedImage 保存为 PNG、JPEG 等常见图片格式。

输出效果

  • 每一页的PDF将被单独渲染为一张图片,并且通过高DPI参数设置,图片的质量较高。
  • 输出的文件路径为 outputDir 指定的路径,图片将被保存为PNG格式。你也可以更改保存格式为JPEG等。

可调整的项有

  • DPI 设置: 如果你希望输出更高质量的图片,可以将 DPI 设置为 300 或更高。如果需要快速渲染且质量要求不高,可以设置为72 DPI。
  • 图片格式: ImageIO.write() 可以使用不同的格式,如 "jpg""png",根据需求调整。

注意一下,确保你的PDFBox库版本是较新的版本,如2.x系列,来保证支持更多的PDF功能和修复潜在问题。

以上就是一个简单的实现过程DEMO,那在实际应用中,一定会有特定问题,问题来了,如何你要处理的 PDF 文件比较大,或者页数比较多,那必定是要考虑性能问题滴。就这两个问题,V 哥来优化一下。

两个可能的性能优化问题

  1. 缓存策略:对于较大的 PDF 文件,你可以使用某些缓存策略来优化性能。
  2. 并行处理:如果你需要处理很多页的 PDF,可以通过多线程并行处理每一页以提升速度。

缓存策略优化

当要处理较大的 PDF 文件时,咱们使用缓存策略可以显著优化性能,特别是对于那些需要处理多个页面或反复渲染的情况。对于 PDF 渲染操作,缓存策略主要是为了减少对磁盘或内存的反复访问,从而加快读取、渲染速度并节省内存。

在 Java 中,可以通过以下几种方式实现缓存优化:

  1. 内存缓存:将已处理的页面保存在内存中,当需要重复访问这些页面时直接从缓存中获取。
  2. 磁盘缓存:如果内存不足以缓存所有页面,可以将页面渲染结果或部分中间数据缓存到磁盘上。
  3. 逐页处理:只在需要时加载并处理某些页面,而不是一次性加载整个PDF文件。

采用实现内存缓存的案例

采用内存缓存,咱们可以使用 ConcurrentHashMap 来实现,将已经渲染的 PDF 页面存储在内存中,避免重复渲染。

来看一个使用内存缓存的详细实现案例:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.concurrent.ConcurrentHashMap;


public class PdfToImageWithCache {


    // 用于缓存已渲染的PDF页面(使用ConcurrentHashMap确保线程安全)
    private static final ConcurrentHashMap<Integer, BufferedImage> imageCache = new ConcurrentHashMap<>();
    private static final int dpi = 300; // 高质量DPI设置

    
    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/ vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";


        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);

            
            // 获取页面总数
            int totalPages = document.getNumberOfPages();
            System.out.println("Total pages: " + totalPages);

            
            // 渲染并缓存每一页
            for (int page = 0; page < totalPages; ++page) {
                BufferedImage image = renderPageWithCache(pdfRenderer, page);

                
                // 保存图片
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
                ImageIO.write(image, "png", new File(fileName));

                
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


    /**
     * 使用缓存渲染PDF页面
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码(从0开始)
     * @return 缓存或渲染后的BufferedImage
     */
    private static BufferedImage renderPageWithCache(PDFRenderer pdfRenderer, int page) throws IOException {
        // 检查缓存是否已存在该页面的图像
        if (imageCache.containsKey(page)) {
            System.out.println("Page " + (page + 1) + " found in cache.");
            return imageCache.get(page);
        }


        // 如果缓存中不存在,则渲染并存入缓存
        System.out.println("Rendering page " + (page + 1) + "...");
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);
        imageCache.put(page, image);
        return image;
    }
}

解释一下代码

  1. 内存缓存(ConcurrentHashMap:
    • 使用 ConcurrentHashMap<Integer, BufferedImage> 作为缓存结构,Integer 代表页面的索引(从0开始),BufferedImage 代表已渲染的图像。
    • 每次渲染页面前,先检查缓存中是否存在该页面的图像,如果已存在,则直接返回缓存的图像,否则渲染并保存到缓存中。

  1. renderPageWithCache 方法:
    • 该方法首先检查页面是否在缓存中,如果在,则直接从缓存中获取。
    • 如果缓存中不存在该页面的图像,则渲染并将其保存到缓存中。

  1. DPI 设置:
    • dpi 参数设置为300以确保输出的图像质量足够高。

  1. 逐页渲染:
    • 使用 for 循环逐页处理,避免一次性加载所有页面到内存。对于每页图像的渲染,若该页面已经渲染过,则直接从缓存中获取。

这样优化的好处是啥

  1. 内存缓存的好处:
    • 当你需要多次访问或保存某些页面时,内存缓存可以避免重复渲染,从而提升性能。
    • 对于较大的PDF文件,如果反复操作相同的页面,缓存能显著减少处理时间。

  1. 并发支持:
    • ConcurrentHashMap 保证了在多线程环境下缓存操作的安全性,可以安全地在多线程中使用。

  1. 控制内存占用:
    • 如果内存使用量过大,可以根据情况定期清理缓存,或者在缓存中限制最大保存数量,使用类似LRU(最近最少使用)策略来清除旧缓存。

实现磁盘缓存的案例

接下来,咱们看一个使用磁盘缓存要怎么实现,如果 PDF 文件较大,内存无法保存全部页面的图像,我的天啊,那要怎么办?就是可以使用磁盘缓存,将渲染结果暂时保存到磁盘。

来看下面这个磁盘缓存策略实现,将渲染的图像保存为临时文件,并在需要时从磁盘加载:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;


public class PdfToImageWithDiskCache {


    private static final int dpi = 300; // 高质量DPI设置
    private static final String cacheDir = "path/to/cache/";


    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";


        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            int totalPages = document.getNumberOfPages();


            for (int page = 0; page < totalPages; ++page) {
                BufferedImage image = renderPageWithDiskCache(pdfRenderer, page);


                // 保存图片
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
                ImageIO.write(image, "png", new File(fileName));
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


    /**
     * 使用磁盘缓存渲染PDF页面
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码(从0开始)
     * @return 缓存或渲染后的BufferedImage
     */
    private static BufferedImage renderPageWithDiskCache(PDFRenderer pdfRenderer, int page) throws IOException {
        // 磁盘缓存文件路径
        File cachedFile = new File(cacheDir + "page_" + page + ".png");


        // 如果缓存文件已存在,则从磁盘加载
        if (cachedFile.exists()) {
            System.out.println("Loading page " + (page + 1) + " from disk cache.");
            return ImageIO.read(cachedFile);
        }


        // 如果缓存文件不存在,则渲染并保存到磁盘
        System.out.println("Rendering page " + (page + 1) + "...");
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);
        ImageIO.write(image, "png", cachedFile);
        return image;
    }
}

代码解释

  1. 缓存到磁盘: 通过 ImageIO.write() 将渲染的图像保存到磁盘上,如果该页面已经有缓存文件,则直接从磁盘读取。
  2. 缓存文件路径: 每个页面有对应的缓存文件名,避免重复渲染和保存。
  3. 适用于内存不足的情况: 当内存不足时,可以通过磁盘缓存减轻内存负担,同时仍然保留较好的访问速度。

通过这样的优化策略,咱们就可以在处理较大的 PDF 文件时,显著提升性能并减少资源消耗。

并行处理优化

接下来,看第二个问题:在处理很多页的 PDF 文件时,通过多线程并行处理每一页可以让处理速度显著提升,尤其是在每页渲染操作耗时较长的情况下。Java 提供了多线程的机制,咱们就用 ExecutorService 可以方便地管理和执行多线程任务。

下面来看一下如何实现哈,使用多线程并行处理 PDF 文件的每一页,将其转换为高质量图片。

主要步骤有三个

  1. 使用 ExecutorService 来创建线程池
  2. 每个线程独立处理一页 PDF,将其渲染为图片。
  3. 线程任务执行完毕后,统一关闭线程池

具体的代码实现

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;


public class PdfToImageWithMultithreading {


    // 设置DPI用于高质量渲染
    private static final int dpi = 300;


    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";


        // 线程池大小(可以根据CPU核心数量或需要并行的任务数进行调整)
        int numThreads = Runtime.getRuntime().availableProcessors();
        ExecutorService executorService = Executors.newFixedThreadPool(numThreads);


        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            int totalPages = document.getNumberOfPages();
            System.out.println("Total pages: " + totalPages);


            // 为每一页创建一个并行处理任务
            for (int page = 0; page < totalPages; page++) {
                final int currentPage = page;  // 需要用final修饰以便在多线程中使用
                executorService.submit(() -> {
                    try {
                        renderAndSavePage(pdfRenderer, currentPage, outputDir);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                });
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 关闭线程池
            executorService.shutdown();
            try {
                // 等待所有线程任务完成
                if (!executorService.awaitTermination(60, TimeUnit.MINUTES)) {
                    System.err.println("Some tasks did not finish within the timeout.");
                }
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }


    /**
     * 渲染PDF页面并保存为图片
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码(从0开始)
     * @param outputDir 输出目录
     * @throws IOException 如果发生IO错误
     */
    private static void renderAndSavePage(PDFRenderer pdfRenderer, int page, String outputDir) throws IOException {
        // 渲染页面为高质量图片
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);

        
        // 保存图片文件
        String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
        ImageIO.write(image, "png", new File(fileName));
        System.out.println("Saved page " + (page + 1) + " as image.");
    }
}

来详细解释一下代码和思路

1. 线程池的使用

  • ExecutorService :我们使用 Executors.newFixedThreadPool(numThreads) 来创建一个固定大小的线程池,其中 numThreads 是线程的数量。通过 Runtime.getRuntime().availableProcessors() 获取 CPU 核心数作为线程池大小的依据,通常这个值是处理器核心数。
  • submit() :将任务提交给线程池,submit() 方法会立即返回,不会阻塞主线程,从而能够让多个页面同时处理。

2. 任务分配

  • 每一页的渲染任务被分配到一个线程中,通过 executorService.submit() 提交渲染任务。每个任务都会调用 renderAndSavePage() 方法,处理特定页面的渲染和保存。

3. 渲染与保存

  • 每个线程使用 renderAndSavePage() 方法渲染指定页码的 PDF,并将生成的图像保存为 PNG 文件。这里使用 ImageIO.write() 来保存渲染结果。
  • 输出的文件名根据页面编号动态生成。

4. 关闭线程池

  • shutdown() :主线程在提交所有任务后调用 shutdown() 方法,通知线程池停止接收新的任务。
  • awaitTermination():主线程等待所有线程任务完成,这里设置了一个较长的超时时间(60分钟),你要根据实际情况来调整一下,确保所有页都能被处理完毕。

小结一下

通过多线程处理PDF的每一页,能显著缩短处理时间,特别是在处理大文件或大量页数的PDF时。线程池中的任务可以同时在多个CPU核心上运行,最大化利用硬件资源。对于超级大PDF文件或需要处理大量PDF时,可那就得上分布式处理了,每个节点处理一部分页面来解决,这里就不多赘述了。

最后

Java 如何实现PDF转高质量图片的案例就讲完了,喜欢这篇文件的话,一定帮我点赞、评论支持哦,如果怕忘了,收藏起来备孕是不错的选择。关注威哥爱编程,一群人的坚持才更加快乐。么么哒~~~Apache PDFBox

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号