设为首页收藏本站
网站公告 | 这是第一条公告
     

 找回密码
 立即注册
缓存时间16 现在时间16 缓存数据 “我不是一个含着金汤匙生的小孩, 我的家人,一直用他们自己的方式, 又普通又隆重地爱我” —张艺兴 ​​

“我不是一个含着金汤匙生的小孩, 我的家人,一直用他们自己的方式, 又普通又隆重地爱我” —张艺兴 ​​ -- 外婆

查看: 433|回复: 1

C++实现批量提取PDF内容

[复制链接]

  离线 

TA的专栏

  • 打卡等级:热心大叔
  • 打卡总天数:205
  • 打卡月天数:0
  • 打卡总奖励:2891
  • 最近打卡:2023-08-27 01:44:41
等级头衔

等級:晓枫资讯-上等兵

在线时间
0 小时

积分成就
威望
0
贡献
398
主题
362
精华
0
金钱
4059
积分
776
注册时间
2022-12-21
最后登录
2025-5-31

发表于 2025-2-16 06:56:45 | 显示全部楼层 |阅读模式
目录


  • 批量提取 PDF 文字内容并导出到表格

    • 应用场景
    • 实现方案和步骤

  • 批量给 PDF 文件改名

    • 应用场景
    • 实现方案和步骤

以下分别介绍基于 C++ 批量提取 PDF 里文字内容并导出到表格,以及批量给 PDF 文件改名的实现方案、步骤和应用场景。
1.jpeg


批量提取 PDF 文字内容并导出到表格



应用场景

文档数据整理:在处理大量学术论文、报告等 PDF 文档时,需要提取其中的关键信息,如标题、作者、摘要等,并整理到表格中,方便后续的数据分析和比较。
信息归档:企业或机构可能有大量的合同、协议等 PDF 文档,需要将其中的重要条款、日期、金额等信息提取出来,存储到表格中进行统一管理和查询。


实现方案和步骤

1. 选择合适的库
Poppler:用于解析 PDF 文件并提取文字内容。Poppler 是一个开源的 PDF 渲染库,提供了 C++ 接口,可以方便地进行 PDF 文本提取。
LibXL:用于创建和操作 Excel 表格。它是一个跨平台的 C++ 库,支持创建、读取和修改 Excel 文件。
2. 安装依赖库
在 Linux 系统上,可以使用包管理器安装 Poppler 和 LibXL。例如,在 Ubuntu 上可以使用以下命令安装 Poppler:
  1. sudo apt-get install libpoppler-cpp-dev
复制代码
对于 LibXL,需要从其官方网站下载库文件,并将其包含到项目中。
3. 编写代码
  1. #include <iostream>
  2. #include <fstream>
  3. #include <vector>
  4. #include <string>
  5. #include <poppler/cpp/poppler-document.h>
  6. #include <poppler/cpp/poppler-page.h>
  7. #include "libxl.h"

  8. using namespace libxl;

  9. // 提取 PDF 文件中的文字内容
  10. std::string extractTextFromPDF(const std::string& filePath) {
  11.     poppler::document* doc = poppler::document::load_from_file(filePath);
  12.     if (!doc || doc->is_locked()) {
  13.         delete doc;
  14.         return "";
  15.     }

  16.     std::string text;
  17.     for (int i = 0; i < doc->pages(); ++i) {
  18.         poppler::page* page = doc->create_page(i);
  19.         if (page) {
  20.             text += page->text().to_latin1();
  21.             delete page;
  22.         }
  23.     }

  24.     delete doc;
  25.     return text;
  26. }

  27. // 批量提取 PDF 文件内容并导出到 Excel 表格
  28. void batchExtractPDFsToExcel(const std::vector<std::string>& pdfFiles, const std::string& outputFilePath) {
  29.     Book* book = xlCreateBook();
  30.     if (book) {
  31.         Sheet* sheet = book->addSheet("PDF Text");
  32.         if (sheet) {
  33.             for (size_t i = 0; i < pdfFiles.size(); ++i) {
  34.                 std::string text = extractTextFromPDF(pdfFiles[i]);
  35.                 sheet->writeStr(i, 0, pdfFiles[i].c_str());
  36.                 sheet->writeStr(i, 1, text.c_str());
  37.             }
  38.         }
  39.         book->save(outputFilePath.c_str());
  40.         book->release();
  41.     }
  42. }

  43. int main() {
  44.     std::vector<std::string> pdfFiles = {
  45.         "file1.pdf",
  46.         "file2.pdf",
  47.         // 添加更多 PDF 文件路径
  48.     };
  49.     std::string outputFilePath = "output.xlsx";
  50.     batchExtractPDFsToExcel(pdfFiles, outputFilePath);
  51.     return 0;
  52. }
复制代码
4. 编译和运行
使用以下命令编译代码:
  1. g++ -o extract_pdf extract_pdf.cpp -lpoppler-cpp -lxl
复制代码
运行生成的可执行文件:
  1. ./extract_pdf
复制代码
批量给 PDF 文件改名

应用场景

文件整理:当从不同来源收集了大量 PDF 文件,文件名杂乱无章时,需要根据文件内容或特定规则对文件进行重命名,以便更好地管理和查找。
数据导入:在将 PDF 文件导入到某个系统或数据库时,要求文件名遵循一定的命名规范,此时需要对文件进行批量重命名。
实现方案和步骤

1. 选择合适的库
使用标准 C++ 库中的 <filesystem> (C++17 及以上)来处理文件和目录操作。
2. 编写代码
  1. #include <iostream>
  2. #include <filesystem>
  3. #include <string>

  4. namespace fs = std::filesystem;

  5. // 批量给 PDF 文件改名
  6. void batchRenamePDFs(const std::string& directoryPath) {
  7.     int counter = 1;
  8.     for (const auto& entry : fs::directory_iterator(directoryPath)) {
  9.         if (entry.is_regular_file() && entry.path().extension() == ".pdf") {
  10.             fs::path newPath = entry.path().parent_path() / (std::to_string(counter) + ".pdf");
  11.             fs::rename(entry.path(), newPath);
  12.             std::cout << "Renamed " << entry.path() << " to " << newPath << std::endl;
  13.             ++counter;
  14.         }
  15.     }
  16. }

  17. int main() {
  18.     std::string directoryPath = "./pdfs"; // 替换为实际的 PDF 文件目录
  19.     batchRenamePDFs(directoryPath);
  20.     return 0;
  21. }
复制代码
3. 编译和运行
使用以下命令编译代码:
  1. g++ -std=c++17 -o rename_pdf rename_pdf.cpp
复制代码
运行生成的可执行文件:
  1. ./rename_pdf
复制代码
以上代码示例提供了基本的实现思路,你可以根据实际需求进行扩展和修改。
到此这篇关于C++实现批量提取PDF内容的文章就介绍到这了,更多相关C++提取PDF内容请搜索晓枫资讯以前的文章或继续浏览下面的相关文章希望大家以后多多支持晓枫资讯!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
晓枫资讯-科技资讯社区-免责声明
免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。
      1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
      2、管理员及版主有权在不事先通知或不经作者准许的情况下删除其在本社区所发表的文章。
      3、本社区的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,举报反馈:点击这里给我发消息进行删除处理。
      4、本社区一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
      5、以上声明内容的最终解释权归《晓枫资讯-科技资讯社区》所有。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

  • 打卡等级:无名新人
  • 打卡总天数:2
  • 打卡月天数:0
  • 打卡总奖励:23
  • 最近打卡:2024-07-31 05:40:16
等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
38
积分
6
注册时间
2023-11-3
最后登录
2024-7-31

发表于 2025-4-22 18:28:14 | 显示全部楼层
感谢楼主分享。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~
严禁发布广告,淫秽、色情、赌博、暴力、凶杀、恐怖、间谍及其他违反国家法律法规的内容。!晓枫资讯-社区
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1楼
2楼

手机版|晓枫资讯--科技资讯社区 本站已运行

CopyRight © 2022-2025 晓枫资讯--科技资讯社区 ( BBS.yzwlo.com ) . All Rights Reserved .

晓枫资讯--科技资讯社区

本站内容由用户自主分享和转载自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

如有侵权、违反国家法律政策行为,请联系我们,我们会第一时间及时清除和处理! 举报反馈邮箱:点击这里给我发消息

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表