加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

c# – 如何从pdf文件中提取附件?

发布时间:2020-12-15 08:09:29 所属栏目:百科 来源:网络整理
导读:我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作? 解决方法 iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作. 有两种方法可以在PDF中嵌入文件: 在文件注释中 在文档级别“E
我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作?

解决方法

iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作.

有两种方法可以在PDF中嵌入文件:

>在文件注释中
>在文档级别“EmbeddedFiles”.

从任一源获得文件规范字典后,文件本身将成为标记为“EF”(嵌入文件)的字典中的流.

因此,要列出文档级别的所有文件,可以编写代码(使用Java):

Map<String,byte[]> files = new HashMap<String,byte[]>();

PdfReader reader = new PdfReader(pdfPath);
PdfDictionary root = reader.getCatalog();
PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null
PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMBEDDEDFILES); //may be null
PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null

int len = embeddedFiles.size();
for (int i = 0; i < len; i += 2) {
  PdfString name = embeddedFiles.getAsString(i); // should always be present
  PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto

  PdfDictionary streams = fileSpec.getAsDict(PdfName.EF);
  PRStream stream = null;

  if (streams.contains(PdfName.UF))
    stream = (PRStream)streams.getAsStream(PdfName.UF);
  else
    stream = (PRStream)streams.getAsStream(PdfName.F); // Default stream for backwards compatibility

  if (stream != null) {
    files.put( name.toUnicodeString(),PdfReader.getStreamBytes((PRStream)stream));
  }
}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读