c# – 如何从pdf文件中提取附件？

发布时间：2020-12-15 08:09:29 所属栏目：百科来源：网络整理

导读：我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作？解决方法 iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作. 有两种方法可以在PDF中嵌入文件：在文件注释中在文档级别“E

我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作？

解决方法

iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作.

有两种方法可以在PDF中嵌入文件：

>在文件注释中
>在文档级别“EmbeddedFiles”.

从任一源获得文件规范字典后,文件本身将成为标记为“EF”(嵌入文件)的字典中的流.

因此,要列出文档级别的所有文件,可以编写代码(使用Java)：

Map<String,byte[]> files = new HashMap<String,byte[]>();

PdfReader reader = new PdfReader(pdfPath);
PdfDictionary root = reader.getCatalog();
PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null
PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMBEDDEDFILES); //may be null
PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null

int len = embeddedFiles.size();
for (int i = 0; i < len; i += 2) {
  PdfString name = embeddedFiles.getAsString(i); // should always be present
  PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto

  PdfDictionary streams = fileSpec.getAsDict(PdfName.EF);
  PRStream stream = null;

  if (streams.contains(PdfName.UF))
    stream = (PRStream)streams.getAsStream(PdfName.UF);
  else
    stream = (PRStream)streams.getAsStream(PdfName.F); // Default stream for backwards compatibility

  if (stream != null) {
    files.put( name.toUnicodeString(),PdfReader.getStreamBytes((PRStream)stream));
  }
}

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!