c# – 如何从pdf文件中提取附件?
发布时间:2020-12-15 08:09:29 所属栏目:百科 来源:网络整理
导读:我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作? 解决方法 iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作. 有两种方法可以在PDF中嵌入文件: 在文件注释中 在文档级别“E
我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作?
解决方法
iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作.
有两种方法可以在PDF中嵌入文件: >在文件注释中 从任一源获得文件规范字典后,文件本身将成为标记为“EF”(嵌入文件)的字典中的流. 因此,要列出文档级别的所有文件,可以编写代码(使用Java): Map<String,byte[]> files = new HashMap<String,byte[]>(); PdfReader reader = new PdfReader(pdfPath); PdfDictionary root = reader.getCatalog(); PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMBEDDEDFILES); //may be null PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null int len = embeddedFiles.size(); for (int i = 0; i < len; i += 2) { PdfString name = embeddedFiles.getAsString(i); // should always be present PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto PdfDictionary streams = fileSpec.getAsDict(PdfName.EF); PRStream stream = null; if (streams.contains(PdfName.UF)) stream = (PRStream)streams.getAsStream(PdfName.UF); else stream = (PRStream)streams.getAsStream(PdfName.F); // Default stream for backwards compatibility if (stream != null) { files.put( name.toUnicodeString(),PdfReader.getStreamBytes((PRStream)stream)); } } (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |