加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

如何使用免费PDF控件从PDF文档中提取文本和图片

发布时间:2020-12-16 01:09:25 所属栏目:百科 来源:网络整理
导读:? ? ? ? ? ?如何使用免费 PDF 控件从 PDF 文档中提取文本和图片 ? ? 概要 ? 现在手头的项目有一个需求是从 PDF 文档中提取文本和图片,我以前也使用过像 iTextSharp,PDFBox 这些免费的 PDF 插件,可是这次都测试了一下,或多或少有一些地方不是很满意。最后

?

? ? ? ? ?如何使用免费PDF控件从PDF文档中提取文本和图片

?

?

概要

?

现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp,PDFBox 这些免费的PDF插件,可是这次都测试了一下,或多或少有一些地方不是很满意。最后同事推荐我使用免费的Spire.PDF,结果真是让我惊喜。最重要的是,作为一家中国企业,他们还能提供完全没有时差的免费中文技术支持。所以迫不及待的想和大家分享一下我的使用经验。

?

开发环境需求

?

首先,从Codeplex官网下载免费的Spire.PDF :http://freepdf.codeplex.com/。安装好程序后,添加Spire.License.dll,Spire.Pdf.dll? 这两个引用到我们的工程程序。免费Spire.PDF支持.NET 2.0--.NET4.5版本。根据自己的项目需求添加相应文件夹里的.dll就可以。

?

?

?

操作步骤

?

前面提到过,我们需要从PDF文档里将文本和图片单独获取出来。使用Spire.PDF,只需要几行代码就能完成。下面是详细的操作步骤。

1. 生成一个PDF,将文本和图片添加到PDF里面。

2. PDF文档中提取所有图片。

3. PDF文档中提取所有文本。

?

下面的代码示例是讲如何创建一个空的PDF文档,将文本和图片加进PDF。

?

PdfDocument?doc?=?new?PdfDocument();
PdfPageBase?page?=?doc.Pages.Add();
?????
//添加文本??
page.Canvas.DrawString("Demo?of?extract?text?and?imgae?from?PDF!",
new?PdfFont(PdfFontFamily.Helvetica,?20f),1)">new?PdfSolidBrush(Color.Black),?10,1)">10);
?????
添加图片
PdfImage?image?=?PdfImage.FromFile(pdf.png");
float?width?=?image.Width?*?0.75f;
float?height?=?image.Height?*?float?x?=?(page.Canvas.ClientSize.Width?-?width)?/?2;
page.Canvas.DrawImage(image,?x,1)">60,?width,?height);
?????
PdfImage?image2?=?PdfImage.FromFile(image.jpg");
width?=?image2.Width?*?0.75f;
height?=?image2.Height?*?0.75f;
page.Canvas.DrawImage(image2,?x-100,1)">220,?height);
doc.SaveToFile(sample.pdf");

?

生成的PDF文件

?

??

?

下面的代码将展示如何从PDF文档中获取图片。同样,也只需要几行代码。

?

PdfDocument?doc?=?new?PdfDocument();
doc.LoadFromFile(");?
IList<Image>?images?=?new?List<Image>();
foreach?(PdfPageBase?page?in?doc.Pages)
{
if?(page.ExtractImages()?!=?null)
???{
?????foreach?(Image?image?in?page.ExtractImages())
?????????{
???????????????images.Add(image);
??????????}
???}
}
doc.Close();
int?index?=?0;
in?images)
{
??String?imageFileName?=?String.Format(Image-{0}.png运行后,所有的图片被保存为了.png格式。在debug文件夹里可以看到我们从PDF文档中获取的两幅图像。

?

??

下面的代码将显示如何从PDF文档中提取文本。

?

PdfDocument?doc?=?new?PdfDocument();
doc.LoadFromFile(");
?
StringBuilder?buffer?=?new?StringBuilder();
in?doc.Pages)
{
????buffer.Append(page.ExtractText());
}
doc.Close();
String?fileName?=?TextInPdf.txt";
File.WriteAllText(fileName,?buffer.ToString());
buffer?=?null;
?
?

?

提取的文本被保存为了.txt文件。详情见下图:

?

??



?

总结

? ?

? ? 总的来说,网上有很多用来操作PDF文档的第三方控件Free Spire.PDF的优点在于免费,易用,大大节省了开发者的时间。但是免费版本在加载和写出时,PDF页面被限制在了十页以内。不过这已经足够我项目的需要了。如果你的项目超出限制,也有收费版Spire.PDF可以使用。官方提供30天免费试用。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读