C#编程读取文档Doc、Docx及Pdf内容的方法
发布时间:2020-12-15 05:52:53 所属栏目:百科 来源:网络整理
导读:本篇章节讲解C#编程读取文档Doc、Docx及Pdf内容的方法。供大家参考研究。具体分析如下: Doc文档:Microsoft Word 14.0 Object Library (GAC对象,调用前需要安装word。安装的word版本不同,COM的版本号也会不同) Docx文档:Microsoft Word 14.0 Obj
|
本篇章节讲解C#编程读取文档Doc、Docx及Pdf内容的方法。分享给大家供大家参考。具体分析如下: Doc文档:Microsoft Word 14.0 Object Library (GAC对象,调用前需要安装word。安装的word版本不同,COM的版本号也会不同)
/*
作者:GhostBear
*/
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
using Microsoft.Office.Interop.Word;
namespace TestPdfReader
{
class Program
{
static void Main(string[] args)
{
//PDF
PDDocument doc = PDDocument.load(@"C:resume.pdf");
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
string result = text.Replace('t',' ').Replace('n',' ').Replace('r',' ').Replace(" ","");
Console.WriteLine(result);
//Doc,Docx
object docPath = @"C:resume.doc";
object docxPath = @"C:resume.docx";
object missing=System.Reflection.Missing.Value;
object readOnly=true;
Application wordApp;
wordApp = new Application();
Document wordDoc = wordApp.Documents.Open(ref docPath,ref missing,ref readOnly,ref missing);
string text2 = FilterString(wordDoc.Content.Text);
wordDoc.Close(ref missing,ref missing);
wordApp.Quit(ref missing,ref missing);
Console.WriteLine(text2);
Console.Read();
}
private static string FilterString(string input)
{
return Regex.Replace(input,@"(a|t|n|s+)","");
}
}
}
希望本文所述对大家的C#程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
