C#编程读取文档Doc、Docx及Pdf内容的方法
发布时间:2020-12-15 05:52:53 所属栏目:百科 来源:网络整理
导读:本篇章节讲解C#编程读取文档Doc、Docx及Pdf内容的方法。供大家参考研究。具体分析如下: Doc文档:Microsoft Word 14.0 Object Library (GAC对象,调用前需要安装word。安装的word版本不同,COM的版本号也会不同) Docx文档:Microsoft Word 14.0 Obj
本篇章节讲解C#编程读取文档Doc、Docx及Pdf内容的方法。分享给大家供大家参考。具体分析如下: Doc文档:Microsoft Word 14.0 Object Library (GAC对象,调用前需要安装word。安装的word版本不同,COM的版本号也会不同) /* 作者:GhostBear */ using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.IO; using System.Text.RegularExpressions; using org.pdfbox.pdmodel; using org.pdfbox.util; using Microsoft.Office.Interop.Word; namespace TestPdfReader { class Program { static void Main(string[] args) { //PDF PDDocument doc = PDDocument.load(@"C:resume.pdf"); PDFTextStripper pdfStripper = new PDFTextStripper(); string text = pdfStripper.getText(doc); string result = text.Replace('t',' ').Replace('n',' ').Replace('r',' ').Replace(" ",""); Console.WriteLine(result); //Doc,Docx object docPath = @"C:resume.doc"; object docxPath = @"C:resume.docx"; object missing=System.Reflection.Missing.Value; object readOnly=true; Application wordApp; wordApp = new Application(); Document wordDoc = wordApp.Documents.Open(ref docPath,ref missing,ref readOnly,ref missing); string text2 = FilterString(wordDoc.Content.Text); wordDoc.Close(ref missing,ref missing); wordApp.Quit(ref missing,ref missing); Console.WriteLine(text2); Console.Read(); } private static string FilterString(string input) { return Regex.Replace(input,@"(a|t|n|s+)",""); } } } 希望本文所述对大家的C#程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |