c# – 如何使用ScrapySharp解析html文档中的元素？

发布时间：2020-12-15 04:29:35 所属栏目：百科来源：网络整理

导读：这是项目官方“文档”： https://bitbucket.org/rflechner/scrapysharp/wiki/Home 无论我尝试什么,我都找不到库应该添加的CssSelect()方法,以使查询更容易.这是我尝试过的： using ScrapySharp.Core;using ScrapySharp.Html.Parsing;using HtmlAgilityPack;H

这是项目官方“文档”：

https://bitbucket.org/rflechner/scrapysharp/wiki/Home

无论我尝试什么,我都找不到库应该添加的CssSelect()方法,以使查询更容易.这是我尝试过的：

using ScrapySharp.Core;
using ScrapySharp.Html.Parsing;
using HtmlAgilityPack;

HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load("http://www.stackoverflow.com");

var page = doc.DocumentNode.SelectSingleNode("//body");
page.CssSel???

具体如何使用此库？在文档中,不清楚html是什么类型.

解决方法

加

using ScrapySharp.Extensions;

看起来你错过了.这应该使CssSelect可用.

为了防止示例有用,这里也是我在项目中使用的方法：

private string GetPdfUrl(HtmlDocument document,string baseUrl)
{
    return new Uri(new Uri(baseUrl),document.DocumentNode.CssSelect(".table-of-content .head-row td.download a.text-pdf").Single().Attributes["href"].Value).ToString();
}

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!