DomCrawler Symfony:如何从不包括孩子的节点获取内容?
发布时间:2020-12-14 19:41:16 所属栏目:资源 来源:网络整理
导读:可以说我有一个像这样的html页面: htmlhead/headbody Hello World! div my other content /div/body/html 我如何从DOM Crawler获得“Hello World”? 我认为这会奏效: $crawler = $crawler -filter('body div'); -reduce(function (Crawler $node,$i) { re
可以说我有一个像这样的html页面:
<html> <head></head> <body> Hello World! <div> my other content </div> </body> </html> 我如何从DOM Crawler获得“Hello World”? 我认为这会奏效: $crawler = $crawler ->filter('body > div'); ->reduce(function (Crawler $node,$i) { return false; }); 但这显然会出错: InvalidArgumentException: "The current node list is empty" 解决方法
不知道这是否可以更容易,但您可以使用XPath提取文本节点内容:
$crawler->filterXPath('//body/text()')->text(); 结果将是一个包含Hello World的字符串,文本前后的空格直到第一个标记.因此,如果您只需要文本本身,则可以修剪该值: $helloWorld = trim($crawler->filterXPath('//body/text()')->text()); 但是,如果您在正文中有多个文本节点,这将适用于您的情况,例如: <html> <head></head> <body> Hello World! <div> my other content </div> Some other text </body> </html> 你可能会这样做: $crawler->filterXPath('//body/text()')->extract(['_text'])); 这将返回一个数组: Array ( [0] => Hello World! [1] => Some other text ) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |