ruby-on-rails – 逐行XML搜索
发布时间:2020-12-17 02:24:28 所属栏目:百科 来源:网络整理
导读:我有一个 XML文档,格式如下: document page column text par line/line /par /text /column /page/document 我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中: document page column text par lineHello/line /par /text /column co
我有一个
XML文档,格式如下:
<document> <page> <column> <text> <par> <line></line> </par> </text> </column> </page> </document> 我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中: <document> <page> <column> <text> <par> <line>Hello</line> </par> </text> </column> <column> <text> <par> <line>World</line> </par> </text> </column> </page> <page> <column> <text> <par> <line>What's</line> <line>Up?</line> </par> </text> </column> </page> </document> 我需要搜索“Hello World What is up?”并且知道它位于第1列第1行,第2列第1行和第3行第1-2行(第3页第1块). 我在线上有元数据,告诉我它是什么行号,以及它所属的列号,例如: <line linenum="1" columnnum="2">World</line> 在不同的列中搜索该术语的最佳方法是什么,并且能够知道它们所属的行和列的详细信息? 我可以得到第一个单词的所有实例,迭代每个单词并查看下面的单词是否与搜索单词(逐字逐句)相对应,如果该行中没有任何单词,请转到下一行.如果没有线路,请转到下一个区块.思考? 这是一个示例XML代码的真实片段,以及脚本返回的内容: <block> <text> <par> <line colnum="1" linenum="1"> (12) United States Patent </line> </par> <par> <line colnum="1" linenum="2"> Kar-Roy et al. </line> </par> </text> </block> <block> <text> <par> <line colnum="2" linenum="3"> US007078310B1 </line> </par> </text> </block> <block> <text> <par> <line colnum="3" linenum="4"> (io) Patent No.: US 7,078,310 B1 </line> </par> <par> <line colnum="3" linenum="5"> (45) Date of Patent: Jul. 18,2006 </line> </par> </text> </block> <block> <text> <par> <line> (54) METHOD FOR FABRICATING A HIGH </line> <line> DENSITY COMPOSITE MIM CAPACITOR </line> </par> </text> </block> 当我搜索“制作高的方法”时,映射{| f | f.text}返回: ["Kar-Roy et al.","US007078310B1","(io) Patent No.: US 7,310 B1","(45) Date of Patent: Jul. 18,2006","(54) METHOD FOR FABRICATING A HIGH"] 它看起来像五个字长,并且由于某种原因在实际结果之前获得了四行. 解决方法
这是我的想法:首先,将您的结构解析为像Nokogiri这样的XML解析器,然后使用XPath搜索来提取所有行元素.然后,将每个元素分解为该节点中包含的单词,这样我们就可以匹配仅与节点的一部分匹配的短语.然后,连续排序单词,使用each_cons(4)(其中4是您要搜索的单词数)来查看所有连续的四个单词集,并在连接时返回它们与搜索字符串匹配的单词.这是我的代码:
xml = Nokogiri::XML.parse(doc) search = "HIGH DENSITY" # 1. break down all the lines into words tagged with their nodes # 2. find matching subsequence # 3. build up from nodes nodes = xml.xpath('//line') words = nodes.map do |n| words_in_node = n.text.split(' ').map(&:upcase) # split into words and normalize words_in_node.map { |word| { word: word,node: n } } end words = words.flatten # at this point we have a single,ordered list like [ {word: "foo",node: ...},{word: "bar",node: ...} ] keywords = search.split(' ').map(&:upcase) result = words.each_cons(keywords.size).find do |sample| # Extract just the :word key from each hash,then compare to our search string sample_words = sample.map { |w| w[:word] } sample_words == keywords end if result puts "Found in these nodes:" puts result.map { |w| w[:node] }.uniq.inspect # you can find where each node was located via Nokogiri else puts "No match" end 哪个产生: Found in these nodes: [#<Nokogiri::XML::Element:0x4ea323e name="line" children=[#<Nokogiri::XML::Text:0x4ea294c "n (54) METHOD FOR FABRICATING A HIGHn ">]>,#<Nokogiri::XML::Element:0x4ea3018 name="line" children=[#<Nokogiri::XML::Text:0x4ea2654 "n DENSITY COMPOSITE MIM CAPACITORn ">]>] (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |