ruby-on-rails – 逐行XML搜索

发布时间：2020-12-17 02:24:28 所属栏目：百科来源：网络整理

导读：我有一个 XML文档,格式如下： document page column text par line/line /par /text /column /page/document 我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中： document page column text par lineHello/line /par /text /column co

我有一个 XML文档,格式如下：

<document>
  <page>
    <column>
      <text>
        <par>
          <line></line>
        </par>
      </text>
    </column>
  </page>
</document>

我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中：

<document>
  <page>
    <column>
      <text>
        <par>
          <line>Hello</line>
        </par>
      </text>
    </column>
    <column>
      <text>
        <par>
          <line>World</line>
        </par>
      </text>
    </column>
  </page>
  <page>
    <column>
      <text>
        <par>
          <line>What's</line>
          <line>Up?</line>
        </par>
      </text>
    </column>
  </page>
</document>

我需要搜索“Hello World What is up？”并且知道它位于第1列第1行,第2列第1行和第3行第1-2行(第3页第1块).

我在线上有元数据,告诉我它是什么行号,以及它所属的列号,例如：

<line linenum="1" columnnum="2">World</line>

在不同的列中搜索该术语的最佳方法是什么,并且能够知道它们所属的行和列的详细信息？

我可以得到第一个单词的所有实例,迭代每个单词并查看下面的单词是否与搜索单词(逐字逐句)相对应,如果该行中没有任何单词,请转到下一行.如果没有线路,请转到下一个区块.思考？

这是一个示例XML代码的真实片段,以及脚本返回的内容：

<block>
  <text>
    <par>
      <line colnum="1" linenum="1">
        (12) United States Patent
      </line>
    </par>
    <par>
      <line colnum="1" linenum="2">
        Kar-Roy et al.
      </line>
    </par>
  </text>
</block>
<block>
  <text>
    <par>
      <line colnum="2" linenum="3">
        US007078310B1
      </line>
    </par>
  </text>
</block>
<block>
  <text>
    <par>
      <line colnum="3" linenum="4">
        (io) Patent No.: US 7,078,310 B1
      </line>
    </par>
    <par>
      <line colnum="3" linenum="5">
        (45) Date of Patent: Jul. 18,2006
      </line>
    </par>
  </text>
</block>
<block>
  <text>
    <par>
      <line>
        (54) METHOD FOR FABRICATING A HIGH
      </line>
      <line>
        DENSITY COMPOSITE MIM CAPACITOR
      </line>
    </par>
  </text>
</block>

当我搜索“制作高的方法”时,映射{| f | f.text}返回：

["Kar-Roy et al.","US007078310B1","(io) Patent No.: US 7,310 B1","(45) Date of Patent: Jul. 18,2006","(54) METHOD FOR FABRICATING A HIGH"]

它看起来像五个字长,并且由于某种原因在实际结果之前获得了四行.

解决方法

这是我的想法：首先,将您的结构解析为像Nokogiri这样的XML解析器,然后使用XPath搜索来提取所有行元素.然后,将每个元素分解为该节点中包含的单词,这样我们就可以匹配仅与节点的一部分匹配的短语.然后,连续排序单词,使用each_cons(4)(其中4是您要搜索的单词数)来查看所有连续的四个单词集,并在连接时返回它们与搜索字符串匹配的单词.这是我的代码：

xml = Nokogiri::XML.parse(doc)

search = "HIGH DENSITY"

# 1. break down all the lines into words tagged with their nodes
# 2. find matching subsequence
# 3. build up from nodes

nodes = xml.xpath('//line')
words = nodes.map do |n|
  words_in_node = n.text.split(' ').map(&:upcase) # split into words and normalize
  words_in_node.map { |word| { word: word,node: n } }
end
words = words.flatten # at this point we have a single,ordered list like [ {word: "foo",node: ...},{word: "bar",node: ...} ]

keywords = search.split(' ').map(&:upcase)
result = words.each_cons(keywords.size).find do |sample|
  # Extract just the :word key from each hash,then compare to our search string
  sample_words = sample.map { |w| w[:word] }
  sample_words == keywords
end

if result
  puts "Found in these nodes:"
  puts result.map { |w| w[:node] }.uniq.inspect
  # you can find where each node was located via Nokogiri
else
  puts "No match"
end

哪个产生：

Found in these nodes:
[#<Nokogiri::XML::Element:0x4ea323e name="line" children=[#<Nokogiri::XML::Text:0x4ea294c "n        (54) METHOD FOR FABRICATING A HIGHn      ">]>,#<Nokogiri::XML::Element:0x4ea3018 name="line" children=[#<Nokogiri::XML::Text:0x4ea2654 "n        DENSITY COMPOSITE MIM CAPACITORn      ">]>]

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!