加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

查看生成的源(AJAX/JavaScript后)在C#

发布时间:2020-12-16 03:14:07 所属栏目:百科 来源:网络整理
导读:有没有办法从C#应用程序查看生成的网页源代码(所有AJAX调用和JavaScript DOM操作发生后),而不从代码打开浏览器? 使用WebRequest或WebClient对象查看初始页面可以正常工作,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面不会提供准确的页
有没有办法从C#应用程序查看生成的网页源代码(所有AJAX调用和JavaScript DOM操作发生后),而不从代码打开浏览器?

使用WebRequest或WebClient对象查看初始页面可以正常工作,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面不会提供准确的页面图片。

我已经尝试使用Selenium和Watin UI测试框架,他们工作完美,提供生成的源,它出现在所有JavaScript操作完成后。不幸的是,他们通过打开一个实际的Web浏览器,这是非常缓慢。我实现了一个硒服务器,将这项工作卸载到另一台机器,但仍然有相当大的延迟。

有一个.Net库,将加载和解析一个页面(如浏览器)和吐出生成的代码?显然,谷歌和雅虎没有打开浏览器的每一个页面,他们想要蜘蛛(当然,他们可能有比我更多的资源…)。

有没有这样的图书馆或者我是运气,除非我愿意剖析开源浏览器的源代码?

好了,谢谢大家的帮助。我有一个工作的解决方案,比Selenium快大约10X。哇!

感谢这个old article from beansoftware我能够使用System.Windows.Forms.WebBrowser控件下载页面并解析它,然后给em生成的源。即使控件是在Windows.Forms,你仍然可以运行它从Asp.Net(这是我正在做的),只记得添加System.Window.Forms到你的项目引用。

关于代码有两个值得注意的地方。首先,在新线程中调用WebBrowser控件。这是因为它必须在single threaded apartment上运行。

其次,GeneratedSource变量设置在两个地方。这不是由于一个智能的设计决定:)我仍然工作,并将在我完成时更新这个答案。 wb_DocumentCompleted()被多次调用。首先下载初始HTML,然后第一轮JavaScript完成时再次。不幸的是,我刮的网站有3个不同的装载阶段。 1)加载初始HTML 2)进行第一轮JavaScript DOM操作3)暂停半秒,然后进行第二轮JS DOM操作。

由于某些原因,第二轮不是由wb_DocumentCompleted()函数引起的,但是它总是在wb.ReadyState == Complete时被捕获。那么为什么不从wb_DocumentCompleted()中删除它?我仍然不知道为什么它没有抓到那里,这是beadsoftware文章推荐把它。我要继续研究它。我只是想发布这个代码,所以有兴趣的人可以使用它。请享用!

using System.Threading;
using System.Windows.Forms;

public class WebProcessor
{
    private string GeneratedSource{ get; set; }
    private string URL { get; set; }

    public string GetGeneratedHTML(string url)
    {
        URL = url;

        Thread t = new Thread(new ThreadStart(WebBrowserThread));
        t.SetApartmentState(ApartmentState.STA);
        t.Start();
        t.Join();

        return GeneratedSource;
    }

    private void WebBrowserThread()
    {
        WebBrowser wb = new WebBrowser();
        wb.Navigate(URL);

        wb.DocumentCompleted += 
            new WebBrowserDocumentCompletedEventHandler(
                wb_DocumentCompleted);

        while (wb.ReadyState != WebBrowserReadyState.Complete)
            Application.DoEvents();

        //Added this line,because the final HTML takes a while to show up
        GeneratedSource= wb.Document.Body.InnerHtml;

        wb.Dispose();
    }

    private void wb_DocumentCompleted(object sender,WebBrowserDocumentCompletedEventArgs e)
    {
        WebBrowser wb = (WebBrowser)sender;
        GeneratedSource= wb.Document.Body.InnerHtml;
    }
}
它可能使用浏览器的一个实例(在你的情况下:ie控件)。您可以轻松地在您的应用程序中使用,并打开一个页面控件将加载它并处理任何javascript。一旦这样做,你可以访问控制dom对象并获得“解释”代码。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读