none
关于爬虫抓取网页的一个小问题 RRS feed

全部回复

  • 你好 erdao,

    在你页面HTML的head里加入
    <q><meta name=”fragment” content=”!”></q>
    如果你<q>top.baidu.com</q>页面加入了<q><meta name=”fragment” content=”!”></q>,爬虫会临时地将页面映射为<q>top.baidu.com?_escaped_fragment_= </q>并向服务器发出请求。服务器就相应的返回<q>top.baidu.com</q>的HTML快照。请注意,使用这个标签有一个重要的限制:唯一有效的内容是“!”,换句话说,这个meta标签只有这个格式:<q><meta name=”fragment” content=”!”></q>,表示一个无hash段的,通过Ajax获取内容的页面。

     你可以参考一下这个列子“让你的Ajax应用被Google抓取”,链接:http://i.wanz.im/2010/03/05/making_ajax_applications_crawlable/


    Happy Chen (Pactera Technologies Inc) Happy Chen<br/> MSDN Community Support | <a href="mailto:msdnmg@microsoft.com">Feedback to us</a><br/> <a href="http://blogs.msdn.com/b/win8devsupport/"><font color="red">Develop and promote your apps in Windows Store</font></a><br/> Please remember to mark the replies as answers if they help and unmark them if they provide no help.

    2013年8月2日 9:07
    版主