none
關於HtmlElement擷取TextNode的問題 RRS feed

  • 問題


  •  #region ProcessElement
            public void ProcessElement(HtmlElement parentelement, TreeNode nodes)
            {
                foreach (HtmlElement element in parentelement.Children)
                {
                    TreeNode node = new TreeNode();
                    node.Text = "<" + element.TagName + ">";
                    //node.Text = element.TagName ;
                    nodes.Nodes.Add(node);
                    node.Tag = element;
                    if (!string.IsNullOrEmpty(element.TagName) && element.TagName.ToLower() == "script")
                        continue;
                    if (!string.IsNullOrEmpty(element.TagName) && element.TagName.ToLower() == "style")
                        continue;
                    if (!string.IsNullOrEmpty(element.TagName) && element.TagName.ToLower() == "noscript")
                        continue;
                    if ((element.Children.Count == 0) && (element.OuterText!= null))
                    {
                        //node.Nodes.Add(element.InnerHtml);
                        //node.Nodes.Add(element.OuterHtml);
                        //node.Nodes.Add(element.InnerText);
                        //node.Tag = element;
                        node.Nodes.Add(element.OuterText);
                    }
                    else
                    {
                        node.Tag = element;
                        ProcessElement(element, node);   
                    }
                    
      
                      
                }
            }
            #endregion

    用了HtmlElement擷取網頁背後的原始碼,發生無法擷取類似Pchome這種的Html文件裡面的正文

    請教各位,我Process這個函數哪裡可以改善呢?

    2013年4月18日 上午 03:25

解答

所有回覆