none
[C#]關於擷取網頁內容 RRS feed

  • 問題

  • 一般的取得網路上有很多範例了

    如果是夾帶cookie ,session的網頁

    要取到的有些都會在驗證的時候被擋掉

    我很好奇Dr. eye的網頁翻譯

    只要是IE 大部分

    就算是夾帶cookie ,session的網頁也可以順利翻譯

    翻譯的文字就連"檢視原始碼"也找不到(像是yahoo mail 的信件列表)

    如果用web crawler 技術上可以達成抓取夾帶cookie or session 網頁的純文字內容嗎?

    2013年3月29日 上午 03:59

解答

所有回覆

  • 可以啊,你自己記錄Response回來的cookie再放到下一次Request即可。

    另外,沒有夾帶session這件事,只有cookie而已。

    2013年3月29日 上午 04:05
  • 記錄Response?

    可我並不知道cookie在哪裡耶

    其實這功能主要是在監控特定人員的上網行為

    我可以在使用IE的時候截到當下使用的URL

    就是他點到連結的時候的網址(我的最愛、網頁裡的連結...)

    但也僅此而已

    如果要用這個URL重送一次Request勢必有可能

    要夾帶Cookie

    有辦法在使用IE的時候攔截到Request的cookie嗎?(怎麼好像變木馬程式了= =)

    PS:

    其實也不是一定要用cookie

    只是要取得登入後的純文字網頁內容,我只想到這種方式。

    2013年3月29日 上午 05:39
  • 您好,
    使用 webbrowser 控制項是否OK呢?
    C# 自動登入網頁(使用webbrowser HtmlElement)

    C# - Log In To Website Programmatically


    以上說明若有錯誤請指教,謝謝。
    亂馬客blog: http://www.dotblogs.com.tw/rainmaker/

    2013年3月29日 上午 07:53
  • 您好,
    使用 webbrowser 控制項是否OK呢?
    ...

    不行

    因為Webbrowser會有UI介面

    正在嘗試別的方法

    不過還是感謝您的回應:)

    2013年3月29日 下午 01:45
  • 你要找的討論:

    http://social.msdn.microsoft.com/Search/zh-TW/?Refinement=112&query=WebClient%20cookies

    不過我不認為是,簡單一點自己架網頁測測翻譯功能,就知道是不是自動登入。

    我是偏向抓 InternetExplorer.document.body 來翻譯。

    2013年3月29日 下午 03:54
  • 其實現在我的方向變成

    用另一種IE提供的API實作

    因為剛好這個API需要用到Handle

    我有辦法取得送完Request的視窗的

    只是這樣變成針對IE所做的內容擷取

    方法有點複雜

    試成功在分享吧XD

    2013年3月31日 上午 10:55
  • session是放在Server端儲存的
    但是卻是通過Http檔頭用Setcookie傳sessionID 給用戶端
    如果是需要登入的網站, 就必須自己處理Setcookie
    在下次Request時再把sessionID用Setcookie傳給Server端
    這樣就會保持在登入狀態了

    不同的網頁程式(ASP, ASP.NET, JSP, PHP)
    sessionID也不一樣
    所以你要找能監看Http檔頭的工具

    player


    • 已編輯 p1ayer 2013年4月3日 上午 10:41
    2013年4月3日 上午 10:40
  • 最後對瀏覽器下手

    是用handle和DOM配合的方式抓到,可是是用delphi寫的...

    Chrome還是抓不到

    有人用過TChromium 嗎?

    2013年4月17日 上午 02:23
  • TChromium 猜測應該是在Delphi 安裝 CEF 所產生的型別
    如果你要詢問TChromium的問題 可以到 其它論壇相關版面或是到 http://code.google.com/p/dcef3/issues/list 詢問
    .NET 平台範例請參考
    https://github.com/chillitom/CefSharp#readme


    以下為簽名檔,如果你愛拉椅子坐那就是你的問題。
    先查MSDN文件庫
    再用GOOGLE搜尋
    才到論壇來發問

    這是論壇不是技術支援中心
    沒有人得無償解答你的問題

    在標題或文章註明很急
    不會增加網友回覆速度
    微軟實戰課程日

    2013年4月17日 上午 05:06
  • 最後IE FIREFOX決定用MSAA 來做(MSAA實在太OP了)

    討人厭的Chrome就用TChromium元件

    2013年4月25日 上午 05:25