none
Mejor manera de obtener texto de paginas web. c# RRS feed

  • Pregunta

  • Hola a toda la comunidad, 

    Estoy trabajando en un projecto en C# en el que me interesaría poder obtener segmentos de texto a partir de distintas paginas web.

    La duda seria en que cual seria la mejor forma de parsear el contenido html (Obtenido con WebClient) para cojer los textos deseados.

    Me he documentado un poco y el método mas usado seria el pasar el contenido html a xml y interpretar este para conseguir los textos.

    Cuales serian las mejores librerías que me ayudaran con la conversión del html a xml y luego como poder trabajar con el xml, o si el .NET ya incorpora classes que lo permitan.

    Gracias de antemano y cualquier tutorial o referencia me ayudaría.


    viernes, 27 de mayo de 2011 11:33

Respuestas

  • hola

    el tema es obtener, o parsear el html que recuperas de la pagina ?

    porque obtener se podria como bien ahs comentado con la funcionalidad de la clase WebClient

    pero parsear y recuperar informacion es otra cosa distinta

    Html Agility Pack

    como veras podrias cargar el html recuperar en el parser y luego por medio de xpath realziar consultas, seria similar a trabjar con un xml como has comentado

     

    otra forma podrias ser haciando uso del control WebBrowser, con este podrias tambien procesar el DOM del html, podrias poner el control invisible o solo crear una instancia del mismo ,sin poner el control fisicamente en el form

    http://social.msdn.microsoft.com/Forums/es/vcses/thread/e55dc942-48fe-4d34-b405-c56ab34a7cdc

    http://social.msdn.microsoft.com/Forums/es-ES/vcses/thread/dc37e4ab-fc87-4382-b1fe-f1c22c68d029

     

    saludos


    Leandro Tuttini

    Blog
    Buenos Aires
    Argentina
    • Marcado como respuesta Manu.ss viernes, 27 de mayo de 2011 12:44
    • Desmarcado como respuesta Manu.ss viernes, 27 de mayo de 2011 12:44
    • Marcado como respuesta Eduardo PorteschellerModerator lunes, 30 de mayo de 2011 14:23
    viernes, 27 de mayo de 2011 11:51
  • exacto con el WebBrowser puedes interactuar con la pagina realziando acciones en esta, es una forma util de oeprar con una pagina

     

    lo ideal es que tu marques las respuestas que te ayudaron


    Leandro Tuttini

    Blog
    Buenos Aires
    Argentina
    viernes, 27 de mayo de 2011 12:57

Todas las respuestas

  • hola

    el tema es obtener, o parsear el html que recuperas de la pagina ?

    porque obtener se podria como bien ahs comentado con la funcionalidad de la clase WebClient

    pero parsear y recuperar informacion es otra cosa distinta

    Html Agility Pack

    como veras podrias cargar el html recuperar en el parser y luego por medio de xpath realziar consultas, seria similar a trabjar con un xml como has comentado

     

    otra forma podrias ser haciando uso del control WebBrowser, con este podrias tambien procesar el DOM del html, podrias poner el control invisible o solo crear una instancia del mismo ,sin poner el control fisicamente en el form

    http://social.msdn.microsoft.com/Forums/es/vcses/thread/e55dc942-48fe-4d34-b405-c56ab34a7cdc

    http://social.msdn.microsoft.com/Forums/es-ES/vcses/thread/dc37e4ab-fc87-4382-b1fe-f1c22c68d029

     

    saludos


    Leandro Tuttini

    Blog
    Buenos Aires
    Argentina
    • Marcado como respuesta Manu.ss viernes, 27 de mayo de 2011 12:44
    • Desmarcado como respuesta Manu.ss viernes, 27 de mayo de 2011 12:44
    • Marcado como respuesta Eduardo PorteschellerModerator lunes, 30 de mayo de 2011 14:23
    viernes, 27 de mayo de 2011 11:51
  • Gracias, veo que también se puede obtener el texto a partir de WebBrowser, llenar formularios y hasta hacer clicks. Perfecto mas tarde lo compruebo.

    Ha y hay que "marcar como respuesta" si me fue útil, o solo lo hacen moderadores.... Perdón!

    viernes, 27 de mayo de 2011 12:50
  • exacto con el WebBrowser puedes interactuar con la pagina realziando acciones en esta, es una forma util de oeprar con una pagina

     

    lo ideal es que tu marques las respuestas que te ayudaron


    Leandro Tuttini

    Blog
    Buenos Aires
    Argentina
    viernes, 27 de mayo de 2011 12:57