none
Melhor formar de capturar dados de outros sites RRS feed

  • Pergunta

  • Colegas,

     

     Estou criando um site que indexa conteúdos de outros sites. Porém preciso de idéias.

     A forma que faço hoje é o seguinte:

     1) capturo o código html da url que forneci

     2) seto variáveis com posIni e posFim que são fornecidas por exemplo

                Se quero pegar o título e sei que o título sempre vem entre tags <h5> </h5> eu pego o que está entre eles e jogo pra variável de título usando substring e indexof("<h5>")..

     

     A dúvida é: essa é a melhor maneira de fazer isso ? Acho muito trabalhoso e existe situações em que o código vai mudar.. o estilo vai mudar.. e eu vou perder as informações... vcs tem alguma outra idéia ? por exemplo o site www.saveme.com.br ... como ele indexa todo aquele conteúdo de outros sites pegando tudo certinho ?

     

     

    Valeu pessoal ! =) Obrigado.

     

    sexta-feira, 18 de fevereiro de 2011 13:51

Todas as Respostas

  • Sempre vai mudar de site para site. Não tem como voce definir um 'padrão' que afete todos os sites.

    É só utilizando WebRequest, WebResponse ou o WebClient mesmo.


    ----------------------------
    Bruno Seixas
    Analista de Sistemas
    terça-feira, 22 de fevereiro de 2011 14:22
  • Sempre vai mudar de site para site. Não tem como voce definir um 'padrão' que afete todos os sites.

    É só utilizando WebRequest, WebResponse ou o WebClient mesmo.


    ----------------------------
    Bruno Seixas
    Analista de Sistemas


    Complementando.

    Que tipo de conteúdo você quer indexar? Se couber, busque pelo RSS. O conteúdo é padronizado e muito mais fácil de ser manipulado. Obter qualquer informação direto do HTML é cilada na maioria das vezes.


    Denis Ferrari - "Faça pouco, faça sempre e faça direito" www.heroisdati.com
    quarta-feira, 30 de março de 2011 19:04