Recherche chaud: wikihow democratie comment cuire hanche de boeuf SYMPTOME TUBERCULOSE GLAIRES COLLANTES vidmat.jeux comment reparee matelas hopital reponse à une lettre daurevoir partie femelle dune fleur comment peut comprendre la musique
Index Loisirs Santé Technologie

Comment extraire des données de site web en utilisant Webscrap4j Bibliothèque en Java

Publié:2012-02-25Source: général
Advertisement

Cet article n'a pas encore passé le processus d'examen de la qualité de wikiHow. Apprendre encore plus

Raclage Web (plus connu comme la récolte de Web ou l'extraction de l'information Web) est une méthode d'extraction de données à partir de sites Web. Il décrit l'une quelconque des divers moyens pour extraire le contenu à partir d'un matériau site Web sur HTTP dans le but de remodeler que le matériel contenu dans un autre format approprié pour être utilisé dans un autre contexte. Utilisant un grattoir web, vous serez en mesure d'extraire le matériel contenu utile de la page web net et convertir en tout format pertinent.

D'accord,
CloseThis article n'a pas encore passé le processus d'examen de la qualité de wikiHow. Apprendre encore plus



Cet article a été identifiée comme un bout.

Cela signifie qu'il est hors d'un bon début, mais il a encore de place pour grandir dans une ressource plus utile. Jusqu'à l'article atteint son plein potentiel, il sera caché des résultats de recherche. Pouvez-vous l'aider à prospérer? Si vous pensez que l'article propose des instructions complètes et précises, vous pouvez supprimer ce tag.

Étapes

1

Faire une instance de classe ofWebScrap.

WebScrap ws = new WebScrap ();

2

Réglez votre site web dont les données que vous voulez extraire

ws.setUrl ("http://dasnicdev.github.io/webscrap4j/");

3

Début démolition séance est maintenant chose faite, vous pouvez extraire des données en appelant leurs méthodes.:

ws.startWebScrap ();

4

Utilisez cette ligne pour obtenir un titre:

System.out.println (ws.getSingleHTMLTagData ("title"));

5

Utilisez-le pour un slogan:

System.out.println (ws.getSingleHTMLScriptData ("", ""));

6

Utilisez-le pour toutes les balises d'ancrage:

ArrayList al = new ArrayList (); al = ws.getImageTagData ("a", "href");

pour (String ADATA: al)

{

System.out.println (ADATA);

}

7

Utilisez-le pour des données d'image:

System.out.println (ws.getImageTagData ("img", "src"));

System.out.println (ws.getImageTagData ("img", "alt"));

Conseils

Importer deux classes java.util.regex.Matcher et java.util.regex.Pattern sont obligatoires!

Avertissements

Si vous obtenez une erreur, vérifiez votre Internet fonctionne et ensuite vérifier si votre URL est correcte ou non.

[Rédacteur: Admin]
Je vous imagine comme

Articles recommandés

Cliquez Top Ranking