Quelltext aus Webseiten auslesen (Java): Unterschied zwischen den Versionen

Version vom 18. August 2014, 18:35 Uhr

Wenn man Webseiten bearbeiten oder parsen möchte, muss zunächst der Quelltext der Webseite geholt werden. Dazu wird ein Stream zur Datenquelle erzeugt. Es gibt mehrere Möglichkeiten, den Quelltext aus einem Stream in den Speicher einzulesen. Z.B. stehen uns hier die Klassen Scanner oder BufferedReader zur Verfügung. Welche davon genutzt wird, hängt z.T. von den persönlichen Vorlieben, von der Ziel-JRE, oder den angebotenen Methoden ab.

<code=java> URL url = new URL("http://www.byte-welt.net"); Scanner scanner = new Scanner(new InputStreamReader(url.openStream())); </code=java> Damit ist ein Stream zur Index-Seite von Byte-Welt geöffnet, aus dem wir nun den Textinhalt der Webseite (also HTML-Text, nicht der PHP-Code) lesen können.

<code=java> JTextArea ta = new JTextArea(); while(scanner.hasNext()) {

  ta.append(scanner.nextLine()+"\n");

}

add(new JScrollPane(ta); </code=java> In diesem Beispiel würden wir den ausgelesenen Quelltext in einer JTextArea ausgeben.

Version vom 18. August 2014, 18:30 Uhr (Quelltext anzeigen) L-ectron-x (Diskussion \| Beiträge) (Die Seite wurde neu angelegt: „Wenn man Webseiten bearbeiten oder parsen möchte, muss zunächst der Quelltext der Webseite geholt werden. Dazu wird ein Stream zur Datenquelle erzeugt. Es gibt …“)		Version vom 18. August 2014, 18:35 Uhr (Quelltext anzeigen) L-ectron-x (Diskussion \| Beiträge) K Zum nächsten Versionsunterschied →
Zeile 19:		Zeile 19:
	In diesem Beispiel würden wir den ausgelesenen Quelltext in einer JTextArea ausgeben.		In diesem Beispiel würden wir den ausgelesenen Quelltext in einer JTextArea ausgeben.

−	[[Kategorie:Java]	+	[[Kategorie:Java]]

Quelltext aus Webseiten auslesen (Java): Unterschied zwischen den Versionen

Version vom 18. August 2014, 18:35 Uhr

Navigationsmenü

Seitenaktionen

Seitenaktionen

Meine Werkzeuge

Navigation

Byte-Welt

Suche

Werkzeuge