this is for holding javascript data
Thomas edited Neben_internen_Links_enthalten_Wikipedia__.tex
almost 8 years ago
Commit id: 9354907a179de5bace426f17697c0fc5eee41351
deletions | additions
diff --git a/Neben_internen_Links_enthalten_Wikipedia__.tex b/Neben_internen_Links_enthalten_Wikipedia__.tex
index 6b51c22..9f44c3b 100644
--- a/Neben_internen_Links_enthalten_Wikipedia__.tex
+++ b/Neben_internen_Links_enthalten_Wikipedia__.tex
...
Neben internen Links enthalten Wikipedia-Artikel auch externe Links zu anderen
Webseiten. Insbesondere die Quellenangaben bestehen oft ausschlielich aus Links zu
Nachrichtenseiten oder andere Informationsseiten. Oftmals sind die Links aber nach
ein paar Jahren nicht mehr gltig, weil zum Beispiel die Seite ihr Adressen-Schema
gendert hat oder komplett offline ist. Diese nennt man auch "`tote Links"'. \thispagestyle{fancy}
\lhead{\rm \small \Lehrstuhl{} \\ \small \Uni{} \\ \small \Name{} }
\rhead{\rm \Fach{} \\ \Semester{} \\ \Uebung{}}
In dieser Aufgabe soll eine Java-Programm geschrieben werden, das einen Link von
einem Wikipedia-Artikel erhlt und den Artikel auf tote Links berprft. Dabei geht
das Programm folgendermaen vor:
\begin{itemize}
\item Quelltext des Wikipedia-Artikels ber HTTPS herunterladen
\item Externe Links mit regulren Ausdrcken extrahieren
\item Allen externen Links nacheinander folgen, dh. ebenfalls den Quelltext der
Seiten herunterladen
\item{
Die externen Links klassifizieren auf Grund der Antwort des Servers
\begin{itemize}
\item Link ist tot, wenn der Server einen Fehlercode zurckgibt (die Codes
zwischen 400 und 599 sind Fehlercodes)
\item Link ist tot, wenn der Quelltext eine alleinstehende "`404"' enthlt.
(Eine Zahl wie "`24045"' deutet dagegen nicht auf einen toten Link hin.)
\item Es kann notwendig sein, einer Weiterleitung des Servers zu folgen. Eine
Weiterleitung an sich deutet noch nicht auf einen toten Link hin.
\end{itemize}
}
\end{itemize}
Wir ignorieren den Fall, dass die Zahl "`404"' legitim auf einer Seite vorkommt. \textbf{Wikipedia-Link-berprfer}\\