Thomas edited begin_itemize_item_item1_end__.tex  almost 8 years ago

Commit id: 106ed3f285c48429086ad55cda44268a8ecb5bab

deletions | additions      

       

Neben internen Links enthalten Wikipedia-Artikel auch externe Links zu anderen   Webseiten. Insbesondere die Quellenangaben bestehen oft ausschließlich aus Links zu   Nachrichtenseiten oder andere Informationsseiten. Oftmals sind die Links aber nach   ein paar Jahren nicht mehr gültig, weil zum Beispiel die Seite ihr Adressen-Schema   geändert hat oder komplett offline ist. Diese nennt man auch "`tote Links"'.  In dieser Aufgabe soll eine Java-Programm geschrieben werden, das einen Link von   einem Wikipedia-Artikel erhält und den Artikel auf tote Links überprüft. Dabei geht   das Programm folgendermaßen vor:  \begin{itemize}  \item item1 Quelltext des Wikipedia-Artikels über HTTPS herunterladen  \item Externe Links mit regulären Ausdrücken extrahieren  \item Allen externen Links nacheinander folgen, dh. ebenfalls den Quelltext der   Seiten herunterladen  \item{  Die externen Links klassifizieren auf Grund der Antwort des Servers  \begin{itemize}  \item Link ist tot, wenn der Server einen Fehlercode zurückgibt (die Codes   zwischen 400 und 599 sind Fehlercodes)  \item Link ist tot, wenn der Quelltext eine alleinstehende "`404"' enthält.  (Eine Zahl wie "`24045"' deutet dagegen nicht auf einen toten Link hin.)  \item Es kann notwendig sein, einer Weiterleitung des Servers zu folgen. Eine   Weiterleitung an sich deutet noch nicht auf einen toten Link hin.  \end{itemize}  }  \end{itemize}  \begin{lstlisting}  for i:=maxint to 0 do  begin  { do nothing }  end;  Write('Case insensitive ');  Write('Pascal keywords.');  \end{lstlisting} Wir ignorieren den Fall, dass die Zahl "`404"' legitim auf einer Seite vorkommt.