Neben internen Links enthalten Wikipedia-Artikel auch externe Links zu anderen Webseiten. Insbesondere die Quellenangaben bestehen oft ausschlielich aus Links zu Nachrichtenseiten oder andere Informationsseiten. Oftmals sind die Links aber nach ein paar Jahren nicht mehr gltig, weil zum Beispiel die Seite ihr Adressen-Schema gendert hat oder komplett offline ist. Diese nennt man auch ”‘tote Links”’.

In dieser Aufgabe soll eine Java-Programm geschrieben werden, das einen Link von einem Wikipedia-Artikel erhlt und den Artikel auf tote Links berprft. Dabei geht das Programm folgendermaen vor:

  • Quelltext des Wikipedia-Artikels ber HTTPS herunterladen

  • Externe Links mit regulren Ausdrcken extrahieren

  • Allen externen Links nacheinander folgen, dh. ebenfalls den Quelltext der Seiten herunterladen

  • Die externen Links klassifizieren auf Grund der Antwort des Servers

    • Link ist tot, wenn der Server einen Fehlercode zurckgibt (die Codes zwischen 400 und 599 sind Fehlercodes)

    • Link ist tot, wenn der Quelltext eine alleinstehende ”‘404”’ enthlt. (Eine Zahl wie ”‘24045”’ deutet dagegen nicht auf einen toten Link hin.)

    • Es kann notwendig sein, einer Weiterleitung des Servers zu folgen. Eine Weiterleitung an sich deutet noch nicht auf einen toten Link hin.

Wir ignorieren den Fall, dass die Zahl ”‘404”’ legitim auf einer Seite vorkommt.