siwecos / ws-domainvalidator Goto Github PK

DomainValidator & Crawler for the SIWECOS Project

License: Other

Dockerfile 0.97% Java 99.03%

ws-domainvalidator's Issues

Option `allowSubdomains` implementieren

Um die Crawler-Funktionalität direkt zu integrieren wäre eine Option allowSubdomains wünschenswert.

Sofern allowSubdomains: false gesetzt wird, sollen nur crawledUrls der angegebenen domain zurückgeliefert werden. false kann hierbei auch gerne der Standard-Wert sein.

Externe URLs sollten generell nicht zurückgeliefert werden.

Option allowSubdomains fehlerhaft

Wird allowSubdomains: false gesetzt, so liefert der Crawler keine crawledUrls mehr aus.

Ziel der Option soll es ja sein, bspw. bei Übergabe der Domain siwecos.de lediglich Ergebnisse für siwecos.de und nicht für bspw. blog.siwecos.de oder www.siwecos.de zu liefern.

Momentan wird jedoch kein Crawling mehr ausgeführt.

Timeout für Callbacks fehlt

Momentan gibt es anscheinend kein Timeout für die Callback Routine:

Ist ein Port bzw. die Adresse nicht erreichbar, so bleibt der Thread blockiert.

Support für Umlaut-Domains integrieren

Momentan können keine Domains mit Sonderzeichen genutzt werden

.space TLD wird nicht aufgelöst

Wir haben eine Domain, welche die TLD .space nutzt.

Diese wird nicht aufgelöst und als syntaktisch inkorrekt markiert:

{
   "name":"Validator",
   "hasError":false,
   "domain":null,
   "originalUrl":"http://example.space",
   "urlToScan":null,
   "urlIsSyntacticalOk":false,
   "dnsResolves":null,
   "httpCouldConnect":null,
   "httpStatusCode":null,
   "httpRedirect":null,
   "mailServerDomainList":null,
   "crawledUrls":null
}

Callback Implementieren

Die Option callbackurls wird benötigt, um den Validator / Crawler in regelmäßigen Abständen erneut anstoßen zu können um bspw. die Liste der MX-Domains aber auch der crawledUrls zu aktualisieren.

Entsprechend soll dann eine Queue abgearbeitet werden und das Ergebnis an die definierten URLs gesendet werden.

Anpassung Log-Level

Momentan werden alle Debug-Logs mit ausgegeben.

Bitte Log-Level auf mind. Info anheben, ggf. mehr - soweit sinnvoll.

Detektion Seite nicht erreichbar

Beim Starten des Validators/Crawlers mit einer nicht (mehr) existierenden Domain bekomme ich folgende Antwort:

{
   "name":"Validator",
   "hasError":false,
   "domain":"not-existingfakjsdfjka.com",
   "originalUrl":"http://not-existingfakjsdfjka.com",
   "urlToScan":"http://not-existingfakjsdfjka.com",
   "urlIsSyntacticalOk":true,
   "dnsResolves":false,
   "httpRedirect":null,
   "mailServerDomainList":[

   ],
   "crawledUrls":[

   ]
}

Ich erhalte die Felder httpRedirect: null und dnsResolves: false, jedoch auch hasError: false.

Fragen

Müsste das hasError nicht true sein?
originalUrl: Was besagt dieser Wert? Es scheint, als wäre an die Domain einfach das http://-Schema angehängt?
Für SIWECOS ist ja hauptsächlich der Webauftritt relevant. Wie kann man erkennen, ob die Seite noch erreichbar / online ist? Dies ist relevant für SIWECOS/siwecos-business-layer#138

Umbenennung crawledDomains zu crawledUrls

Es sollen auf der Haupt-URL der übermittelten Domain weitere URLs gefunden werden.

Daher die Umbennung der Ergebnis-Liste von crawledDomains zu crawledUrls.

Option `maxAmountUrlsToCrawl` implementieren

Eine optionale Begrenzung der Anzahl der zurückgelieferten gecrawlten URLs wird benötigt.

Wird bspw. maxAmountUrlsToCrawl: 10 gesendet, sollen maximal 10 URLs zurückgeliefert werden.

Hierbei werden nicht die 10 ersten URLs gewünscht, sondern die 10 "priorisiertesten".
Siehe hierzu auch weitere Kommunikation.

Callback optional machen oder Input-Validierung

Wird kein valider callbackurls-Parameter beim Request mitgegeben, so wird der Validator den Request mit HTTP 200 und Success annehmen, ihn abarbeiten und dann ene java.lang.NullPointerException werfen, da das Feld fehlt.

Entweder ohne callbackurls-Parameter direkt die Ergebnisse zurückliefern wie in der früheren Version oder entsprechende Fehlermeldung beim Start senden.

DomainValidator durch Domain in 100%-Auslastungsschleife

Bei einer Domain tritt folgendes Verhalten auf:

Der StartRequest wird angenommen, es wird Success zurückgeliefert
Der DomainValidator belegt einen Core zu 100% und kommt aus dieser Schleife nicht mehr heraus. Lediglich manuelles abschießen behebt den Fehler.

Betroffene Domain siehe Slack

Domain wird nicht bearbeitet

Bei einer getesten Domain tritt folgendes Verhalten auf:

Start-Request wird angenommen, es wird Success geliefert
Es erfolgt keine Bearbeitung durch den DomainValidator, keine Response wird geschickt, Rechnerauslastung bleibt konstant

Betroffene Domain siehe Slack.

Fehlender "domain" Parameter

Bei einigen Domains, wird der Parameter domain nicht übermittelt, dieser wird aber zwingend benötigt.

Der Parameter domain soll genau der sein, der auch beim Start-Request übermittelt wird.

Bitte dementsprechend ändern.

urlToScan wird nicht benötigt, wenn die URL nicht per HTTP erreichbar ist.
(momentan wird ein urlToScan konstruiert, der domain-Parameter aber mit null zurückgegeben)

Beispiel-Domain Liste siehe Slack: Liste 1

Crawling: Unterschiedliche Pfade bevorzugen

Es wäre praktisch, wenn der Scanner die crawledUrls so zurückgibt, dass die Pfade am unterschiedlichsten sind.

Sprich:
Anstatt /cms und /cms/wordpress und /cms/contao darauf konzentrieren, dass die Liste nach Unterschiedlichkeit geordnet wird.

Hintergrund:
Aktuell werden wir wahrscheinlich 10 weitere URLs crawlen.
Es macht mehr Sinn dann /blog und /shop zu erhalten, anstatt viele ähnliche Unterseiten.

siwecos / ws-domainvalidator Goto Github PK

ws-domainvalidator's Issues

Option `allowSubdomains` implementieren

Option allowSubdomains fehlerhaft

Timeout für Callbacks fehlt

Support für Umlaut-Domains integrieren

.space TLD wird nicht aufgelöst

Callback Implementieren

Anpassung Log-Level

Detektion Seite nicht erreichbar

Umbenennung crawledDomains zu crawledUrls

Option `maxAmountUrlsToCrawl` implementieren

Callback optional machen oder Input-Validierung

DomainValidator durch Domain in 100%-Auslastungsschleife

Domain wird nicht bearbeitet

Fehlender "domain" Parameter

Crawling: Unterschiedliche Pfade bevorzugen

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent