Giter VIP home page Giter VIP logo

autotagger's Issues

Crawler

Oder iwo Crawer online gehostet und so, dass man man ihn über einen Link anschmeißen kann, dem man dann sagt, nach welchem Hashtag er suchen soll und von dort aus ca. 1000 Einträge crawlen. Dann kann man den Crawler nach einem Hashtag suchen lassen anschmeißen, kurz bevor man das Tool nutzt und weiß, dass man ein Foto mit einem bestimmen Themengebiet hochladen wird. Sonst ist ja evtl nichts drin in der DB zu diesem Thema. (Alternative/Optimalscenario wäre, dass der Crawler die ganze Zeit laufen müsste und ganz Instagram crawlt, jedoch Crawler und Crarifai Kapazitäten hier nicht ausreichend)

Tests

Tests: Die Aktuellen überarbeiten, Dependencies mocken als Unit u. Acceptance-Tests verpacken, DI überhaupt erstmal ordentlich bastlen

Bitte um Übertragung des Repo

Moin, ist es möglich, dass du mir das repo überträgst? Würde mich sehr freuen :)
Das Problem beim Fork ist, dass wenn du das Repo löschst, ist meins auch weg..

Viele Grüße
Dario

PS: Ihr behaltet natürlich weiterhin eure Contributor-Rechte

Zahlen, bitte

Habe CrawlerV1 mal bisschen laufen lassen:

4:00 Std. lief Crawler (bis die DB ein 'Connect Timeout expired' zurückgab)
ca. 4.000 Requests
15.000 Fotos
330.000 nicht-unique iTags
40.000 unique iTags
durchschnittlich 3,6 Sek pro Requests
durchschnittlich 3,75 Fotos pro Request
durchschnittlich 22 iTags pro Foto

Habe ihn mit random Hashtags crawlen lassen. Er ist gefühlt durch alle Themen/Bereiche durch.
Lustig: Einiges an Arabischem und Chinesischem ist dabei.

(in VS im Debug Mode laufen lassen, dort ist der Crawler fühlbar langsamer - im Nicht-Debug oder compiled kriegt man wahrscheinlich bessere Performance raus)

Renaming

Vorschlag Repo Renaming in InstaTagger oder InstagramTagger?
oder wenn "Auto" drin bleiben soll, auch InstaAutoTagger oder InstagramAutoTagger?

Hosting

Hi,
Über ein einheitliches hosting sollten wir uns langfristig Gedanken machen.
Derzeit auf verschiedenen Systemen verteilt

Queue

Ich wollte vorschlagen die Arbeitsschritte aufzuteilen um etwas Performance bei den einzelnen Schritten zu gewinnen.

Ich stelle es mir so vor:

A. Wenn der Crawler ein Ergebnis hat:

  1. Link oder File in eine Tabelle/Queue legen ohne etwas zu analysieren
  2. Pullen und bei einem Link Bild herunterladen
  3. Pullen und mit maschinellen Tags anreichern
  4. Pullen und mit Instagram Daten anreichern
  5. Bild mit allen Informationen in die Datenbank aufnehmen

B. Wenn ein Bild analysiert werden soll

  1. Link oder File in eine Tabelle/Queue legen
  2. Pullen und Bild herunterladen wenn Link
  3. Pullen und mit maschinellen Tags anreichern
  4. Pullen und Empfehlungen berechnen

Die GUI würde dann nicht blokiert werden in der Zeit und man könnte einen Status pro Bild anzeigen.

Code Review

Der von mir gefactored'te CrawlerV1 ist feature-complete und crawlt die Userseiten. Crawling Logik von CrawlerV2 übernommen. Ich bitte um ein Code Review @tempel3 @Vittel :)

UI

Hi,
ich hätte gerne wieder den UserInterface Service als REST API (ohne eigene Views).
Und das Frontend als separate Singlepage Application, welches die Rest API nutzt.
Frontend könnte man in Angular o.ä. basteln oder anfangs erstmal plain html.
Hosting müsste angepasst werden.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.