Comments (1)
From [email protected] on February 07, 2009 07:11:16
¡Ahora la cdpedia tiene imágenes!
Las URLs de las imágenes se sacan de los htmls, y se escriben en un archivo en el
temp, y luego se pasa a bajarlas de la web y dejarlas en un directorio también en el
temp pero que no se limpia todas las veces.
Las imágenes llevan un procesamiento distinto que todo el resto de la cdpedia, porque
no las tenemos de entrada en el disco, sino que hay que bajarlas de la web, entonces
no las queremos borrar todas las veces, y por eso ese directorio no se limpia.
Incluso ahora tenemos una utilidad nueva (utilities/descargarImagenes.py), de manera
que uno puede cortar el generar.py, y seguir bajando imágenes durante varias veces
con este utilitario, y sólo relanzar el generar.py una vez que tengamos todas las
imágenes en el disco (tener en cuenta que cuando la imagen esá en el disco, la misma
no se vuelve a bajar...).
Además, aunque hoy por hoy estamos armando el CD con las imágenes como las bajamos,
seguramente el día de mañana no se hará así, sino que se achicarán algunas un poco.
Como el juego de "cuanto achicar y cuales" será un poco interactivo, no es que
bajamos la imagen y la grabamos ya achicada en el directorio final.
Entonces, el proceso con respecto a las imágenes sería algo como...
- Se ejecuta el generar.py y eso nos escribe un imagenes.txt en el temp, y pasa a
descargarlas (supongamos que lo cortamos acá por X razón). - Ejecutamos descargaImagenes.py para que siga (y lo cortamos, y volvemos a
ejecutarlo cuanto sea suficiente). - Ya descargado todo, volvemos a ejecutar el generar.py, que vuelve a hacer todo,
pero como las imágenes ya están descargadas apenas tarda ahí... y termina de hacer todo.
Status: Fixed
from cdpedia.
Related Issues (20)
- Rehacer el control de flujo de la generación
- Mejorar los logs de scrapeo
- OmitRedirects preprocessor sometimes crashes. HOT 1
- La normalización de palabras elimina todos los caracteres no ASCII
- Unquote symbols in article title shown in browser tab
- Remove hardcoded 'es' language from URL string HOT 3
- La busqueda debería tener una página intermedia que diga "buscando"
- Improve logs generated during image processing
- Drop support for Python 3.5
- Update the year in copyright
- Watchdog timer broken when using browser's back button
- Make cdpedia visually friendly to all devices (responsive)
- Migrate from XHTML to HTML5
- Some processes do not show status during runtime
- Some image links are not extracted
- pngquant should respect the original file name
- Support PIL crashing on the image
- FileNotFoundError: [Errno 2] No such file or directory HOT 9
- fail to get list file: forbidden HOT 1
- Consider replacing delta encoding with generic project
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from cdpedia.