Giter VIP home page Giter VIP logo

word2csvua's Introduction

word2csv converter

Proyecto "Archivo de represaliados" del Archivo de la Democracia

  • Se pretende convertir una colección de documentos word en una serie de documentos CSV que puedan ser cargados en una BD con un formato dado

  • Documentos originalmente en word (.doc o .docx). Inicia el título de la población y por cada párrafo hay un nombre de represariado en formato siempre igual seguido de su población y su resumen de archivo.

ANTOLÍ CERDÁ, Fructuoso. Natural y vecino de Agres, escribiente, de 31 años. Ingresó en el Reformatorio de Alicante el 1-XII-1939 desde el campo Oliver y el 24-I-1940 fue enviado a la cárcel de Alcoi. Estuvo en "La Abastecedora". Fue procesado por la Justicia Militar. Quedó en libertad el 25-V-1941 (Fuente: Legajos 9304 y 12598 - AMA).

  • Escribir una colección de rutinas que realicen la conversión

Changelog

v0.2

  • Los documentos ahora pueden ser doc, docx y odt
  • Los documentos incluyen ahora la descripción de la población al principio seguidos de "Listado de represaliados"
  • Se generan dos excel uno con la lista de poblaciones y sus descripciones y otro con la lista de represaliados

v0.1

  • Transformación de los documentos sólo con los registros
  • se genera un único excel con la lista de represaliados.

Procedimiento

  1. Convertir documentos word en html: $unoconv -o rawhtml/ -f html rawdoc/*doc
  2. Limpiar código html inútil
  • Conservar sólo las etiquetas p, b, i...
  • Eliminar atributos como class, style... y código html inútil
  • http://htmlpurifier.org/ + str_preg_replace
  1. Extraer la población y su descripción (guardar en csv "población/[nom_pueblo].csv")
  2. Captar registros (nombre y caso: convertir a formato CSV)
  3. dividir por párrafos p
  4. Buscar en contenido el primer "." para extraer el título, el resto es la causa
  5. Teniéndolo en un array añadir al principio la población (nombre archivo)
  6. Guardarlo todo en un CSV -> "represaliados/[nom_pueblo].csv"
  7. Fusionar todos los CSV para hacer la subida más fácil.
  8. "pueblos-final.csv"
  9. "represaliados-final.csv"

Prerrequisitos

  • Libreoffice
  • Unoconv (disponible en apt y homebrew)
  • php

Uso

Dejar todos los doc en el directorio "rawdoc" y ejecutar desde la consola word2csv

word2csvua's People

Contributors

gonzalo avatar

Watchers

 avatar

Forkers

n1ghtcr4wl3r26

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.