Giter VIP home page Giter VIP logo

recursos_es-ext's Introduction

En Español

Pares de traducciones Español-Extremeño

Este repositorio almacena pares de frases y palabras en Español y Extremeño línea a línea en diferentes ficheros por idioma para entrenar modelos de traducción que puedan ser usados en traductores como por ejemplo LibreTranslate.

Contribuir

Si quieres contribuir a la recopilación de datos, puedes editar los ficheros añadiendo las partes nuevas y crear un Pull Request para añadirlo al repositorio. Si no sabes como crear PR, puedes crear una petición en este enlace adjuntando los ficheros actualizados para que los actualicemos en el repositorio tras una revisión de que las palabras son correctas. Si no sabes hacer las dos anteriores o no tienes cuenta en Github, puedes enviarme los textos al email [email protected].

Es recomendable que si un párrafo tiene varias frases que tienen sentido por si solas, cada frase vaya en una línea en lugar de una línea con el párrafo completo. En el caso de palabras, es recomendable (si disponen de ellas), añadir sus formas masculinas, femeninas, singular y plural. Si son verbos, se recomienda añadir a conjugación completa.

Estos recursos sirven para la traducción de Español a Extremeño, pero también podría usarse para traducir de Extremeño a Español. El problema es que Stanza, una dependencia que usa argos-train para crear los modelos de traducción, no tiene modelos de la lengua extremeña, o que dificulta la traducción en ese sentido y sea mucho menos precisa. Si eres lingüista o tienes experiencia en la creación de vectores de palabras, tokenización de éstas y quieres colaborar en esa parte, puedes echar un vistazo a la guía sobre como añadir nuevas lenguas.

Si tienes cuenta en github, es recomendable un voto positivo en este comentario donde tenemos hecha la solicitud para añadir el extremeño a argos-translate y donde iremos adjuntando los modelos que consigamos funcionales para que los añadan a su base de datos y estén disponibles en LibreTranslate.

También tenemos creada una sección en la comunidad de LibreTranslate donde se pueden debatir cosas e iremos poniendo los diferentes modelos que se vayan creando.

Entrenar modelos

Para el entrenamiento, se puede usar Argos Train (instrucciones en el enlace). Para ello necesitamos una gráfica Nvidia compatible con CUDA, o una gráfica AMD compatible con Rocm (Para ésta ultima, es necesario en la instalación reemplazar la versión de pytorch por la versión que integra Rocm). También es posible usando CPU, pero es mucho mas lento.

En caso de no disponer de una gráfica compatible, se puede optar por un sistema cloud, en mi caso he optado por Vast.ai usando la imagen docker de argos-train que es bastante económico.

Para el entrenamiento, habrá que unir todos los ficheros de cada idioma en uno (importante que se mantenga el orden de los contenidos linea a línea) o usar los denominados contenido-completo, los cuales tienen el contenido de todos los ficheros ya unidos. Para ello se puede usar alguna de las muchas opciones disponibles, como por ejemplo FilesMerge para Windows o el comando cat en Gnu/Linux.

Agradecimientos

Este proyecto surgió por la idea de Wikimedia España de reactivar e impulsar la Güiquipedia, edición de la Wikipedia en la lengua extremeña.

Los recursos de traducción son proporcionados por:

Esto es un trabajo comunitario con el único propósito de avanzar culturalmente, en este caso promocionando la lengua extremeña y creando herramientas para facilitar su conocimiento. Por ello, todo el contenido aquí publicado se encontrará bajo licencia CC0 1.0 de Dominio Público para que cualquiera pueda usarlo para crear herramientas o cualquier cosa que sirva para extender y ayudar al conocimiento de la lengua extremeña.


N'Estremeñu

Pendiente de traducir readme al extremeño

recursos_es-ext's People

Contributors

lukacs96 avatar juanro49 avatar pakzer0 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.