Giter VIP home page Giter VIP logo

mmf-vqa's Introduction

MMF-VQA

Este repositorio contiene los notebooks referentes al módulo de implementación y uso de "Multimodal Deep Learning Models" en problemas complejos de AI. Este curso es impartido en colaboración con el Colegio de Matemáticas Bourbaki

En este repositorio se implementa la librería MMF para poder analizar una imagen y responder preguntas abiertas. Se utilizan diferentes modelos pre-entrenados que contiene el Zoo de MMF; como Pythia, VocabProcessor, VQAAnswerProcessor así como el Dectron2 para análisis y extracción de features de imágenes.

La implementación se hizo en Python, en un Jupyter Notebook usando Pytorch, Torchvision, MMF. Debido a que es necesario o más práctico entrenar e implementar estos modelos usando CUDAs. Se probó y se pensó en la ejecución usando Google Colab. Dentro del notebook está contemplado un ejemplo de como usar y el resultado que obtendremos del modelo. Por razones de entrenamiento es necesario realizar las preguntas en inglés.

El código está dividido en instalación, configuración y una clase que contiene lo necesario para compilar un demo. De igual modo se provee con un demo práctico del uso y de la respuesta de dicho modelo

Para la implementación se han usado principalmente las siguientes referencias

[1] Singh, Amanpreet and Goswami, Vedanuj and Natarajan, Vivek and Jiang, Yu and Chen, Xinlei and Shah, Meet and Rohrbach, Marcus and Batra, Dhruv and Parikh, Devi, "MMF: A multimodal framework for vision and language research", 2020, MMF

[2] Casey Fitzpatrick, "HOW TO BUILD A MULTIMODAL DEEP LEARNING MODEL TO DETECT HATEFUL MEMES", TUE 12 MAY 2020, Hateful Memes Benchmark

mmf-vqa's People

Contributors

frcomarinromero avatar frcomarin avatar

Stargazers

sucrets avatar  avatar Pedro Olivares avatar

Watchers

 avatar

Forkers

ryu-mcfly

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.