Giter VIP home page Giter VIP logo

arxivtask's Introduction

Исследуем корпус научных статей Arxiv

Кураторы: Олег Сериков, Даниил Скоринкин
Тренировочный подкорпус для ознакомления: data_examples/arxiv_data_small.json

Тема

Абстракты и метаданные по 31000+ статей с сайта arXiv по машинному обучению/компьютерному зрению/компьютерной лингвистике и NLP/прочему AI и Data Science — с 1992 по 2018 год.

Описание корпуса

Данные по 31000+ статей с сайта arXiv. Сайт arXiv — это открытый ресурс для публикации научных статей, очень популярный у физиков, математиков, программистов и — особенно в последние годы — у датасаентистов. В нашем датасете представлены статьи по машинному обучению (machine learning), компьютерной лингвистике и обработке языка (CL, NLP), компьютерному зрению (CV), а также ИИ в широком смысле (AI). Для каждой статьи есть абстракт, то есть короткая выжимка с основным содержанием статьи, и метаинформация: заглавие, авторы, дата написания, гиперссылка на статью на самом arXiv, e-mail-ы авторов (не для всех статей). Временной диапазон статей — с 1992 по 2018 год.

Формат данных — JSON

Задачи для исследований

Тематическое моделирование

  1. Правда ли, что NLP (автоматическая обработка естественного языка) отстаёт от CV (компьютерное зрение) на несколько лет?
    • Достаём подкорпусы про NLP и CV
    • Делаем топик моделинг в этих областях в общем и по временным интервалам
    • Находим общие топики/ключевые слова/что-то ещё и смотрим, есть ли временная задержка в популярности технологий в области исследований
  2. Как вообще ведут себя хайповые темы в машинном обучении и анализе данных? Например, в 2018 было много всего про transfer learning в NLP (BERT, ELMO, GPT2). Было бы полезно уметь автоматически замечать зарождение хайпа (может, например, всё начинается с пейпера гугла-фейсбука, а заканчивается появлением какого-то следующего классного пейпера. а может, нет), интересно также, сколько популярные темы остаются популярными
    • можно построить графики популярности ключевых слов по времени, будет интересно взглянуть
    • можно посмотреть на статьи (например, на медиуме или хабре) «топ трендов такого-то года», попробовать сопоставить с результатами топик моделинга (это, кстати, может сработать и в другую сторону, позволив оценить объективность таких подборок)
  3. Есть ли что-то общее у статей, впервые затрагивающих популярные в будущем вопросы. Например, может, авторы таких статей уже опытные и много публиковались в т.ч. на arxiv или более-менее связаны друг с другом историей совместных публикаций.
    • Стоит попробовать придумать разные предикторы и посмотреть, коррелируют ли они с таргетом, описанным в вопросе

Парсинг, анализ и обработка метаданных

  1. Визуализация научного сотрудничества -- какие универы работают с какими и над какими областями; переходят ли исследователи в процессе такого сотрудничества из универа в универ; сколько аффилиаций сменяет один человек за время научной деятельности
    • В метаданных нет аффилиаций, но зато есть электронные адреса авторов. Домен электронной почты человека, аффилированного с институтом, обычно связан с институтом
  2. В последнее время большое количество прорывов приходит из Google, Facebook и других технологических AI-компаний. Когда это началось? (Может, с приходом моды на нейросети?)
    • Связь авторов с техногигантом можно понять из электронных адресов авторов
    • Когда нейросети стали модными -- из топик моделинга по временным интервалам
  3. Когда научный мир начал использовать электронные адреса, как это соотносится с общемировым развитием электронной почты?
    • Агрегировать по времени количество электронных адресов или статей с электронными адресами, сравнить с какой-то статистикой из интернета
  4. Сейчас в AI редко кто-то пишет статьи в одиночку. Было ли так всегда или коммуникация стала особенно важна в какой-то (какой?) момент?

Список идей пополняется. Предлагайте свои идеи!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.