Giter VIP home page Giter VIP logo

observatorio-jats's Introduction

observatorio-jats

O Journal Article Tag Suite (JATS) é um formato XML usado para formatar e descrever a estrutura interna de conteúdos digitais da literatura científica. É o padrão técnico (formalmente NISO-ANSI Z39.96-2012) mais utilizado por periódicos científicos. Não é apenas um padrão para mostrar ou editar o conteúdo, como PDF, HTML, DOC, etc. É um padrão para dar significado às partes do conteúdo, e para indicar com todos os detalhes e de forma padronizada, os metadados da publicação e da proveniência de dados e da autoria.

São ~4 milhões de artigos JATS no PubMed Central, ~0,5 milhões no SciELO, mais alguns milhões dispersos em diversos outros repositórios JATS.

... É tanto JATS, e ninguém olha para eles como "mina de ouro" de conhecimento estruturado, ao menos no Brasil: a iniciativa do Observatório JATS nasceu para isso, para explorarmos mais essa imensa base de dados científicos, certificados, bem organizados, com estrutura e semântica bem definidas.

É um observatório de fato, pois há um "universo" que não damos conta de conhecer, dada a quantidade imensa de arquivos JATS e de detalhes contidos neles; mas podemos escolher um "alvo", e nos pormos a observar o que existe naquela região do "espaço JATS"... E para observar precisamos de ferramentas e pessoas operando essas ferramentas, constituindo assim um observatório.

Os alvos são assuntos ou perguntas viáveis do ponto de vista estatístico. Assim como num grande observatório astronômico, mantido por uma comunidade, o sucesso de suas observações depende do sucesso e alinhamento entre duas sub-comunidades: o grupo que formula as perguntas e dá significado às observações dentro de suas teorias, e o grupo que põe a mão na massa, sabe operar o equipamento, e realiza ou auxilia nas campanhas observacionais.

Junte-se ao Observatório JATS: juntando-se a uma curadoria, o grupo que faz perguntas dentro do seu escopo de interesse; ou juntando-se aos experts em buscas, estatísticas e JATS, que operam o observatório.

Mantenedores

A comunidade mantenedora deste projeto é formada por dois grupos, a exemplo dos grupos QueriDO:

  • curadorias: definem os "alvos", estabelecem para quais assuntos e artigos (documentos JATS) desejam voltar seus olhares, fazer suas explorações, e mais tarde entregar seus relatórios e pareceres.
    PS: não há restrição à participação em mais de uma curadoria.

  • experts: entusiastas da Ciência Aberta, Estatística, programação, web semântica ou data scraping, ajudando a curadoria a achar a "agulha no palheiro", e preparar milhares de artigos JATS para constituir um corpus textual de análise: bem estruturado e suficientemente completo para cada alvo definido pelas curadoriais.
    PS: um expert pode também ser membro de uma curadoria.

Campanhas observacionais

Olhar para uma imensa massa de artigos científicos, todos dispostos em JATS, requer alguns cuidados e metodologia. Nosso principal referencial metodológico são as revisões sistemáticas, a análise estatística, e as técnicas e tecnologias de bancos de dados (incluindo desde o SQL à Web Semântica).

Há naturalmente um funil de busca com criteriosa seleção, que envolve o trabalho e discussão entre todos, da curadoria e do grupo de experts. A exigência que prevalece é que sejam sempre realizadas ações de forma não tendenciosa.

Etapas

  1. Formação e homologação da curadoria (aprovação de alvo e dos compromissos da equipe);
  2. Planejamento da campanha observacional, e alinhamentos com a equipe de experts (aprovação de calendários e responsabilidades);
  3. Experimentos-piloto e provas de conceito;
  4. Realização da campanha: fica regisrada como relatório de apresentação (exemplos: c01-consistencia, c05-openCoherence-zika) e relatórios de resultados.
  5. Revisão final;
  6. Revisão e divulgação dos relatórios.

Todos os materiais ficam registrados na pasta das campanhas.

Relatórios

Os resultados das campanhas observacionais ficam registrados em relatórios. Exemplos: c01-consistencia/report-01.md, c05-openCoherence-zika/report-01.md, c05-openCoherence-zika/report-02.md.

Documentação

Organizações que apoiam este projeto

observatorio-jats's People

Contributors

ppkrauss avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

Forkers

joe-nano

observatorio-jats's Issues

Carga dos datasets

A carga de datasets se fará dentro das convenções adotadas no Datasets-OKBR (exemplo state-codes). Tomando como exemplo os datasets citados na implementação OpenCoherence de 2015:

Por exemplo families.csv requer a inicialização

CREATE FOREIGN TABLE tmpcsv_licenses_families (
    family text, scope text, sort int
) SERVER csv_files OPTIONS ( 
    filename '/tmp/licenses/families.csv',  format 'csv',  header 'true'
);

proposta de backup LFS amostral das revistas escolhidas

O git LFS permite a gestão de large files, de modo que arquivos da ordem de 1Gb a 10Gb, armazenando todos os artigos JATS de todas as edições de uma revista, não seriam considerados muito grandes.

Por hora eles podem ficar sob a pasta bk_jats de backup desses JATS utilizados no Observatório por uma ou mais campanhar... Com o tempo, todavia, o ideal é focar apenas em backup de amostragens, para reproducibilidade de testes e benchmarks, mas não para preservação, visto que essa função já vem sendo exercida com segurança pelas instituições dos grandes repositórios como SciELO e PMC.

Padronizando camadas e ferramentas de acesso

Tutoriais e implementações reutilizáveis requerem certa padronização. A gestão das queries talvez seja um fator crítico (Massive-js dá um norte mas ideal é trocar o filesystem pelo próprio banco de dados para facilitar gestão)...

Bons exemplos:

Ferramenta de publicação do conteúdo em site, decisão

A apresentação do projeto, das campanhas e dos relatórios das campanhas, requer a publicação em páginas HTML geradas a partir dos documentos markdown, tais como README.md. Existem duas possibilidades em estudo para fazer isso:

  1. Usando o mkdocs como feito com QueriDO em https://okfn-brasil.github.io/queriDO/site/curadorias/

  2. Usando https://www.getlektor.com/ como fez o pessoal do FrictionlessData em http://specs.frictionlessdata.io

no final vai ficar tudo em http://observatorio.jats.science.

Refatorar nomes de campanha

Como é o começo, manter nas 3 a 5 primeiras campanhas uma certa ordem crescente de complexidade, e uma sequência do tipo passo-a-passo que no futuro poderá ser empregada como recurso de tutorial.

  • c04-consistencia deveria ser c01-consistencia
  • c01-corpusFioCruz deveria ser c02-corpusFioCruz
  • acrecentar como campanha c03 a reprodução do artigo original de OpenCoherence (sem abreviar "oc")
  • c03-ocTeseZika se tornaria c04-openCoherence-teseZika

Identificação dos periódicos por ISSN-L

O uso do Linked ISSN ainda é pouco difundido, apesar de ser um padrão maduro e confiável. Qualquer periódico identificado com seu ISSN tem seu ISSN-L. Por exemplo a revista FioCruz que o ScieLO decidiu identificar por 1981-7746 na verdade é 1678-1007, como indica o resolvedor:
http://api.ok.org.br/issn/1981-7746/n2c.txt

No SciELO inclusive, entre as revistas brasileiras, são 58 (de 356) dos códigos ISSN que não são canônicos, e portanto devem ser convertidos para ISSN-L.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.