Giter VIP home page Giter VIP logo

gederajeg / rob-steal-parallel-corpora Goto Github PK

View Code? Open in Web Editor NEW
0.0 2.0 0.0 8.71 MB

Repository kode pemrograman R dan data untuk analisis dalam penelitian dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA

Home Page: https://udayananetworking.unud.ac.id/lecturer/research/880-gede-primahadi-wijaya-rajeg/a-model-for-translation-study-based-on-english-indonesian-translation-database-and-its-pedagogical-implication-1179

License: Other

R 68.66% TeX 31.34%
parallel-corpora construction-grammar constructional-equivalence english-indonesian-translation subtitle-corpora opensubtitle rob-steal-synonyms english-indonesian-parallel-corpora udayana-university corpus-linguistics

rob-steal-parallel-corpora's Introduction

Repositori data dan kode pemrograman untuk Penelitian Unggulan Program Studi (PUPS) dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA

Gede Primahadi Wijaya Rajeg ORCID iD icon(Ketua Tim Peneliti), I Made Rajeg ORCID iD icon(Anggota), I Gede Semara Dharma Putra (Anggota Mahasiswa), Putu Dea Indah Kartini (Anggota Mahasiswa)

Universitas Udayana, Bali, Indonesia

Creative Commons License
Semua berkas di dalam repositori ini berlisensi Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Kunjungi laman utama penelitian ini.

Jika berkas-berkas dalam repositori ini (Rajeg et al. 2021b) digunakan untuk tujuan penelitian dan pengajaran, harap menyitir/mengutip repositori ini sebagai berikut:

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. https://doi.org/10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.

Luaran utama dari penelitian ini, yaitu artikel jurnal, saat ini sedang dalam proses peninjauan sejawat (peer review), dan repositori pendukung artikel tersebut dapat diakses melalui tautan berikut (Rajeg 2021b).

Material

  • Direktori SENASTEK berisi berkas pendukung untuk makalah yang disajikan pada Seminar Nasional Sains, Teknologi dan Humaniora 2021 (SENASTEK 2021). Berkas-berkas tersebut berupa data mentah, kode pemrograman R untuk analisis kuantitatif dan visualisasi, salindia/slides dan abstrak presentasi (Rajeg et al. 2021a), dan dua grafik statistik yang digunakan dalam presentasi.

  • Direktori LITERATES berisi berkas pendukung untuk makalah pada LINGUISTICS, LITERATURE, CULTURE AND ARTS INTERNATIONAL SEMINAR (LITERATES) yang diselenggarakan pada tanggal 22 Januari 2022 oleh Fakultas Bahasa Asing (FBA), Universitas Mahasaraswati Denpasar.

  • Berkas gpwr2021-code-for-pre-processing-the-osub-tmx-file.R mengandung kode pemrograman untuk pengolahan awal korpus paralel Inggris-Indonesia OpenSubtitles2018 (Lison & Tiedemann 2016) berformat .tmx. Pengolahan ini adalah untuk memisahkan kalimat bahasa Inggris dan padanan bahasa Indonesianya menjadi dua berkas teks biasa (.txt) terpisah, yang kemudian bisa menjadi input untuk konkordansi paralel (lihat info selanjutnya).

  • Berkas bernama ROB_sample_conc_main.tsv dan STEAL_sample_conc_main.tsv adalah data utama penelitian ini. Berkas ini berupa sampel konkordansi lema ROB dan STEAL beserta terjemahan bahasa Indonesianya yang telah dianotasi berdasarkan variabel-variabel kualitatif (leksikal, morfosintaksis, semantik, dan konstruksional) sesuai dengan tujuan dan rumusan masalah penelitian.

  • Program untuk menghasilkan konkordansi paralel menggunakan R dikemas dalam fungsi para_conc() yang diterbitkan bersama dengan modul pemrograman R bernama paracorp (Rajeg 2021a). Perhatikan salah satu contoh penggunaan para_conc() berikut. Info lengkap cara memasang dan mengutip modul paracorp dalam publikasi dapat dilihat pada laman paracorp.

# load the paracorp R package
# more info at https://gederajeg.github.io/paracorp/
library(paracorp)  

# in this example, the English text is used as the source text
my_para_conc <- para_conc(source_text = sci_en,
                          target_text = sci_id,
                          pattern = "\\bshould\\b", # regular expression pattern
                          conc_sample = 20) # retrieve 20 random concordance lines
#> The output concordance file (called: 'parallel_conc.txt') will be saved in this directory: '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'
#> The output concordance will ALSO be returned as a tibble data frame in the R console.
#> Detecting the match/pattern...
#> You choose to generate a 20 random-sample of the concordance lines.
#> Creating a 20 random-sample of the concordance lines...
#> Generating the concordance for the match/pattern...
#> Saving the output concordance file (called: 'parallel_conc.txt') in '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'.

# peek into the results as tibble/data frame
head(my_para_conc)
#> # A tibble: 6 × 4
#>   LEFT                      NODE   RIGHT            TRANSLATION                 
#>   <chr>                     <chr>  <chr>            <chr>                       
#> 1 When designating these p… should always be borne… "Ketika menentukan filum ya…
#> 2 The minor improvements i… should be as readily p… "Perubahan kecil dari gener…
#> 3 The impression of disgus… should be changed       "Kesan menjijikan dan simbo…
#> 4 It is an expression of t… should be equipped wit… "Ini merupakan bukti kesemp…
#> 5 The fund for research an… should be increased ev… "Dana untuk penelitian dan …
#> 6 Recently a chemist propo… should be named guacam… "Seorang kimiawan baru-baru…

Sesi ruang kerja R

devtools::session_info()
#> ─ Session info ───────────────────────────────────────────────────────────────
#>  setting  value
#>  version  R version 4.1.2 (2021-11-01)
#>  os       macOS Big Sur 10.16
#>  system   x86_64, darwin17.0
#>  ui       X11
#>  language (EN)
#>  collate  en_US.UTF-8
#>  ctype    en_US.UTF-8
#>  tz       Asia/Makassar
#>  date     2022-01-30
#>  pandoc   2.14.0.3 @ /Applications/RStudio.app/Contents/MacOS/pandoc/ (via rmarkdown)
#> 
#> ─ Packages ───────────────────────────────────────────────────────────────────
#>  package     * version date (UTC) lib source
#>  assertthat    0.2.1   2019-03-21 [1] CRAN (R 4.1.0)
#>  bit           4.0.4   2020-08-04 [1] CRAN (R 4.1.0)
#>  bit64         4.0.5   2020-08-30 [1] CRAN (R 4.1.0)
#>  cachem        1.0.6   2021-08-19 [1] CRAN (R 4.1.0)
#>  callr         3.7.0   2021-04-20 [1] CRAN (R 4.1.0)
#>  cli           3.1.0   2021-10-27 [1] CRAN (R 4.1.0)
#>  crayon        1.4.2   2021-10-29 [1] CRAN (R 4.1.0)
#>  DBI           1.1.2   2021-12-20 [1] CRAN (R 4.1.0)
#>  desc          1.4.0   2021-09-28 [1] CRAN (R 4.1.0)
#>  devtools      2.4.3   2021-11-30 [1] CRAN (R 4.1.0)
#>  digest        0.6.29  2021-12-01 [1] CRAN (R 4.1.0)
#>  dplyr         1.0.7   2021-06-18 [1] CRAN (R 4.1.0)
#>  ellipsis      0.3.2   2021-04-29 [1] CRAN (R 4.1.0)
#>  evaluate      0.14    2019-05-28 [1] CRAN (R 4.1.0)
#>  fansi         1.0.2   2022-01-14 [1] CRAN (R 4.1.2)
#>  fastmap       1.1.0   2021-01-25 [1] CRAN (R 4.1.0)
#>  fs            1.5.2   2021-12-08 [1] CRAN (R 4.1.0)
#>  generics      0.1.1   2021-10-25 [1] CRAN (R 4.1.0)
#>  glue          1.6.0   2021-12-17 [1] CRAN (R 4.1.0)
#>  hms           1.1.1   2021-09-26 [1] CRAN (R 4.1.0)
#>  htmltools     0.5.2   2021-08-25 [1] CRAN (R 4.1.0)
#>  knitr         1.37    2021-12-16 [1] CRAN (R 4.1.0)
#>  lifecycle     1.0.1   2021-09-24 [1] CRAN (R 4.1.0)
#>  magrittr      2.0.1   2020-11-17 [1] CRAN (R 4.1.0)
#>  memoise       2.0.1   2021-11-26 [1] CRAN (R 4.1.0)
#>  paracorp    * 0.0.1   2021-12-30 [1] Github (gederajeg/paracorp@c2cd065)
#>  pillar        1.6.4   2021-10-18 [1] CRAN (R 4.1.0)
#>  pkgbuild      1.3.1   2021-12-20 [1] CRAN (R 4.1.0)
#>  pkgconfig     2.0.3   2019-09-22 [1] CRAN (R 4.1.0)
#>  pkgload       1.2.4   2021-11-30 [1] CRAN (R 4.1.0)
#>  prettyunits   1.1.1   2020-01-24 [1] CRAN (R 4.1.0)
#>  processx      3.5.2   2021-04-30 [1] CRAN (R 4.1.0)
#>  ps            1.6.0   2021-02-28 [1] CRAN (R 4.1.0)
#>  purrr         0.3.4   2020-04-17 [1] CRAN (R 4.1.0)
#>  R6            2.5.1   2021-08-19 [1] CRAN (R 4.1.0)
#>  readr         2.1.1   2021-11-30 [1] CRAN (R 4.1.0)
#>  remotes       2.4.2   2021-11-30 [1] CRAN (R 4.1.0)
#>  rlang         0.4.12  2021-10-18 [1] CRAN (R 4.1.0)
#>  rmarkdown     2.11    2021-09-14 [1] CRAN (R 4.1.0)
#>  rprojroot     2.0.2   2020-11-15 [1] CRAN (R 4.1.0)
#>  rstudioapi    0.13    2020-11-12 [1] CRAN (R 4.1.0)
#>  sessioninfo   1.2.2   2021-12-06 [1] CRAN (R 4.1.0)
#>  stringi       1.7.6   2021-11-29 [1] CRAN (R 4.1.0)
#>  stringr       1.4.0   2019-02-10 [1] CRAN (R 4.1.0)
#>  testthat      3.1.1   2021-12-03 [1] CRAN (R 4.1.0)
#>  tibble        3.1.6   2021-11-07 [1] CRAN (R 4.1.0)
#>  tidyselect    1.1.1   2021-04-30 [1] CRAN (R 4.1.0)
#>  tzdb          0.2.0   2021-10-27 [1] CRAN (R 4.1.0)
#>  usethis       2.1.5   2021-12-09 [1] CRAN (R 4.1.0)
#>  utf8          1.2.2   2021-07-24 [1] CRAN (R 4.1.0)
#>  vctrs         0.3.8   2021-04-29 [1] CRAN (R 4.1.0)
#>  vroom         1.5.7   2021-11-30 [1] CRAN (R 4.1.0)
#>  withr         2.4.3   2021-11-30 [1] CRAN (R 4.1.0)
#>  xfun          0.29    2021-12-14 [1] CRAN (R 4.1.0)
#>  yaml          2.2.1   2020-02-01 [1] CRAN (R 4.1.0)
#> 
#>  [1] /Users/Primahadi/Rlibs
#>  [2] /Library/Frameworks/R.framework/Versions/4.1/Resources/library
#> 
#> ──────────────────────────────────────────────────────────────────────────────

Referensi

Lison, Pierre & Jörg Tiedemann. 2016. Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 923–929. Portorož, Slovenia: European Language Resources Association (ELRA).

Rajeg, Gede Primahadi Wijaya. 2021a. Paracorp: A concordancer for parallel, bilingual corpora. GitHub; Open Science Framework (OSF). doi:10.17605/OSF.IO/HV9CU. https://github.com/gederajeg/paracorp.

Rajeg, Gede Primahadi Wijaya. 2021b. Constructional equivalence in the Indonesian translations of ROB and STEAL. doi:10.17605/OSF.IO/PZC8Y. https://github.com/gederajeg/constructional-equivalence.

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021a. Pemanfaatan Bank-data Digital Dwibahasa dalam Kajian Terjemahan: Studi kasus padanan bahasa Indonesia untuk verba sinonim bahasa Inggris ROB & STEAL. Paper. doi:10.6084/m9.figshare.17078369. https://github.com/gederajeg/rob-steal-parallel-corpora.

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021b. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. doi:10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.

rob-steal-parallel-corpora's People

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.