Giter VIP home page Giter VIP logo

rime / rime-cantonese Goto Github PK

View Code? Open in Web Editor NEW
500.0 30.0 57.0 99.02 MB

Rime Cantonese input schema | 粵語拼音輸入方案

Home Page: https://jyutping.net/

License: Creative Commons Attribution 4.0 International

Batchfile 5.21% Shell 28.92% C++ 20.08% PHP 13.76% Python 29.76% JavaScript 2.26%
rime rime-schema input-method cantonese cantonese-language cantonese-dictionary linguistics jyutping chinese chinese-nlp

rime-cantonese's People

Contributors

alex-the-man avatar ayaka14732 avatar bingzheung avatar chaaklau avatar eatradish avatar felixonmars avatar github-actions[bot] avatar graphemecluster avatar hfhchan avatar ispoto avatar laubonghaudoi avatar leeyc0 avatar leimaau avatar sgalal avatar szc126 avatar tanxpyox avatar william8915 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

rime-cantonese's Issues

IPA 符號問題

  1. d95ebc1 呢個 commit 度,[ʊ]、[ɪ] 分別被改成 [o] 同 [e],理由係咩?就係因為 Bauer & Benedict 1997, 49 呢份 document???

    - xform/(^|[ '])([jy])u(ng)/$1jOŋ/ # 用 joŋ

    - xform/(^|[ '])([jy])u([k])/$1jO$3]/ # 玉 jok̚

    - xform/u([k])/O$1]/ # 六 lok̚ (Bauer & Benedict 1997, 49, 91)

    - xform/i(ng)/EN/ # 名 meŋ (Bauer & Benedict 1997, 49, 84-85)

    - xform/ik/EK]/ # 式 sek̚ (Bauer & Benedict 1997, 49, 84-85)

    - xform/u(ng)/ON/ # 動 toŋ (Bauer & Benedict 1997, 49, 91)

  2. 點解 [sɐi˧˥ sɐu˧˥] 唔寫做 [sɐj˧˥.sɐw˧˥],[t͡sʰɐu˨˩ t͡sʰɵy˨˩] 唔寫做 [t͡sʰɐw˨˩.t͡sʰɵɥ˨˩]?起碼都標返個非音節符號,寫做 [sɐ˧˥.sɐ˧˥] 呀!

  3. 第四聲我 perfer ˩ 多過 ˨˩,你哋點睇?

Using google input tools api

I really appreciate the efforts of the project.
Typing has to be very precise to get the Chinese characters, whereas Google's implementation is more loose and can guess the words that the user is trying to type.

I would like to implement/fork to get Google input tool's Cantonese into rime and help would be appreciated.

There is an "api" for google input tools.
e.g. calling the api with input neiho

https://inputtools.google.com/request?text=neiho&itc=yue-hant-t-i0-und&num=5&cp=0&cs=1&ie=utf-8&oe=utf-8&app=test

this returns:

[
  "SUCCESS",
  [
    [
      "neiho",
      ["你好", "你可", "您可", "您好", "妳好"],
      [],
      {
        annotation: ["nei hou", "nei ho", "nei ho", "nei hou", "nei hou"],
        candidate_type: [0, 0, 0, 0, 0],
        lc: ["69 69", "69 69", "69 69", "69 69", "69 69"],
      },
    ],
  ],
];

請問可否從粵語 Wikipedia 匯入名詞?

而家個詞庫有好多詞語都冇. 粵語 Wikipedia 入面有好多topic 個header都係valid 名詞. 請問從粵語 Wikipedia 匯入大量topic header 作爲名詞是不是一個好主意? 會否污染詞庫? 如果不會, 我可以做進一步研究.

[尋求幫助]我有四份詞典可以擴充我哋嘅碼表

我有四份詞典可以擴充我哋嘅碼表,因爲我哋時間、精力、能力和人手有限,冇得閒處理,希望有能力嘅朋友能夠提供幫助,四份詞典分別係:

  • 《實用廣州話分類詞典》(網上有pdf版,可以對照)
  • 《廣州話詞典》
  • 《地道廣州話用語》(網上有pdf版,可以對照)
  • 《A Dictionary Of Cantonese Slang》(耶魯拼音)[202dec1 已完成]

1997年《实用广州话分类词典(简)》2.txt
1997年《广州话词典(简)》2.txt
2005年《地道广州话用语(简)》2.txt
2005年《A Dictionary Of Cantonese Slang》.txt

網盤:https://lanzous.com/b00tiew9i 密碼: 8qxx

要求:

  • 轉換成 opencc 標準繁體
  • 單字詞彙帶外文嘅部分分開(同我哋碼表格式)
  • 外文嘅詞保留外文,例如「check cek1」
  • 外文音譯成中文嘅詞保留中文,例如「巴士 baa1 si2」
  • 外文有空格嘅加上「-」,例如「扁pat-pat bin2 pet6 pet6」
  • 帶括號嗰啲拆成多個詞,例如:「 水横枝(栀)」,拆成「水横枝、水横栀」
  • 帶符號「囗」係有音無字嘅詞條,能補上字最好,唔得都唔強求,千祈冇強行補字
  • 有音就保留音(耶魯拼音能轉換最好,唔得就算),冇音嘅就唔理
  • 變調則拆開,例如「一陣 jat1 zan6(-2) 」,拆成「一陣 jat1 zan6、一陣 jat1 zan2」
  • 省略號保留,逗號保留,句尾句號去咗
  • 有錯字錯音漏字漏音都可以改

一個人可以認領一份或者多份,但要寫低你認領邊一份,唔好衝突。完成後會將你嘅貢獻寫入我哋嘅碼表中,多謝你嘅幫助。

粵語輸入法BUG

粵語輸入法不能準確地根據用户所輸入的粵拼提供其所想輸入的“zi”
例如: zi = 字 (沒有此字)
faat = 法 (沒有此字)

Screenshot 2021-05-16 at 13 29 09

Screenshot 2021-05-16 at 13 29 14

Screenshot 2021-05-16 at 13 29 20

Screenshot 2021-05-16 at 13 29 25

Screenshot 2021-05-16 at 13 29 30

Screenshot 2021-05-16 at 13 29 34

Screenshot 2021-05-16 at 13 29 39

Screenshot 2021-05-16 at 13 29 43

Screenshot 2021-05-16 at 13 29 47

Screenshot 2021-05-16 at 13 30 31

Ubuntu 18.04 LTS使用"Ubuntu Pop!_OS 安裝教程"嘅方法安裝嘅問題:粵語打唔出

我用嘅系ubuntu 18.04 lts,我發現使用教程嘅方法安裝有兩個問題:

  1. 執行完教程嘅步驟之後,撳ctrl + ` ,沒有出現【粵語拼音】。
    默認嘅default.custom.yaml好似唔啱,格式要改成
    patch:
    schema_list:

    • schema: jyut6ping3
      噉樣先得(選擇菜單只得粵語拼音,其他亦要加入去)
  2. 我發現呢,就算出現咗粵語拼音,都打唔出字。我懷疑系安裝版本嘅問題,我用sudo apt-get install ibus-rime 先得。同時我發現用明月拼音打普通話ao變成an,例如我打pao就會出現讀音系pan嘅詞,an變成ai等等。用sudo apt-get install ibus-rime一切搞定。

就係噉,希望改改咯

如果我唔識某一個字點打 係咪再嵌入一個拆字粵拼呀?

睇到可以用V掣去用倉頡打字反查粵拼,但係我倉頡好屎,唔識打某一個字,有無拆字反查粵拼方法?

譬如:搜狗拼音輸入法:查「乪」字點打咁,撳 U + yi + tian,就可以出「乪」字。

呢個項目如果有得撳 U + jim + tin,就可以出「乪」字。咁樣咪仲好?

詞組用字問題

目前我哋嘅碼表中,有十幾萬個詞係帶粵拼標註嘅。而呢十幾萬個詞條入邊,有一部分係屬於「同一詞彙用不同漢字寫法」嘅。例如下面:

aa3 je4	亞爺
aa3 je4	阿爺
saa1 bou1 aang1 caang1	沙煲甖罉
saa1 bou1 aang1 caang1	沙煲罌罉
saa1 bou1 aang1 caang1	砂煲甖罉
saa1 bou1 aang1 caang1	砂煲罌罉
saa1 bou1 aang1 caang1	砂煲罌𦉘	

我認爲呢啲詞條有必要進行一次清理,確定統一嘅寫法。如果唔係嘅話,打一個音節會出幾個候選項,會令用戶困惑,亦都阻礙粤文書寫系統嘅標準化進程。

所以我啱啱用腳本以「音節完全相同」爲標準,將呢啲詞條都搵咗出嚟,喺呢個txt文件入邊,總共接近九千行。其中第一列爲音節,逗號後面係以此爲音節嘅漢字詞,以空格分隔。

homophones.txt

因爲我係以音節相同爲判斷標準嘅,所以會將啲「同音不同義」嘅詞都加埋入嚟,好似下面嘅詞條噉:

bat1 sik1	不息	不惜	不識	不適	
bei6 jim4	避嫌	鼻炎	

所以我提議,我哋先搵人將呢個文件入邊嘅第二類詞條,即「同音不同義」詞條去除,然後開一次會議,討論呢啲「同詞唔同字」嘅詞條嘅標準寫法,確定究竟寫「阿婆」定係「亞婆」,最尾根據呢個寫法嚟清理呢個碼表。請問各位意見如何?

有幾個功能唔係好明

先多謝各位嘅辛勤付出,我好唔容易喺 macOS 用到一款粵拼輸入法 ;-P

我係跟住哩度離搞嘅:https://hanhngiox.net/install/mac.html ,入邊話有反查嘅功能,我又見到 *.dict.yaml 文件係有嘅啵,不過㩒 ` 掣又無反應。想問呢個功能要點用嘅

同埋呢個 menu 入邊 2 3 8 9 項係乜意思,有咩用?

哩個係我個配置:

patch:
  schema_list:
  - schema: jyut6ping3

  switcher:
    caption: 〔方案選單〕
    hotkeys:
    - Control+grave

  menu:
    page_size: 10

curl failed to verify the legitimacy of the server

問題描述

Trying to follow the windows install:
https://github.com/rime/rime-cantonese/wiki/Windows-%E5%AE%89%E8%A3%9D%E6%95%99%E7%A8%8B

After step 2, I get this.

Rime package installer

Working directory: C:\Users\NAME\Downloads\weasel-0.14.3.0-installer.exe
Package installer directory: C:\Program Files (x86)\Rime\weasel-0.14.3\
Download cache directory: C:\Users\NAME\AppData\Local\Temp
Rime user directory: C:\Users\NAME\AppData\Roaming\Rime

Enter package name, URL, user/repo or downloaded ZIP to install: cantonese
Downloading rime-install ...
curl: (60) SSL certificate problem: self signed certificate in certificate chain
More details here: https://curl.haxx.se/docs/sslcerts.html

curl failed to verify the legitimacy of the server and therefore could not
establish a secure connection to it. To learn more about this situation and
how to fix it, please visit the web page mentioned above.

Installation failed: Error downloading rime-install

Windows封裝

我嘗試fork咗個小狼毫嘅程式碼然後將入面嘅預設檔案改成預設安裝rime-cantonese, emoji 同埋 sgalal/rime-opencc-32bit-latest,跟住將default.yaml改成只得jyut6ping3一個輸入方案。(我本來諗住用submodule嚟實現嘅,但係git clone極都有問題,所以索性fork咗佢,之後手動更新算。)

個exe檔係用Appveyor自動封裝嘅,可以喺Release入面搵到。

得閒可以幫手bug test下。

https://github.com/tanxpyox/weasel/releases

三個我認爲標音有錯誤嘅詞條

呢三個都係喺 jyut6ping3.dict.yaml入邊嘅。

下邊兩個我覺得係錄入嗰陣手誤填錯咗:

# gwaai3
唔怪得	m4 gwai3 dak1

# ce1
落車	lok6 ze1

仲有 「」 係唔係應該只讀作 long4 ?

狼	long2

Unable to set up ibus-rime with cantonese input properly

問題描述

As I am a 傻瓜beginner, I tried to use the ibus-install.sh script but I can't see Cantonese input method in my ibus-rime. Before I started, I already had ibus-rime installed and also librime-data-jyutping. I don't know what is wrong so my search led me to this repo and I tried to use the script as mentioned above.

Script Output:

pc:~/Downloads$ ./ibus-install.sh
Installing IME files ...
bash: line 17: git: command not found
bash: line 22: plum/rime-install: No such file or directory
Done!
pc:~/Downloads$ 

What I see on my rime
Where is my cantonese input?
rime

修復「台」字

#19 中本應將異體字全部修正爲 OpenCC 標準,但因「台」字的對應關係較為複雜,暫時沒有修復。

目前碼表中有三百餘個「台」字,應該需要人工修正。

參考:https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt

與「平地」有關用「臺」,與「櫃檯」有關用「檯」,與「颱風」有關用「颱」。「台」爲罕用字。 看臺 高臺 電視臺 寫字檯 颱風 兄台 天台山 五臺山 臺灣

編譯錯誤

哩啲字詞部署唔到入去個輸入法度,應該係因爲啲字詞喺*.phrase.dict入面出現咗,但係搵唔到碼表嘅相應拼音。

因爲個list長得滯,所以我將佢paste咗響度,方便大家睇。

CIN 格式表格

由於 OpenVanilla (已停止維護) 專案中的 jyuping.cin 已過於老舊,而已來源也已不存在。
因此想以 jyut6ping3.dict.yaml 來轉換格式,內容會更動的部份:

刪除字詞部份,僅保留單字
刪除單字使用頻率
刪除拼音空格,置第一欄
字詞於第二欄
補上 CIN 格式資訊,如 keyname, chardef

則轉換後的內容如下:

%ename jyut6ping3
%cname 粵拼
%encoding UTF-8
%selkey 1234567890
%endkey 123456
%keyname begin
a a
...
6 6
%keyname end
%chardef begin
a1	吖
a3	啊
aa1	㝞
aa1	䃁
aa1	丫
...
%chardef end

想請問標頭說明部份,除了格式轉換及來源的說明之外
是否建議完整保留原 jyut6ping3.dict.yaml 的說明?
或是有其他建議的放置的資訊?
謝謝

關於合併詞庫嘅問題

合併詞庫

經過各位嘅努力而家呢個倉庫已經基本成型了。不過我覺得仲有一個問題需要解決,就係將https://github.com/rime/rime-jyutping 入邊嘅詞庫都加埋入去。目前rime-jyutping入邊有15794個帶拼音(都冇聲調)或者冇拼音嘅詞條,而#10 入邊提到嘅jyut6ping3.vocabulary.dict.yaml都有9萬幾條冇帶拼音嘅詞條。我嘅提議將呢啲詞條全部轉成唔帶拼音嘅詞條,加入我哋嘅碼表入邊。

爲咗方便管理,我提議將而家所有有拼音(都有埋聲調)嘅詞條都放落去jyut6ping3.dict.yaml度,然後將以上冇拼音嘅詞條都放落jyut6ping3.phrase.dict.yaml。唔知各位意見如何。

詞頻

另外關於詞頻嘅問題,經過測試我確認咗,我哋碼表嘅詞條如果要排到八股文自帶嘅官話詞條前面,就需要喺後面加一個大過佢詞頻嘅整數。例如話喺essay.txt呢度可以睇到,「宜家」嘅詞頻喺1790,所以如果想喺打/ji gaa/嗰陣排第一位嘅詞喺「而家」而唔係「宜家」嘅話,就應該喺我哋碼表嘅「而家」詞條後面加一個大於1790嘅數字。目前碼表入邊嘅詞彙基本上冇詞頻,所以經常出現官話詞彙排喺粵語詞彙前面嘅情況,呢個問題我哋可能要另外專門討論,點樣修正詞頻。

匯入英文維基詞典啲發音

已有 CBOR 格式dumpabout)。

parameter c 爲標準粵語嘅發音、/ 爲 delimiter、- 爲變調符號,等於 Cantodict 嘅 *

parameter c_note 爲發音註釋。

(而家唔推薦加單字,有啲係 unicode 或者《漢語多功能字庫》抄翻嚟嘅。) 嗯,無所謂啦,畢竟rime-cantonese個詞典都已經係噉

詞表地名更正

問題描述

修改意見

出處/參考資料/備考
宇晴匯 jyu cing wui jyut6ping3.phrase.dict.yaml中第87588行的「宇晴滙」更正為「宇晴匯」,位於荔枝角深盛路9號

詞表修正計劃

@leimaau#2 入邊提到,部分詞彙需要改變詞頻,且字頻亦須修改。所以下一步詞庫應該點計劃更新?應該點樣確定每個字詞應該嘅排序同頻率?數據來源分別係邊度?

無聲母與ng聲母混淆

本人鄉下粵西,操廣府話,特點有嚴格區分無聲母與ng聲母,n同l等等

本人深悉廣州方言經已完全混淆無聲母及ng聲母,對於非漢語來源嘅音,利用韻書推測出未混淆前嘅音亦可能無能爲力。但係我嘅母語方言係嚴格區分兩者嘅,兩者完全互補,所以我旨在協助區分佢哋,係個人意見

本人意見非基於韻書,係基於本人由細長大時所接收到嘅發音

由於此issue需針對原碼表(May, 2020) 進行引用,故使用個人格式,敬請諒解
本人篩選原碼表時發現,大概有1,200個字屬於無聲母及或ng聲母,咁多字我只能得閒就檢查,同埋我相信要檢查嘅字重唔止呢啲

本issue收集本人對無聲母與ng聲母字嘅收音情況,列表未完成,歡迎交流及指正

:接收音即本人於鄉長大時接收到嘅發音,非接收音即本人於鄉下長大時未接收到嘅發音

意見

碼表音 註釋
ngak1 接收音。欺騙
ngaak1 非接收音。欺騙
ak1 非接收音。欺騙
aak1 非接收音。欺騙
ang2 接收音。受硬物擠壓而受損
ngang2 非接收音。受硬物擠壓而受損
ngaat6 接收音。蟲、鼠類動物啃咬,有人會講 ngat6,感覺上更口語化
ngit6 文言?
ngit6 同「嚙」
ngaat6 同「嚙」
ung1 接收音。掩埋,無聲母
jung2 非接收音。掩埋
jung1 非接收音。掩埋
aa1 非接收音。表示「嬰孩」用「ngaa1」,「ngaa4 ngaa1仔」,「ngaa1仔」。單字音依然係ngaa1,用作人名時依然係ngaa1,可能本字係「伢」,伢伢仔,伢伢,伢仔
aau3 接收音。山坳,同坳
au3 非接收音。山坳,同坳
ak1 接收音。帷幄
aak1 非接收音。帷幄
ak1 接收音。同厄
aak1 非接收音。同厄
ngaat6 接收音。搖動
ngat6 接收音。搖動,常用
at1 非接收音。廣州方言,按
ngat1 非接收音。廣州方言之變音
ak1 接收音。漢語
aak1 非接收音。漢語
aap3 接收音
aat3 接收音。漢語,常用
ngaai4 接收音。挨打,挨生挨死,同捱?
aai1 接收音。挨近
oi2 非接收音
ak1 接收音。漢語
aak1 非接收音
ngou1 接收音。向高處或遠處取物
ou1 非接收音。向高處或遠處取物
aa1 接收音。樹丫
ngaa4 木名,非樹丫
ngaa1 非接收音。樹丫
aa1 接收音。丫之異體。分叉,分支。樹丫,丫頭,丫鬟,丫叉,枝丫
ngaa6 非接收音。
ngaa1 非接收音。樹丫
ngou4 接收音。漢語
ngaau4 非接收音。漢語
ou1 接收音。爊熟
ngou4 非接收音。爊熟
ngaau4 非接收音。爊熟
o2 接收音。猗儺
ngo5 非接收音。猗儺
ngaa5 接收音。漢語
ngaa6 非接收音。漢語
ngak1 接收音。(借字),欺騙
ngaak1 非接收音。(借字),欺騙
ngaai4 接收音。睚眥
ngaai6 非接收音。睚眥
ai2 接收音。漢語
aai2 非接收音。漢語
zin2 接收音
nin5 接收音。碾壓,碾碎。又音ngaan4 (最常用),碾爛,碾米
nin6 非接收音
ngou4 接收音。翱翔
ngou6 非接收音。翱翔
aak3 接收音。牛軛
aak2 非接收音。牛軛
aak1 非接收音。牛軛
aak3 接收音。同軛
aak1 非接收音。同軛
ak1 非接收音。同軛
aak3 接收音。鐲器
aak2 非接收音。鐲器
ngaak6 非接收音。鐲器
ou1 接收音。鏖戰
ngou4 非接收音。鏖戰
aai3 接收音。漢語
ai3 非接收音。漢語
aat3 非接收音。尿臭味,ngaat3,有時ngat3
𠼮 ngai1 接收音。懇求
𠼮 ai1 非接收音。懇求
𡁏 ngam1 待定,本人暫未明其義
𡁏 am1 待定,本人暫未明其義
𡃀 e4 待定
𡃀 nge4 待定
𢯎 ngaau1 接收音。𢯎痕。可能爲「鉤(ngau1)」變異而來
𢯎 aau1 非接收音。𢯎痕
ngaap3 本人對此音義無印象
aap3 本人對此音義無印象
aai6 本人暫未明其義
ngaai6 本人暫未明其義
ngaa5 本人暫未明其義
aa5 本人暫未明其義
ong1 本人暫未明其義

發現有遺漏粵拼去邊到報告?

今日想讚人『磢镜』,即係靚咁解,不過打咗好耐『saang2 geng3』都打唔出,衹好用『㨘鏡』代替。

查咗下,『磢』有 coeng2、cong2、saang2 三個讀音,只可惜 rime-cantonese 緊收錄『cong2』哩個拼法。咁請問哩種情況點報告好?(要唔要報告好)🧐

macOS 封裝

我用 #53 同樣嘅方法整咗個macOS用嘅安裝包(於data文件夾插入emoji, cantonese 同埋tanxpyox/rime-cantonese-prelude (定製default.yaml檔),歡迎大家嚟試下

註:暫時仲未搵到可以唔使改Makefile都可以安裝到sgalal/rime-opencc-latest 嘅方法,所以安裝包入面係librime預設嘅OpenCC版本。

https://github.com/tanxpyox/squirrel/releases

#街名收集

問題描述

修改意見

出處/參考資料
灰窰角街 IMG_20200609_053447 mmexport1591464025604來源:中原地圖,位置:荃灣

異體字整理

問題簡述

  • 八股文詞表採用字形,與香港習慣不同。(例如用「爲」而非「為」)參考:中州韻說明文件
  • 詞表中部份變體(variant),如「靑」(下方為「円」)、户(第一劃為「丶」)、温(右上為「日」而非「囚」)未有收錄,現時做法係用 simplifier 處理地區差異(不轉換,大陸簡體,台灣正體,香港繁體)。
  • 即係話,只要詞表入面係按照同一套選字方針,就可以交晒俾 simplifier 處理。
  • 實際使用上,例如輸入人名地名時,有時幾個寫法都有必要。因此任何變體最好可以作為「單字」輸入得到。

解決方法提案

  1. 詞表轉為使用八股文中要求嘅字符(只收錄「牀」,刪去「床」)。暫時只有以下條目需要處理。
啤啤床	bi4 bi1 cong4
床單	cong4 daan1
床下底	cong4 haa6 dai2
床褥	cong4 juk2
床笠	cong4 lap1
彈弓床	daan6 gung1 cong4
飛來峰	fei1 loi4 fung1
炕麵包	hong3 min6 baau1
凶神惡煞	hung1 san4 ok3 saat3
撈麵	lou1 min6
淥麵	luk6 min6
麵包	min6 baau1
麵豉	min6 si2
舗床	pou1 cong4
鋪床	pou1 cong4
食貓麵	sik6 maau1 min6
雲吞麵	wan4 tan1 min6
淨麵	zing6 min6
珠穆朗瑪峰	zyu1 muk6 long5 maa5 fung1
  1. 新增遺漏未有收錄之變體確保單字輸入時可以打出任何漢字字元(包括簡化字) 新增變體排序可以切為 0%,防止非常用變體被用於「無字音詞彙」。需要嘅工作係
    • 增加下表嘅字入去詞表
      香港繁體用字
    • 增加只用於簡體嘅字符,權重定為 0%

餘下問題

粵標或其他任何正字法標準,有可能會造出一啲新嘅「異體字關係」(例如「逳」同「郁」會變成異體字),涉及正字法問題可以另外討論。

无效词条 “大波Man”

問題描述

E20210703 03:45:29.408849   961 entry_collector.cc:135] Encode failure: '大波Man'.
E20210703 03:45:43.208457   962 entry_collector.cc:135] Encode failure: '大波Man'.

此词条在昨日的修改 346b752 中引入。

速成反查粵拼

我本身有用開速成,有時會用粵拼反查

但係唔知點解反查link唔到去jyutping字典啲字,連音都唔啱
有無人幫下我?

image

Why does my English look weird?

If I try to type in English (while having Rime on), it sometimes appears like longer, is it called full width? I am trying to reproduce it now but it actually isn't working, it's all fine but occasionally it happens and I can't get rid of it. I have to switch from Rime to my normal 'English' keyboard.

词库报错

词库jyut6ping3.dict.yaml内“方领fong1 leng5”一词拼音误作fongl leng5

錯字(綜合issue?)

問題描述

錯字。

  • 屌你老帽(帽→母)
  • 野(→嘢)
    • 吃緊野
    • 吃野
    • 吃錯野
    • 乜野
    • ...
  • me1(→咩)
  • 哂嗮曬(→?)
jyut6ping3.dict.yaml:扮嗮嘢	baan6 saai3 je5
jyut6ping3.dict.yaml:扮晒嘢	baan6 saai3 je5
jyut6ping3.dict.yaml:扮晒野	baan6 saai3 je5

修改意見

改爲正字或刪除。

擴充詞庫

我之前搵到咗呢個倉庫:https://github.com/ziloeng/rime-jyut6ping3
呢個倉庫入邊有好豐富嘅粵語詞彙,我亦都徵得咗作者嘅同意,可以將入邊嘅數據加到我哋嘅碼表度。所以我而家諗住下一步就整合呢啲詞彙。呢個倉庫入邊有5個詞庫文件:

  1. jyut6ping3.dict.yaml單字字音碼表,例子Unihan嘅kCantonse。呢部分我哋已經解決,可以忽略。
  2. jyut6ping3.dict.yaml少量emoji碼表,可以忽略。
  3. jyut6ping3.vocabulary.dict.yaml大量粵語詞彙,其中有1萬1千條有標粵拼,剩低9萬幾條剩得個詞組,冇標粵拼。呢部分係我哋要重點考慮嘅
  4. jyut6ping3.vocabulary.emoji.dict.yaml3千幾條粵語詞彙,冇標粵拼,可以都加入(唔知同上面有乜唔同,點解要分出來)。

所以我而家打算先增補呢部分詞彙。另外有一個問題就係,因爲呢啲詞彙數量太大,無辦法一次過手工檢查晒,所以我推薦先將呢部分詞彙放喺另外一個文件jyut6ping3.vocabulary.dict.yaml入邊,包括@leimaau 之前提交bd8349b 加嘅兩萬個詞條,都整合放到呢個文件入邊,統一以後收到反饋再修改維護。噉樣好唔好?

最後有個問題就係,如果我哋加入晒呢啲詞彙,話唔定可以取消使用個自帶八股文詞庫嘅設定。因爲呢度嘅詞彙已經足夠多,而且可以避免打出一啲官話詞彙。當然呢一點要到時試過先知。

因爲 -> 因為

呢個為字喺不轉換之下會變咗做爲,我要自己晌dict上面自己加返為字。唔知有冇方法解決?

Question: How to get typing with tones working?

問題描述

I am using rime-cantonese with Ibus on Arch Linux. It works so far, however the README.md typing animation seems to indicate that entering tones is possible too. I have added to the default.custom.yaml the following:

patch:
  schema_list:
    - schema: jyut6ping3

When I try to type "jyut6ping3", it does not work as in the animation, because typing '6' and '3' selects the corresponding Ibus suggestion. How can I get it work so that I can enter the tones 6 and 3 by typing "jyut6ping3"?

修改意見

出處/參考資料/備考
lai6 《廣韻》力制切。

Character style (Simplified / Traditional) is not persistent

問題描述

The character style is forgotten upon switching between input languages.

Steps to reproduce

  • Set Simplified characters (i.e. 大陸簡化刊字) in Rime-Cantonese
  • Switch to another input language (E.g. to a US / GER etc. keyboard)
  • Switch back to Rime-Cantonese
  • Note that typing produces Traditional characters again
  • Note that in contrast the Simpified / Traditional character setting is persistent when using other Rime input methods (E.g. rime-terra-pinyin)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.