Giter VIP home page Giter VIP logo

chinese-xinhua's Introduction

chinese-xinhua

中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。

Project Structure

chinese-xinhua/
|
+- data/ <-- 数据文件夹
|  |
|  +- idiom.json <-- 成语
|  |
|  +- word.json <-- 汉字
|  |
|  +- xiehouyu.json <-- 歇后语
|  |
|  +- ci.json <-- 词语

Database Introduction

成语 (idiom.json)

[
    {
        "derivation": "语出《法华经·法师功德品》下至阿鼻地狱。”",
        "example": "但也有少数意志薄弱的……逐步上当,终至堕入~。★《上饶集中营·炼狱杂记》",
        "explanation": "阿鼻梵语的译音,意译为无间”,即痛苦无有间断之意。常用来比喻黑暗的社会和严酷的牢狱。又比喻无法摆脱的极其痛苦的境地。",
        "pinyin": "ā bí dì yù",
        "word": "阿鼻地狱",
        "abbreviation": "abdy"
    },
    ...
]

词语 (ci.json)

[
    { 
        "ci": "宸纶", 
        "explanation": "1.帝王的诏书﹑制令。" 
    },
    ...
]

汉字 (word.json)

[
    {
        "word": "",
        "oldword": "",
        "strokes": "13",
        "pinyin": "á",
        "radicals": "",
        "explanation": "嗄〈叹〉\n\n 同啊”。表示省悟或惊奇\n\n 嗄!难道这里是没有地方官的么?--宋·佚名《新编五代史平话》\n\n 嗄á叹词。在句首,〈表〉疑问或反问~,这是什么?~,你想干什么?\"\"另见shà㈠。\n\n 嗄shà\n\n ⒈声音嘶哑~声。\n\n 嗄a 1.助词。表示强调﹑肯定或辩解。 2.助词。方言。表示疑问或反诘。\n\n 嗄xià 1.见\"嗄饭\"。 2.见\"嗄程\"",
        "more": "嗄 ga、a 部首 口 部首笔画 03 总笔画 13  嗄2\nshà\n〈形〉\n(1)\n声音嘶哑的 [hoarse]\n终日嚎而嗌不嗄。--《老子》\n(2)\n又如嗄哑,嗄嘶(嗓音嘶哑)\n\nshà\n〈叹〉\n(1)\n什么 [what]--表示否定\n我要丢个干干净,看你嗄法把我治。--清·蒲松龄《聊斋俚曲集》\n(2)\n旧时仆役对主人、下级对上级的应诺声 [yes]\n带进来”。两边军士应一声嗄”,即将牛皋推至面前。--《说岳全传》\n另见á\n嗄1\ná\n〈叹〉\n同啊”(á)。表示省悟或惊奇 [ah]\n嗄!难道这里是没有地方官的么?--宋·佚名《新编五代史平话》\n另见shà\n嗄1\nshà ㄕㄚ╝\n嗓音嘶哑。\n郑码janr,u55c4,gbke0c4\n笔画数13,部首口,笔顺编号2511325111354\n嗄2\ná ㄚˊ\n同啊2”。\n郑码janr,u55c4,gbke0c4\n笔画数13,部首口,笔顺编号2511325111354"
    },
    ... 
]

歇后语 (xiehouyu.json)

[
    {
        "riddle": "飞机上聊天",
        "answer": "高谈阔论"
    },
    ...
]

Changelog

查看更新日志
  • 20181216: 成语数据集去重
  • 20181216: API 功能下线
  • 20180803: 添加词语数据集
  • 20180206: 添加成语,歇后语,汉字数据集

Copyright

本仓库的所有的数据都是我从网上收集整理的。仓库本来的目的是因为我以前想做一个成语接龙的东西,但是苦于没有现成可用的数据库,自己就从各个网站抓取整理了一份。放在 Github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。

本仓库无任何商业目的!如果有侵权行为将及时删除!

chinese-xinhua's People

Contributors

pwxcoo avatar t-xiwu avatar zscn avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese-xinhua's Issues

数据请求次数

接口请求次数有限制吗?还有能不能支持模糊查询?

成语拼音标注错误

在尝试写成语接龙程序中发现的拼音标注错误:

成语 原文标注 应为
独清独醒 dúu qīng dú xǐng dú qīng dú xǐng
关东出相,关西出将 guēn dōng chū xiàng, guān xī guān dōng chū xiàng, guān xī chū jiàng
关门闭户 guēn mén bì hù guān mén bì hù
九回肠 jiǔì huí cháng jiǔ huí cháng

你好,我是**网警!

请于3日内到所在管辖区域派出所报到!否则视为逃犯,将发布国际一级红色通缉令!谨记!

博主,你好,请问此字库不维护了吗?

博主,你好,

请问不维护字库了吗?

看日期已经有一些日子没有更新字库了。

PS:我已经拿过来准备弄一些平舌音的功能,免费开放出去,供学普通话者使用(-_-好多app此类收费真是贵,测试一次要4元RMB,我是真心穷)。但我发现有些常用字不存在、有些多音字分成了两条数据。取数据时有点麻烦。我准备合并成一条数据。希望博主一起维护吧。

部分拼音错误

可能还有其他的,处理时用pypyin库对比时发现,下面列举几个

挨家挨户 āi ji āi hù
苍白无力 āng bái búi lì
风云变幻 fēng yún bià huàn

成语的出处全部缺少上引号

成语的json文件中的出处全部缺少了上引号,由于很多出处不是在右书名号后加上引号,而是应该在“回”后加上引号,导致本地修改异常麻烦,不知能否再完善一下?

中文参数被encodeURI转码后返回数据为空

使用axios发送请求,例如查询成语‘兴高采烈’,查看控制台请求详情,汉字被encodeURI编码了,返回的数据为空,请问这个问题如何解决呢?我是新手,还望不吝赐教,非常感谢!

ci.json格式有问题

用Visual Studio Code 打开ci.json有问题

其他几个文件(iditom.json,word.json)打开会自动格式化(排版) ci.json不会

你好,请与上海市徐汇分局联系

算了,不要联系了,直接自己买付手铐过来吧,带点随身衣物,不要超过2公斤,门口有称重,超重罚款。
温馨提示,带个充电宝,否则你会无聊致死。

download

下载下来,解压文件破损

成语接龙首字匹配

成语接龙的规则应该是后者接前者的最后一个字的发音,不包括音调,更不是汉字。因为没有纯音节的字段,所以无法这样查找,所做出来的成语接龙很受局限

typo

"riddle": "拽(zhu",
"answer": "i拉)着大嫂叫姑姑"

数据源的问题?

您好,我想请教一下的 你抓取的数据源是什么网站呢?

我这边想做一个划词翻译的中文 的插件,想看看数据源的数据是长什么样的 ? 在看看版权啊。 现在好多汉字都不认识 😅

貌似有重复的

就拿兴高采烈来说 有两条数据 唯一不同的就是 example 字段的最后一句 也希望能对数据做一些优化处理 很不错的项目

没有【两情相悦】

如题,部分成语收录不全,比如没有【两情相悦】,建议爬虫和数据分别使用不同的仓库,这样便于补全数据

为什么要导出 json 格式的文件呢?

为什么要导出 json 格式的文件呢?请教下使用的时候要怎么用?之前你开放的 api 接口是将数据导入到库里的吗?有使用全文搜索引擎吗?

与商务出版社官方的新华字典数据差异

首先感谢楼主在资料整理上的辛苦和贡献,有没有研究过与商务出版社官方的新华字典数据差异?新华字典最权威的版本出自商务出版社,其它出版社多少都有点问题。我们想构建一个中文学习基础平台所以需要一份权威数据。如有答复将非常感谢!

脚本的requests建议用连接池

s = requests.session()
s.get()

有一个脚本是多线程的,根据我查到的资料来看session不支持线程安全,必须每个线程用一个,就没有意义了。

其余脚本我虽然可以改,但是owner似乎没有积极维护,所以我就不开PR了。

”蝚“字的拼音错误

{
    "word": "蝚",
    "oldword": "蝚",
    "strokes": "8",
    "pinyin": "kūn",
    "radicals": "",
    "explanation": "蝚kūn 1.虫的总名。今通作\"昆\"。",
    "more": "搜索与“蝚”有关的包含有“蝚”字的成语 查找以“蝚”打头的成语接龙"
},

”蝚“字的拼音不是"kūn",应该为"róu"

成语json数据重复

数据表设置为一键时发现,大约有1000个左右
没有统计大概有:
因材施教
愚不可及
雨打风吹(四次重复)
与世沉浮
于虎某皮
玉不琢,不成器(三次重复)
狱货非宝
玉叶金枝
浴血奋战
还用很多很多很多
建议过滤一下

多音字

每个汉字的pinyin字段应该是一个数组

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.