Giter VIP home page Giter VIP logo

chinese-poetry / chinese-poetry Goto Github PK

View Code? Open in Web Editor NEW
47.0K 1.2K 9.4K 237.03 MB

The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

Home Page: http://shici.store

License: MIT License

Python 22.91% JavaScript 77.09%
json chinese poetry ci tangshi chinese-poetry

chinese-poetry's Issues

请增加下清朝诗词

                   《木兰花令·拟古决绝词》
                                ----清.纳兰性德
                人生若只如初见,何事秋风悲画扇。         
                等闲变却故人心,却道故心人易变。

   骊山语罢清宵半,泪雨霖铃终不怨。
   何如薄幸锦衣郎,比翼连枝当日愿。

宋词数据库 作者 长简介有重复

例如 苏轼的简介

苏轼:(1037-1101)北宋文学家、书画家。字子瞻,号东坡居士,眉州 眉山(今属四川)人。苏洵子。嘉佑进士。神宗时曾任祠部员外郎,因 反对王安石新法而求外职,任杭州通判,知密州、徐州、湖州。后以作 诗“谤讪朝廷”罪贬黄州。哲宗时任翰林学士,曾出知杭州、颖州等, 官至礼部尚书。后又贬谪惠州、儋州。北还后第二年病死常州 。南宋 时追谥文忠。与父洵弟辙,合称“三苏”。在政治上属于旧党,但也有改革弊政的要求。其文汪洋恣肆,明白畅达,为“唐宋八大家”之一 。其诗清新豪健,善用夸张比喻,在艺术表现方面独具风格。少数诗篇 也能反映民间疾苦,指责**者的奢侈骄纵。词开豪放一派,对后代很 有影响。《念奴娇・赤壁怀古》、《水调歌头・丙辰中秋》传诵甚广。 擅长行书、楷书,取法李邕、徐浩、颜真卿、杨凝式,而能自创新意。 用笔丰腴跌宕,有天真烂漫之趣。与蔡襄、黄庭坚、米芾并称“宋四家 ”。能画竹,学文同,也喜作枯木怪石。论画主张“神似”,认为“论 画以形似,见与儿童邻”;高度评价“诗中有画,画中有诗”的艺术 造诣。诗文有《东坡七集》等。存世书迹有《答谢民师论文帖》、《 祭黄几道文》、《前赤壁赋》、《黄州寒食诗帖》等。画迹有《枯木怪石图》、《竹石图》等。--(1037―1101)字子瞻,号东坡居士。眉州眉山(今属四川)人。苏洵长子。嘉二年(1057)进士。累除中书舍人、翰林学士、 端明殿学士、礼部尚书。曾通判杭州,知密州、徐州、湖州、颍州等。元丰三年(1080)以谤新法贬谪黄州。绍圣初,又贬惠州、儋州。徽宗立,赦还。卒于常州。追谥文忠。博学多才,善文,工诗词,书画俱佳。于词“豪放,不喜剪裁以就声律”,题材丰富,意境开阔,突破晚唐五代和宋初以来“词为艳科”的传统樊篱,以诗为词,开创豪放清旷一派,对后世产生巨大影响。代表作有 《念奴娇・赤壁怀古》、《江神子・猎主要作品有:定风波(莫听穿林打叶声)昭君怨(谁作桓伊三弄)洞仙歌(冰肌玉骨)浣溪沙(游蕲水清泉寺)西江月(顷在黄州)八声甘州・寄参寥子浣溪沙(簌簌衣巾落枣花)水龙吟(似花还似非花)行香子・过七里滩永遇乐(彭城夜宿燕子楼)西江月・重九(点点楼头细雨)满江红(江汉西来)满江红・怀子由作(清颍东流)江城子(十年生死两茫茫)念奴娇・赤壁怀古②临江仙(夜饮东坡醒复醉)水调歌头(明月几时有)蝶恋花(花褪残红青杏小)鹧鸪天(林断山明竹隐墙)望江南(春未老)卜算子(缺月挂疏桐)贺新郎(乳燕飞华屋)阮郎归(绿槐高柳咽新蝉)

1037―1101 这部分就是重复的开头

some most common ones are not collected?

21050首词 --- 但是很多口水词,例如明月几时有 (明月幾時有)。。没有收录?还是我没找对?
也没找到床前明月光 。。。

错误数据/重复数据问题

应该是是源的问题

  1. OCR结果未仔细校验,如唐诗【和蘇員外寓直】内容是 【-329-。】
  2. 乐府类的全部重复了,如同事存在李白的两篇【鼓吹曲辭 上之回】、【上之回】,显然是一篇

如果要全,那么其他朝代的诗词歌赋也不能少。

屈原的《离*》
汉高祖刘邦的《大风歌》
汉乐府诗《孔雀东南飞》
曹操、曹丕、曹植三父子的诗歌
建安七子的诗歌
竹林七贤的诗歌
东晋:陶渊明
南北朝:谢灵运、谢朓、颜延之、鲍照、庾信、沈约、江淹
乐府诗集《古诗十九首》
北朝民歌《木兰诗》
元明清三朝

诗词名句

ci.db 无法打开

环境linux,使用工具sqlite尝试打开ci.db文件,提示错误:
$ sqlite ci.db
Unable to open database "ci.db": file is encrypted or is not a database
能帮忙看一下吗

实体消歧

您好,请问这些数据是做过实体消歧处理的吗?

增加诗经数据

https://zh.wikipedia.org/wiki/%E8%AF%97%E7%BB%8F

《诗经》是**最早的诗歌总集,溯自公元前11到前6世纪,原本叫《诗》,共有诗歌305首(除此之外还有6篇有题目无内容,即有目无辞,称为笙诗六篇,题目分别是南陔、白华、华黍、由庚、崇丘和由仪)[1],又称《诗三百》。[2]从汉朝起儒家将其奉为经典,遂也称之谓《诗经》,而正式使用《诗经》一名,应该起于南宋初年[3]。早期诗经版本众多,其中最为著名也是流传至今的,是汉朝毛亨、毛苌注释的《诗经》,因此该版本又称为《毛诗》。《诗经》中的诗的作者,绝大部分已经无法考证。其所涉及的地域,主要是黄河流域,西起山西和甘肃东部,北到河北省西南,东至山东,向南也远及江汉流域。 --------- 维基百科

数据源要求

  • 来源可靠
  • 便于抓取
  • 数目接近305首
  • 有“四始六义”、音乐、表现手法分类
  • 由于作者大多无法考证, 统一不记作者。

可以考虑分类的情况

建议支持筛选,比如小学生、初中生、高中生,描写山河、边疆等的分类或者标签

简单程序估计了一下少句的情况。。

对这个项目有很大兴趣,我这边写了点东西,做了一下少句统计(主要是宋词部分),以ci.song.0.json文件内数据为例,我这边统计1000首宋词丢失语句数量最低是134,所以几万首下来数量还是很可观的。
有丢失情况的宋词序号:
[ci_103, ci_112, ci_159, ci_215, ci_302, ci_332, ci_366, ci_413, ci_451, ci_486, ci_487, ci_558, ci_686, ci_694, ci_695, ci_726, ci_736, ci_737, ci_750, ci_791, ci_824, ci_841, ci_909, ci_910, ci_952, ci_57, ci_83, ci_104, ci_144, ci_160, ci_218, ci_292, ci_306, ci_328, ci_344, ci_365, ci_485, ci_550, ci_555, ci_563, ci_590, ci_667, ci_669, ci_670, ci_672, ci_673, ci_689, ci_692, ci_780, ci_886, ci_893, ci_948, ci_28, ci_56, ci_82, ci_95, ci_102, ci_244, ci_296, ci_301, ci_311, ci_312, ci_326, ci_337, ci_347, ci_369, ci_399, ci_408, ci_409, ci_417, ci_482, ci_527, ci_593, ci_682, ci_683, ci_684, ci_687, ci_688, ci_753, ci_795, ci_804, ci_825, ci_857, ci_890, ci_895, ci_85, ci_105, ci_161, ci_263, ci_281, ci_345, ci_351, ci_352, ci_368, ci_450, ci_524, ci_553, ci_612, ci_627, ci_681, ci_820, ci_822, ci_823, ci_881, ci_947, ci_949, ci_8, ci_12, ci_111, ci_162, ci_182, ci_209, ci_275, ci_277, ci_303, ci_346, ci_364, ci_370, ci_373, ci_387, ci_488, ci_489, ci_530, ci_531, ci_546, ci_557, ci_570, ci_678, ci_690, ci_732, ci_735, ci_835, ci_891, ci_911]
所以我准备完善一下这个程序吧,希望能自动修复一下少句问题。。

关于难检字

  1. 例如 poet.tang.38000 中1011行的的罒/離,该字在 Unicode Ext-A 区,目前大多数系统字体可以正常显示了。
  2. 是否考虑使用表意文字描述字符 (Ideographic Description Character, IDC) ,更好地描述汉字?比如该字可使用⿱罒離描述。(参考 https://en.wiktionary.org/wiki/%E2%BF%B1
  3. 另外有些须合并的汉字前后 delimiter 并不统一,例如同一文件4401行,出现[{疒辛}],而4944行出现{忄雙}{忄雙},也可以用 IDC 解决。

是不是考虑支持一下从作者/作品集分类而不是单纯的编号?

暂时的一个想法啊:因为诗词爱好者很多都是具体诗人的粉丝这么发展出来的,尤其是宋元以后作品,要从网上找朝代全集难,但是找具体某某的集子可能就容易了。后续补充去重也方便。

比如,如果我上传一个近三百年名家词选,其他人传清词就得小心核对,但是我上传一个具体的集子,其他人一看就知道这个不用再管了

暇 改为 瑕 PR10

https://github.com/jackeyGao/chinese-poetry/pull/10

目前是:白璧衆求,素絲易成汙。
估计是:白璧衆求,素絲易成汙。

这样整句意义通顺。
在Google上搜索整句,前者只能找到一条,后者能找到若干条。
当然,不排除是诗人误用。

这个issue可以一直开着,不求立刻处理。

可以考虑使用GitHub的分支功能

感觉GitHub的分支功能挺适合这个项目的,比如:

  1. 一个branch里只有原始的数据。修订数据都在这里,然后通过脚本同步到其它branch。
  2. 一个branch里有平仄、标签,以及其它信息,方便下游用户使用。
  3. 一个branch采用简体中文,方便下游用户使用。

古诗词分词

作者是如何对这些诗句分词的,是自己训练的还是用已有的模型,是否可以推荐比较准确的诗句分词模型

后主介绍重复了

随手一点,
json/authors.tang.json line 115

"desc": "煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著《雜說》百篇,時人以爲可繼《典論》。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。 煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著雜說百篇,時人以爲可繼典論。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。",

增加表面结构字对应表

大家好,

目前此仓库增加了 表面结构字对应表

方便对类似这种表面结构做汉字转换, {鼓/甬} => 𪔜

目前有767个表面结构没有找到对应, 1325个表面结构字找到对应的汉字。

一些比较抽象的表意很难理解和搜索, 个人精力有限, 希望更多同学完善这个列表。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.