chinese-poetry / chinese-poetry Goto Github PK
View Code? Open in Web Editor NEWThe most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
Home Page: http://shici.store
License: MIT License
The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
Home Page: http://shici.store
License: MIT License
没有人做论语数据库吗?感觉这个很酷啊。
《木兰花令·拟古决绝词》
----清.纳兰性德
人生若只如初见,何事秋风悲画扇。
等闲变却故人心,却道故心人易变。
骊山语罢清宵半,泪雨霖铃终不怨。
何如薄幸锦衣郎,比翼连枝当日愿。
例如 苏轼的简介
苏轼:(1037-1101)北宋文学家、书画家。字子瞻,号东坡居士,眉州 眉山(今属四川)人。苏洵子。嘉佑进士。神宗时曾任祠部员外郎,因 反对王安石新法而求外职,任杭州通判,知密州、徐州、湖州。后以作 诗“谤讪朝廷”罪贬黄州。哲宗时任翰林学士,曾出知杭州、颖州等, 官至礼部尚书。后又贬谪惠州、儋州。北还后第二年病死常州 。南宋 时追谥文忠。与父洵弟辙,合称“三苏”。在政治上属于旧党,但也有改革弊政的要求。其文汪洋恣肆,明白畅达,为“唐宋八大家”之一 。其诗清新豪健,善用夸张比喻,在艺术表现方面独具风格。少数诗篇 也能反映民间疾苦,指责**者的奢侈骄纵。词开豪放一派,对后代很 有影响。《念奴娇・赤壁怀古》、《水调歌头・丙辰中秋》传诵甚广。 擅长行书、楷书,取法李邕、徐浩、颜真卿、杨凝式,而能自创新意。 用笔丰腴跌宕,有天真烂漫之趣。与蔡襄、黄庭坚、米芾并称“宋四家 ”。能画竹,学文同,也喜作枯木怪石。论画主张“神似”,认为“论 画以形似,见与儿童邻”;高度评价“诗中有画,画中有诗”的艺术 造诣。诗文有《东坡七集》等。存世书迹有《答谢民师论文帖》、《 祭黄几道文》、《前赤壁赋》、《黄州寒食诗帖》等。画迹有《枯木怪石图》、《竹石图》等。--(1037―1101)字子瞻,号东坡居士。眉州眉山(今属四川)人。苏洵长子。嘉二年(1057)进士。累除中书舍人、翰林学士、 端明殿学士、礼部尚书。曾通判杭州,知密州、徐州、湖州、颍州等。元丰三年(1080)以谤新法贬谪黄州。绍圣初,又贬惠州、儋州。徽宗立,赦还。卒于常州。追谥文忠。博学多才,善文,工诗词,书画俱佳。于词“豪放,不喜剪裁以就声律”,题材丰富,意境开阔,突破晚唐五代和宋初以来“词为艳科”的传统樊篱,以诗为词,开创豪放清旷一派,对后世产生巨大影响。代表作有 《念奴娇・赤壁怀古》、《江神子・猎主要作品有:定风波(莫听穿林打叶声)昭君怨(谁作桓伊三弄)洞仙歌(冰肌玉骨)浣溪沙(游蕲水清泉寺)西江月(顷在黄州)八声甘州・寄参寥子浣溪沙(簌簌衣巾落枣花)水龙吟(似花还似非花)行香子・过七里滩永遇乐(彭城夜宿燕子楼)西江月・重九(点点楼头细雨)满江红(江汉西来)满江红・怀子由作(清颍东流)江城子(十年生死两茫茫)念奴娇・赤壁怀古②临江仙(夜饮东坡醒复醉)水调歌头(明月几时有)蝶恋花(花褪残红青杏小)鹧鸪天(林断山明竹隐墙)望江南(春未老)卜算子(缺月挂疏桐)贺新郎(乳燕飞华屋)阮郎归(绿槐高柳咽新蝉)
1037―1101 这部分就是重复的开头
21050首词 --- 但是很多口水词,例如明月几时有 (明月幾時有)。。没有收录?还是我没找对?
也没找到床前明月光 。。。
对于宋词,请问有数据相应的词牌名信息或者分类嘛?
:‑)
rt
应该是是源的问题
比如在陕西西安,给个大概的经纬度什么的。
我觉得这个数据一定有用
屈原的《离*》
汉高祖刘邦的《大风歌》
汉乐府诗《孔雀东南飞》
曹操、曹丕、曹植三父子的诗歌
建安七子的诗歌
竹林七贤的诗歌
东晋:陶渊明
南北朝:谢灵运、谢朓、颜延之、鲍照、庾信、沈约、江淹
乐府诗集《古诗十九首》
北朝民歌《木兰诗》
元明清三朝
最后一句:“蓦然回首,那人却在,火阑珊处”,缺少“火”字
另外,下阕和上阕最后一句的换行位置也不一致,排版看起来有点乱。
环境linux,使用工具sqlite尝试打开ci.db文件,提示错误:
$ sqlite ci.db
Unable to open database "ci.db": file is encrypted or is not a database
能帮忙看一下吗
如题,如果可以的话还请作者在原数据中标注一下.
多谢
你好,修复宋词最后缺失的两句后,宋词的tags标签丢失了!
您好,请问这些数据是做过实体消歧处理的吗?
网址: https://deepthan.gitee.io/angular-demo/#/home
初步设想是做个首页宣传诗词的重要性,然后每篇优美的文章配以独特的图片和效果。
但是本人文字功底太弱不知是否有人可以帮忙提供些内容呢
导入庫中,随意取了几个,发现有些诗词少了几句。很多只有一两句的诗词。。
https://zh.wikipedia.org/wiki/%E8%AF%97%E7%BB%8F
《诗经》是**最早的诗歌总集,溯自公元前11到前6世纪,原本叫《诗》,共有诗歌305首(除此之外还有6篇有题目无内容,即有目无辞,称为笙诗六篇,题目分别是南陔、白华、华黍、由庚、崇丘和由仪)[1],又称《诗三百》。[2]从汉朝起儒家将其奉为经典,遂也称之谓《诗经》,而正式使用《诗经》一名,应该起于南宋初年[3]。早期诗经版本众多,其中最为著名也是流传至今的,是汉朝毛亨、毛苌注释的《诗经》,因此该版本又称为《毛诗》。《诗经》中的诗的作者,绝大部分已经无法考证。其所涉及的地域,主要是黄河流域,西起山西和甘肃东部,北到河北省西南,东至山东,向南也远及江汉流域。 --------- 维基百科
数据源要求
建议支持筛选,比如小学生、初中生、高中生,描写山河、边疆等的分类或者标签
比如按照诗词的风格(田园诗,抒情诗等)来进行归类
大文件下std json表现力太差
对这个项目有很大兴趣,我这边写了点东西,做了一下少句统计(主要是宋词部分),以ci.song.0.json文件内数据为例,我这边统计1000首宋词丢失语句数量最低是134,所以几万首下来数量还是很可观的。
有丢失情况的宋词序号:
[ci_103, ci_112, ci_159, ci_215, ci_302, ci_332, ci_366, ci_413, ci_451, ci_486, ci_487, ci_558, ci_686, ci_694, ci_695, ci_726, ci_736, ci_737, ci_750, ci_791, ci_824, ci_841, ci_909, ci_910, ci_952, ci_57, ci_83, ci_104, ci_144, ci_160, ci_218, ci_292, ci_306, ci_328, ci_344, ci_365, ci_485, ci_550, ci_555, ci_563, ci_590, ci_667, ci_669, ci_670, ci_672, ci_673, ci_689, ci_692, ci_780, ci_886, ci_893, ci_948, ci_28, ci_56, ci_82, ci_95, ci_102, ci_244, ci_296, ci_301, ci_311, ci_312, ci_326, ci_337, ci_347, ci_369, ci_399, ci_408, ci_409, ci_417, ci_482, ci_527, ci_593, ci_682, ci_683, ci_684, ci_687, ci_688, ci_753, ci_795, ci_804, ci_825, ci_857, ci_890, ci_895, ci_85, ci_105, ci_161, ci_263, ci_281, ci_345, ci_351, ci_352, ci_368, ci_450, ci_524, ci_553, ci_612, ci_627, ci_681, ci_820, ci_822, ci_823, ci_881, ci_947, ci_949, ci_8, ci_12, ci_111, ci_162, ci_182, ci_209, ci_275, ci_277, ci_303, ci_346, ci_364, ci_370, ci_373, ci_387, ci_488, ci_489, ci_530, ci_531, ci_546, ci_557, ci_570, ci_678, ci_690, ci_732, ci_735, ci_835, ci_891, ci_911]
所以我准备完善一下这个程序吧,希望能自动修复一下少句问题。。
写了个安卓的《离线全唐诗》,打算免费、开源:https://github.com/animalize/QuanTangshi
用的您这个数据,效果还不错。
就是想知道,如果我分发程序,是否会侵权?
增加全宋词数据
火钳刘明
罒/離
,该字在 Unicode Ext-A 区,目前大多数系统字体可以正常显示了。⿱罒離
描述。(参考 https://en.wiktionary.org/wiki/%E2%BF%B1 )[{疒辛}]
,而4944行出现{忄雙}{忄雙}
,也可以用 IDC 解决。我知道古诗里有很多古怪的字,在现在字库里没有,想知道这部分是怎么处理的。
暂时的一个想法啊:因为诗词爱好者很多都是具体诗人的粉丝这么发展出来的,尤其是宋元以后作品,要从网上找朝代全集难,但是找具体某某的集子可能就容易了。后续补充去重也方便。
比如,如果我上传一个近三百年名家词选,其他人传清词就得小心核对,但是我上传一个具体的集子,其他人一看就知道这个不用再管了
见https://github.com/jackeyGao/chinese-poetry/pull/10
目前是:白璧衆求暇,素絲易成汙。
估计是:白璧衆求瑕,素絲易成汙。
这样整句意义通顺。
在Google上搜索整句,前者只能找到一条,后者能找到若干条。
当然,不排除是诗人误用。
这个issue可以一直开着,不求立刻处理。
是这个文件
https://github.com/jackeyGao/chinese-poetry/blob/master/json/poet.tang.49000.json
其中596首诗包含YY
这两个字符,请问这是什么含义啊?
例:
"paragraphs": [
"飄飄且在三峰下,秋風往往堪霑灑。",
"腸斷憶仙宮,朦朧煙霧中。",
"YY
思夢時時睡,不語長如醉。",
"早晚是歸期,蒼穹知不知。"
],
别的唐诗文件里没有YY
,只有这个有。
扫一扫加不了作者微信!
所做的也是一个开源的项目,详见这里,请问可以用这里的数据吗?
如果能有一些和诗句对应的图片,我还想做看图写诗的功能,不知道这种数据有没有什么获取途径?
能增加易经的数据么
可能的解答:
首先,好东西总会发光的
然后因为几个github大佬都star了,引发了链式反应
感觉GitHub的分支功能挺适合这个项目的,比如:
比如poet.tang.54000.json
,54000有什么意义的?
作者是如何对这些诗句分词的,是自己训练的还是用已有的模型,是否可以推荐比较准确的诗句分词模型
随手一点,
json/authors.tang.json line 115
"desc": "煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著《雜說》百篇,時人以爲可繼《典論》。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。 煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著雜說百篇,時人以爲可繼典論。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。",
谢谢作者,对古文化贡献很大啊 。
这种词云是怎么生成的?
SELECT * FROM ci WHERE author='李白' 这样搜搜不到李白?
cat ./josn/* | grep '李白' 有李白的数据
SELECT * FROM ci WHERE author='辛弃疾' 这个就可以找到。。我也是醉了
http://ctext.org/zh
这里的资源非常全面。
举唐诗的例子
http://ctext.org/quantangshi/zh
本計劃為全世界的學生、研究者以及相關的人員提供免費的資源,而不要求任何人付費使用
可能可以作为爬取源, 希望能遵循项目要求。引用资源请链接上ctext的url以帮助其发展。
大家好,
目前此仓库增加了 表面结构字对应表
方便对类似这种表面结构做汉字转换, {鼓/甬}
=> 𪔜
目前有767个表面结构没有找到对应, 1325个表面结构字找到对应的汉字。
一些比较抽象的表意很难理解和搜索, 个人精力有限, 希望更多同学完善这个列表。
比如辛弃疾的青玉案·元夕,只有词牌名“青玉案”,而没有后边的词题“元夕”。
你好 非常感谢你能够做这个项目 让我们能够拿来用 谢谢你 最近发现宋词不完整 有的缺少一句或两句的
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.