Giter VIP home page Giter VIP logo

nlper-arsenal's Introduction

NLPer-Arsenal

NLP人军火库,主要收录NLP竞赛经验贴、通用工具、学习资料等,如果对你有帮助,请给我们一个star,这是我们更新的动力。

本项目源于2020年7月一次竞赛的经历,当时在找参考资料时遇到了很多困难,包括内容分散、质量不高等。2021年3月开始更新本项目,志在帮助NLPer提升模型性能。2021年6月开放本项目的notion页面,NLPer-Arsenal-Notion ,主要收录我们整理的trick说明与实验验证,内容实时更新,欢迎大家一起参与NLPer-Arsenal开源项目。

下图是我们的项目导航图,以竞赛流程为主干,项目章节和notion对应的内容为分支。当您查看本项目时可以按序查看竞赛流程对应的项目章节,同时您也可以在我们的notion中查看一些竞赛相关的内容。项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或填写问卷 反馈,或通过邮箱([email protected])联系我们。 NLPer-Arsenal-Guide

所有内容均由我们从网络公开资料收集得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的创作环境出一份力。

重要事件

目录

当前赛事

重点赛

记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer

领域 竞赛 开始时间 结束时间
文本分类 科大讯飞-2021试题标签预测挑战赛
科大讯飞-2021连续多语种分类挑战赛
Kaggle-CommonLit Readability Prize
2021.6
2021.6
2021.5
2021.10
2021.10
2021.7
其它 科大讯飞-2021文本纠错及知识点填充挑战赛
**人工智能学会-中文文本纠错比赛
华为-2021基于多模型迁移预训练文章质量判别 (赛题二)
2021未来杯-人工智能知识图谱
2021未来杯-探索科技未来 (论文推荐)
2021.6
2021.6
2021.6
2021.6
2021.6
2021.10
2021.10
2021.8
2021.10
2021.9
实体识别 海通&工商-2021互联网舆情企业风险事件的识别和预警赛题解读与baseline 识别+分类) 2021.4 2021.7
机器翻译 CCMT2021机器翻译评测 (在线评测持续到12月份)
科大讯飞-2021低资源多语种文本翻译挑战赛
2021.4
2021.6
2021.12
2021.10
SMP2021 评测通知:https://mp.weixin.qq.com/s/9t17lbdNIjpxzh400JODug
SMP2021-ECISA中文隐式情感分析评测
SMP2021-EMWRT美团外卖技术评测(商家推荐菜品推荐
SMP2021对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复)
2021.6 2021.8
CCL2021 任务一:跨领域句法分析
任务二:中文空间语义理解
任务三:智能医疗对话诊疗
任务四:图文多模态幽默识别
任务五:中译语通-Nihao无监督汉语分词
2021.4 2021.7
CCKS2021 官网:http://sigkg.cn/ccks2021/?page_id=27
主题一:领域信息抽取
任务一:地址文本分析(地址要素解析地址相关性
任务二:面向通信领域的过程类知识抽取(事件抽取事件共指消解
任务三:网页文件中学者画像任务
任务四:面向中文电子病历的医疗实体及事件抽取
主题二:篇章级信息抽取
任务五:通用细粒度事件检测
任务六:面向金融领域的篇章级事件抽取和事件因果关系抽取(篇章事件
主题三:链接预测
任务七:表型-药物-分子多层次知识图谱的链接预测
主题四:知识图谱构建与问答
任务八:保险领域信息抽取和运营商知识图谱推理问答
任务九:通用百科知识图谱实体类型推断
任务十:面向军用无人机系统的军事垂直领域知识图谱构建
任务十一:蕴含实体的中文医疗对话生成
任务十二:面向中文医疗科普知识的内容理解(阅读理解答非所问识别
任务十三:生活服务领域知识图谱问答
主题五:多模态问答
任务十四:知识增强的视频语义理解
2021.4 2021.7
中文医疗信息处理挑战榜CBLUE 目前任务包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务,-> 官网 现在 暂无

训练赛

记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手

领域 竞赛 开始时间 结束时间
文本分类 新闻文本分类
文本分类对抗攻击
虚假职位招聘预测
疫情期间互联网虚假新闻检测
疫情期间网民情绪识别
O2O商铺食品安全相关评论发现
互联网新闻情感分析
汽车行业用户观点主题及情感识别
影评文本情感分析
垃圾邮件分类
短文本分类大赛-图灵联邦
情感分类大赛-图灵联邦
医疗文本分类 - FlyAI
中文垃圾短信识别 - FlyAI
社交网站消息内容分类 - FlyAI
用户商场评价情感分析 - FlyAI
Stanford-Sentiment-Treebank 情感分析 - FlyAI
COLA 英文句子可理解性分类 - FlyAI
今日头条新闻分类 - FlyAI
美国点评网站Yelp评价预测赛 - FlyAI
千言数据集:情感分析 - 百度AI Studio
Kaggle-Contradictory, My Dear Watson
Kaggle-Natural Language Processing with Disaster Tweets
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
每月1号
每月1号
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
暂无
2021.12.31
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
每月27号
每月27号
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
2023.1
暂无
暂无
文本匹配 Quora-检测两个问题是否重复 - FlyAI
千言数据集:文本相似度 - 百度AI Studio
现在
现在
暂无
2023.1
推荐系统 零基础入门推荐系统 - 新闻推荐
天池新人挑战赛之阿里移动推荐算法
电商用户购买行为预测
基于用户画像的商品推荐挑战赛 (大奖赛)
现在
现在
现在
2021.6
暂无
暂无
暂无
2021.10
问答 疫情政务问答助手
医疗智能问答 - FlyAI
2021心理对话问答挑战赛
CommonsenseQA Dataset
OpenBookQA Dataset
现在
现在
现在
现在
现在
暂无
暂无
暂无
2026.4.15
2026.4.15
语义解析 千言数据集:语义解析 - 百度AI Studio 现在 2023.1
实体关系抽取 文本实体识别及关系抽取 现在 暂无
实体识别 中文的命名实体识别 - FlyAI 现在 暂无
立场检测 中文微博的立场检测 - FlyAI 现在 暂无
对话 MuTual Dataset 现在 2026.4.15
text2SQL 耶鲁文本转SQL 现在 暂无
阅读理解 中文阅读理解练习赛 - FlyAI
RACE Dataset
RACE-C Dataset
Dream Dataset
C3 Dataset
SciQ Dataset
LogiQA Dataset
MCTest Dataset
现在
现在
现在
现在
现在
现在
现在
现在
暂无
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15

往期竞赛

这里记录整理好的竞赛,包含数据下载以及竞赛方案

目录 赛事
文本分类 2019“技术需求”与“技术成果”项目之间关联度计算模型
2020smp微博情绪分析评测
2020百度人工智能开源大赛-观点阅读理解任务
实体链指 2019ccks中文短文本实体链指
2020ccks面向中文短文本的实体链指任务
2020千言数据集:面向中文短文本的实体链指任务
实体识别 2019互联网金融新实体发现
2020中药说明书实体识别挑战
2020中文医学文本命名实体识别
2021智能医疗决策
2021互联网舆情企业风险事件的识别和预警
问题生成 2020中医文献问题生成挑战
阅读理解 2018机器阅读理解技术竞赛
2020语言与智能技术竞赛:机器阅读理解任务
2021海华AI挑战赛·中文阅读理解
2021NLPCC语言与智能技术竞赛:机器阅读理解任务
法研杯
文本匹配 2019大数据挑战赛
2019金融信息负面及主体判定
2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛
2020房产行业聊天匹配问答
2021搜狐校园文本匹配算法大赛
2021小布助手对话短文本语义匹配
对话生成 2020千言:多技能对话
2020语言与智能技术竞赛:面向推荐的对话任务
2021心理对话问答挑战赛
Text2SQL 2019中文NL2SQL挑战赛
2020语言与智能技术竞赛:语义解析任务
信息抽取 2020科大讯飞事件抽取挑战赛
2020语言与智能技术竞赛:关系抽取任务
2020语言与智能技术竞赛:事件抽取任务
2020SemEval-自由文本关系抽取
2021NLPCC语言与智能技术竞赛:多形态信息抽取任务
机器翻译 2021NAACL同传Workshop:千言 - 机器同传
其它 2020NLP中文预训练模型泛化能力挑战赛

会议时间

**计算机学会推荐国际学术会议和期刊目录-2019
**计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab

会议 级别 摘要截稿 原文截稿 审稿通知 开会时间 说明
ACL(官网dblp) CCF-A 2021.1.25 2021.2.2 2021.5.5 2021,8.1~8.6 Bangkok, Thailand
AAAI(官网dblp) CCF-A 2021.8.30 2021.9.8 2021.10.15 (phase 1)
2021.11.29 (final)
2022,2.22~3.1 Vancouver,Canada
NeurIPS(官网dblp) CCF-A 2021.5.19 2021.5.26 2021.9.28 2021,12.6~12.14 online
IJCAI(官网dblp) CCF-A 2021.1.13 2021.1.20 2021.4.30 2021,8.21~8.26 Montreal, Canada
ICML(官网dblp) CCF-A 2021.1.28 2021.2.4 2021.5.8 2021,7.18~7.24 online
SIGIR(官网dblp) CCF-A 2021.1.28 2021.2.4 2021.4.14 2021,7.11~7.15 online
WWW(官网dblp) CCF-A 2021.10.14 2021.10.21 2022.1.13 2022, 4.25~4.29 Lyon,France
EMNLP(官网dblp) CCF-B 2021.5.10 2021.5.17 2021.8.25 2021,11.7~11.11 Punta Cana, Dominican Republic
COLING(官网dblp) CCF-B ? ? ? 2022,10.9~10.15 Gyeongju, Korea
CoNLL(官网dblp) CCF-C * 2021.6.14 2021.8.31 2021,11.10~11.11 same as emnlp
NLPCC(官网dblp) CCF-C * 2021.6.8 2021.7.30 2021,10.13~10.17 青岛
NAACL(官网dblp) CCF-C * 2022, 7.10 Seattle, Washington
ICONIP(官网) CCF-C * 2021.6.30 2021.8.31 2021, 12.8~12.12 BALI, Indonesia
ACML(官网) CCF-C * 2021.7.2 2021.9.10 2021, 11.17~11.19 online
ICLR(官网dblp) * 2021.9.28 2021.10.5 2021.11.8~22 (rebutal)
2022.1.24 (final)
2022, 4.25~4.29 online
AACL(官网) * * * * * 2021合并至ACL
EACL(官网dblp) * * 2020.10.7 2021.1.11 2021,4.19~4.23 online
CCL(官网dblp) * * 2021.4.15 2021.5.29 2021,8.13~8.15 呼和浩特
CCKS(官网dblp) * * 2021.5.25 2021.7.2 2021,8.18~8.21 广州
SMP(官网dblp) * * 2021.5.15 2021.6.20 2021,9.3~9.5 北京
CCIR(官网) * * 2021.6.10 2021.7.5 2021, 10.29~10.31 大连
CCMT(官网) * * 2021.6.12 2021.7.10 2021,8.6~8.8 青海西宁
WISE(官网) * 2021.6.10 2021.6.17 2021.6.30 2021, 10.26~10.29 Melbourne, Australia

竞赛平台

  • 阿里天池 :阿里,奖金丰厚
  • AiStudio :百度
  • 讯飞开发平台 :科大讯飞
  • DataFountain : CCF指定专业大数据及人工智能竞赛平台,有很多训练赛
  • 图灵联邦 :NLP竞赛不多
  • biendata : 国内领先的人工智能竞赛平台,包含大量NLP学术评测
  • FlyAI-AI竞赛服务平台 :难度分为新手、简单、中等、精英、困难,有大量GPU算力可供获取,奖金不多,但适合练手
  • 和鲸社区 :一个综合的学习平台
  • NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
  • Codalab :一个可重复计算平台,很多国外的竞赛都会在上面提交代码用于检验
  • DCLab :和天池比较像
  • AI研习社 :很多很多NLP竞赛

自媒体推荐

学界、业界、理论、实践以及时事动态,NLPer都应该有所了解

平台 主要领域 自媒体
微信公众号 技术 Coggle数据科学、DataFunTalk
行业信息 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
理论 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道
BiliBili 前沿论坛 智源社区、AITIME论道
网站 竞赛 Coggle数据科学
学术 Paper With CodeAMiner学术头条

算力推荐

结合个人情况使用不同的GPU平台

平台 算力 价格 说明
BitaHub 1080Ti、Titan xp、V100 1080Ti(¥0.7/h)、Titan xp(¥1/h)、V100(¥9/h) 中科大先研院的平台,价格实惠,但一块GPU只搭配2核CPU,通过提交任务,按运行时间收取费用
沣云平台 ML270 ¥2.8/h 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用
恒源云 2080Ti、rtx5000、3090 ¥3/h~¥4.5/h 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠
并行云 V100、2080Ti、P100等 不明 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠
1024LAB 1080Ti、P102-100、2080Ti、2080、T4、2070、P100、XP、3080等 ¥1/h ~ ¥6/h之间不等 这个是直接租用服务器的,有独立IP,使用虚拟货币DBC支付(可以用支付宝购买),DBC汇率波动较大,请谨慎持有
AI Studio V100 基本免费 由百度开发, 偶尔申请不到V100,主要使用PaddlePaddle框架,其它框架好像也可以用(请自行搜索使用方法)
天池DSW p100 免费,单次限时8小时,不限次数 阿里的一个在线平台,运行时不能关闭
天池实验室 V100 免费,60h/年 相比于AI Studio不限制深度学习框架,就是时间比较短
Kaggle k80 免费,每周限时30小时 外网访问
Google Colab k80、T4、P4、P100 免费,单次限时12小时 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80

nlper-arsenal's People

Contributors

tingfree avatar lishuaike avatar qy826687054 avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.