Giter VIP home page Giter VIP logo

kaixindelele / deeplearning-500-questions Goto Github PK

View Code? Open in Web Editor NEW

This project forked from bbaibowen/deeplearning-500-questions

1.0 1.0 3.0 197.35 MB

深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 全书分为18个章节,50余万字。由于水平有限,书中不妥之处恳请广大读者批评指正。 未完待续............ 如有意合作,联系[email protected] 版权所有,违权必究 Tan 2018.06

Home Page: https://github.com/scutan90/DeepLearning-500-questions

License: GNU General Public License v3.0

deeplearning-500-questions's Introduction

Hi there is kaixindelele 👋

寻求一份LLM相关的大厂工作。目前正在准备校招,暂时不考虑实习,除非 条件非常契合。

简历详情

Yongle Luo

电子邮箱:[email protected]
作品链接:Github (19000+ stars)
博客链接:知乎:强化学徒 (19K 关注)

求职意向

RLHF,or 基于LLM的具身智能, or LLM+长文本总结和对话等落地应用,or LLM+Robot or Auto+

期望能有机会进入大厂的核心团队,或者中厂的有钱团队。

教育经历

郑州大学 | 自动化 | 本科 | 2013-2017

中国科学技术大学 | 模式识别与智能系统 | 研二转博;博士四年级在读 | 2017-至今

研究经历

深度强化学习代码库DRLib

  • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等。
  • 深度强化学习算法链接:DRLib (438 stars)

稀疏奖励矫正密集奖励的强化学习

  • 论文综合稀疏奖励全局收敛但效率低下以及密集奖励收敛快但容易局部最优的特点,提出dense2sparse解决方案,兼顾二者的优势,同时提高探索效率和最终性能。
  • 《Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty 》(共一,机器人会议 2022 AIM,Oral Presentation)
  • 23年改进版《D2SR: Transferring Dense Reward Function to Sparse by Network Resetting》,有效解决多奖励函数切换的稳定性问题,性能大幅提升,大幅降低奖励函数设计要求(一作,机器人EI会议RCAR, Oral,非常有意思的工作)

乒乓球仿真搭建和真机验证—深度强化学习的单步决策高效学习

  • 基于Mujoco物理引擎的乒乓球击球平台,实现与真机类似的击球效果。将击球任务建模成单步强化,利用HER的重标记获得完美样本,用于自我引导探索,实现对数据的高效利用。真机验证结果显示200个回合可以实现92%的落点成功率。
  • 《SIRL: Self-Imitation Reinforcement Learning for Single-step Hitting Tasks》(一作,CAA,A类会议,ARM)

自我引导持续强化学习—彻底解决深度强化学习,在稀疏奖励下复杂序列任务中效率低下的问题

  • 首次提出自我引导探索的强化学习框架。面对奖励反馈稀疏的复杂任务,该算法可以让智能体从失败中提取有效信息,积极探索,不断积累优势,最终实现高效学习。在一到三物体的各类操作任务中都取得极高探索效率,真机实验从零开始训练仅需250回合即可达100%成功率,是本人博士期间最有学术价值的工作。
  • 在此基础上的另外一个侧重于策略优化的工作正在撰写,可以使得样本效率再次提高60%以上。
  • 代码已开源:RHER; 论文已在ArXiv公布:Relay Hindsight Experience Replay(一作,NeuroComputing, 二区Top,已接收)

证书及项目经历

  • 证书:英语四六级、心理咨询师三级
  • 项目经历:
    • 开源ChatPaper,获得16.0K star,GitHub连续三天热榜第五,月活60W,注册用户7W。
    • 开源ChatOpenReview项目:1. 利用langchain实现基于数据库的审稿回复辅助;2. 基于deepspeed做模型SFT;3. 借助搜索引擎,实现全局文献库的审稿。
    • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等(DRLib 438 star)。
    • 基于强化学习的竞技型乒乓球机器人运动控制系统研发(横向,148w,本人负责 仿真系统搭建和强化算法)
    • LLM+Robot技能库的研发ing,已实现技能库的开发和初步验证。
    • ChatSensitiveWords,利用敏感词库+LLM实现弹性敏感词检测。兼顾效果和速度。

自我评价

  • 熟练掌握经典深度强化学习算法,拥有丰富的机器人仿真和真实系统搭建经验。
  • 品行良好,为人坦率靠谱。工程能力强,编程基础扎实,但没有系统做过算法题,可结合GPT4快速开发。
  • 擅长将人类学习经验应用于人工智能领域,科研能力优秀,拥有丰富的团队合作经验,热爱开源、技术分享和教学。
  • 希望能结合大模型的文本能力,做高等教育的AI辅助,或者LLM+RL的微调,或者LLM的其他应用。

deeplearning-500-questions's People

Contributors

aa12356jm avatar amusi avatar anonymone avatar autuanliu avatar chaofwang avatar chenglei-qiao avatar coderoverflow avatar deasonyuan avatar emmanuelmess avatar huangqinjian avatar hwade avatar infdahai avatar jancd avatar keyforce avatar leikunx avatar liangzhicheng120 avatar limberc avatar mengban avatar pegasus1993 avatar quorafind avatar scutan90 avatar shengyp avatar shw2018 avatar sjsdfg avatar subsonbigod avatar szho42 avatar tectal avatar troyliu777 avatar xiyanxiyan10 avatar zyuegege avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.