Giter VIP home page Giter VIP logo

Hi there is kaixindelele 👋

寻求一份LLM相关的大厂工作。目前正在准备校招,暂时不考虑实习,除非 条件非常契合。

简历详情

Yongle Luo

电子邮箱:[email protected]
作品链接:Github (19000+ stars)
博客链接:知乎:强化学徒 (19K 关注)

求职意向

RLHF,or 基于LLM的具身智能, or LLM+长文本总结和对话等落地应用,or LLM+Robot or Auto+

期望能有机会进入大厂的核心团队,或者中厂的有钱团队。

教育经历

郑州大学 | 自动化 | 本科 | 2013-2017

**科学技术大学 | 模式识别与智能系统 | 研二转博;博士四年级在读 | 2017-至今

研究经历

深度强化学习代码库DRLib

  • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等。
  • 深度强化学习算法链接:DRLib (438 stars)

稀疏奖励矫正密集奖励的强化学习

  • 论文综合稀疏奖励全局收敛但效率低下以及密集奖励收敛快但容易局部最优的特点,提出dense2sparse解决方案,兼顾二者的优势,同时提高探索效率和最终性能。
  • 《Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty 》(共一,机器人会议 2022 AIM,Oral Presentation)
  • 23年改进版《D2SR: Transferring Dense Reward Function to Sparse by Network Resetting》,有效解决多奖励函数切换的稳定性问题,性能大幅提升,大幅降低奖励函数设计要求(一作,机器人EI会议RCAR, Oral,非常有意思的工作)

乒乓球仿真搭建和真机验证—深度强化学习的单步决策高效学习

  • 基于Mujoco物理引擎的乒乓球击球平台,实现与真机类似的击球效果。将击球任务建模成单步强化,利用HER的重标记获得完美样本,用于自我引导探索,实现对数据的高效利用。真机验证结果显示200个回合可以实现92%的落点成功率。
  • 《SIRL: Self-Imitation Reinforcement Learning for Single-step Hitting Tasks》(一作,CAA,A类会议,ARM)

自我引导持续强化学习—彻底解决深度强化学习,在稀疏奖励下复杂序列任务中效率低下的问题

  • 首次提出自我引导探索的强化学习框架。面对奖励反馈稀疏的复杂任务,该算法可以让智能体从失败中提取有效信息,积极探索,不断积累优势,最终实现高效学习。在一到三物体的各类操作任务中都取得极高探索效率,真机实验从零开始训练仅需250回合即可达100%成功率,是本人博士期间最有学术价值的工作。
  • 在此基础上的另外一个侧重于策略优化的工作正在撰写,可以使得样本效率再次提高60%以上。
  • 代码已开源:RHER; 论文已在ArXiv公布:Relay Hindsight Experience Replay(一作,NeuroComputing, 二区Top,已接收)

证书及项目经历

  • 证书:英语四六级、心理咨询师三级
  • 项目经历:
    • 开源ChatPaper,获得16.0K star,GitHub连续三天热榜第五,月活60W,注册用户7W。
    • 开源ChatOpenReview项目:1. 利用langchain实现基于数据库的审稿回复辅助;2. 基于deepspeed做模型SFT;3. 借助搜索引擎,实现全局文献库的审稿。
    • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等(DRLib 438 star)。
    • 基于强化学习的竞技型乒乓球机器人运动控制系统研发(横向,148w,本人负责 仿真系统搭建和强化算法)
    • LLM+Robot技能库的研发ing,已实现技能库的开发和初步验证。
    • ChatSensitiveWords,利用敏感词库+LLM实现弹性敏感词检测。兼顾效果和速度。

自我评价

  • 熟练掌握经典深度强化学习算法,拥有丰富的机器人仿真和真实系统搭建经验。
  • 品行良好,为人坦率靠谱。工程能力强,编程基础扎实,但没有系统做过算法题,可结合GPT4快速开发。
  • 擅长将人类学习经验应用于人工智能领域,科研能力优秀,拥有丰富的团队合作经验,热爱开源、技术分享和教学。
  • 希望能结合大模型的文本能力,做高等教育的AI辅助,或者LLM+RL的微调,或者LLM的其他应用。

kaixindelele's Projects

action-recognition icon action-recognition

these days I have downed l lot of papers about action recognition,all of them from cvpr/iccv/nips and so on

awesome-deep-rl icon awesome-deep-rl

This project is for learning and researching on Deep RL. Maintained by University AI researchers.

baselines icon baselines

OpenAI Baselines: high-quality implementations of reinforcement learning algorithms

blog icon blog

🌈 原创&翻译 🌈

chatgpt icon chatgpt

🔮 ChatGPT Desktop Application (Mac, Windows and Linux)

chatgpt-web icon chatgpt-web

用 Express 和 Vue3 搭建的 ChatGPT 演示网页

chatopenreview icon chatopenreview

Crowdfunding open source projects: use OpenReview's high-quality review data to fine-tune a professional review and response LLM. 众筹开源项目:利用OpenReview的优质审稿数据,微调出一个专业的审稿和审稿回复GPT

chatpaper icon chatpaper

Use ChatGPT to summarize the arXiv papers. 全流程加速科研,利用chatgpt进行论文全文总结+专业翻译+润色+审稿+审稿回复

chatreviewer icon chatreviewer

ChatReviewer: use ChatGPT to review papers; ChatResponse: use ChatGPT to respond to reviewers.

clfd icon clfd

Code for the paper Continual Learning from Demonstration of Robotic Skills

cvpr2023summary icon cvpr2023summary

CVPR2023所有论文免费打包下载+ ChatPaper所有论文总结免费下载

ddpg icon ddpg

Reimplementation of DDPG(Continuous Control with Deep Reinforcement Learning) based on OpenAI Gym + Tensorflow

ddpg_fetch icon ddpg_fetch

Exploring the performance of Prioritized Experience Replay (PER) with the DDPG+HER scheme on the Fetch Robotics Environemnt

deeplearning-500-questions icon deeplearning-500-questions

深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 全书分为18个章节,50余万字。由于水平有限,书中不妥之处恳请广大读者批评指正。 未完待续............ 如有意合作,联系[email protected] 版权所有,违权必究 Tan 2018.06

devil-box-arduino icon devil-box-arduino

A devil box of mobile phone: In fact an angel of schedule management. 一个协助日程管理的手机盒子。当你设置日程后,在规定时间内,你需要将手机放入盒子中,待计时结束后方可取出。

drlib icon drlib

DRLib:A concise deep reinforcement learning library, integrating HER and PER for almost off policy RL algos.

eye-to-hand-calibration icon eye-to-hand-calibration

Eye-to-Hand Calibration,摄像机固定,与机器人基坐标系相对位置不变。且机器人末端在固定平面移动,即只需要求一个单应性矩阵的变换关系就行。

gymfetch icon gymfetch

gym_fetch_env with insert drawer open door

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.