The llm-paper-daily from ninoxjy

llm-paper-daily 日常论文精选

每篇论文会携带相关资料:

arXiv 地址
GitHub 地址
GPT-4 的总结
相关的精选博客

查看更新文章 _{更新时间: 12月01日 10:42}

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
PoseGPT: Chatting about 3D Human Pose
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
Autonomous Agents in Software Development: A Vision Paper
IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions
Zero-shot Conversational Summarization Evaluations with small Large Language Models
Understanding and Improving In-Context Learning on Vision-language Models

11月

Date	Paper	Links & Summary
11-30	IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions _{IAG框架通过归纳提示法加强知识陈述的真实性，并且优化了知识融合机制和学生归纳模型，以解决现有基于检索的方法在隐性推理问答任务上的不足。研究成果表明，IAG在回答涉及隐性推理的问答任务上表现更优。}
11-30	Autonomous Agents in Software Development: A Vision Paper _{本论文提出了一个关于利用多个 GPT 代理来自动执行软件工程任务的愿景，并演示了在简单软件任务上所取得的初步成功。这项工作有可能彻底改变软件开发的方式，并缩短开发时间。}
11-30	CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation _{CoDi-2是一种具有前沿能力的多模态生成模型，可以处理复杂的多模态输入、在上下文中指导生成、通过多轮交互与用户互动，并实现了优秀的零样本和少样本性能。}
11-30	What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations _{作者们提出了一个新型探针来检测LLMs表示中的内隐关联偏见，并通过实验在偏好检测中达到了最新水平。研究还发现了多个指令遵循型和“传统”的LLMs中的显著偏见，这些偏见存在于国籍、政治、宗教和性别等方面，尽管LLMs已经经过明确的安全指导调整。}
11-30	PoseGPT: Chatting about 3D Human Pose _{PoseGPT是一个新型框架，它通过在LLM中嵌入SMPL姿态标记，使模型可以直接从文本和视觉输入生成三维人体姿态，并在解释三维人体姿态方面实现了一定程度的创新。}
11-29	Understanding and Improving In-Context Learning on Vision-language Models _{本文提出了一个用于视觉-语言模型在背景学习中选择示范的新方法MMICES，并通过一系列实验展示了其在不同模型和数据集上的良好性能。}
11-29	Are Large Language Models Good Fact Checkers: A Preliminary Study _{这篇文章通过系统评估LLMs在整个事实核查流程中的潜力，发现尽管LLMs在某些方面表现出潜力，但依然需要更多研究和尝试来提升它们在事实核查任务上的表现。}
11-29	TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models _{TIMEBENCH基准的提出是对大型语言模型时间推理能力综合评估的重要步骤，它展示了当前模型与人类在这方面的差距，并为未来的研究提供了指引。}
11-29	Large Language Models for Networking: Applications, Enabling Techniques, and Challenges _{该论文提出了一个整合大型语言模型与网络技术的新框架ChatNet，并探究了它在网络规划中的应用。研究表明，ChatNet可以有效提升网络任务的自动化和智能化水平，尽管在部署前仍需解决多模态数据整合和插件开发等挑战。}
11-29	Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering _{这项工作通过创新性地结合三个代理来模拟人类认知中的自顶向下推理过程，并引入了多视角知识库的概念，显著提升了VQA模型的表现力和解释能力。}
11-29	Zero-shot Conversational Summarization Evaluations with small Large Language Models _{文章以大型语言模型在会话摘要任务中的应用作为焦点，深入探讨了不同指令对模型执行效果的影响，并研究了在有限硬件下使用压缩模型的优化方法。}
11-28	Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation _{本文提出了一个利用扩散模型进行角色动画的新框架“Animate Anyone”。该框架通过ReferenceNet保持外观一致性，并通过姿态引导器与时间层确保动画的可控性与连续性，取得了先进的角色动画生成结果。}
11-28	ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? _{这篇综述文章提供了对开源LLMs在多任务领域相较ChatGPT的性能评估的考察，突出了目前开源LLMs的强项和潜在问题，并为未来的研究和开发提供了启示。此外，文章还总结了众多的最佳实践和挑战，显示出开源领域在一定程度上有望缩小与商业模型之间的差距。}
11-28	LLaFS: When Large-Language Models Meet Few-Shot Segmentation _{本文提出了一个基于大型语言模型（LLM）的小样本图像分割框架，并解决了让LLMs理解和执行视觉任务的核心挑战。通过定制指导和细粒度上下文指导相结合的方法，实现了高质量的小样本分割。}
11-28	RELIC: Investigating Large Language Model Responses using Self-Consistency _{RELIC是一个交互式系统，它通过多样本的事实一致性检验，帮助用户验证和指导LLMs生成的文本。}
11-28	RankingGPT: Empowering Large Language Models in Text Ranking with Progressive Enhancement _{本研究提出了一种用于文本排序的二阶段训练模型，结合了弱监督预训练和监督细化训练，通过在不损害预训练益处的基础上增强模型细化训练性能，完成了从预训练到细化训练的平滑过渡，并在实验中显著优于现有技术。}
11-28	AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and Beyond _{研究提出了一个创新的，一体化的框架AvatarGPT，用于处理理解、规划以及生成人类动作相关的高级和低级任务，展现出长时间运动合成的能力和减少手动干预的可能性。}
11-24	Data-Efficient Alignment of Large Language Models with Human Feedback Through Natural Language _{文章提出了一个有效的CnR方法，它能够通过使用自然语言的精细反馈和响应修正，高效地校准LLMs以符合人类预期。通过相对较少的人类反馈数据，此方法可以显著改善即使是顶尖LLMs的响应质量，如ChatGPT。}
11-23	FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline _{总体而言，该论文提出了一个新型两阶段潜在扩散的文本到视频生成架构，解决了关键帧合成和插值帧生成中存在的问题，通过使用独立的时域块和有效的插值架构，减少了计算成本，并在多个质量指标上取得了优于现有技术的表现。此外，论文还针对视频解码器设计了不同的架构选项，进一步优化了视频的一致性和整体质量。}
11-23	Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach _{LLaMAC框架展示了基于LLM的多智能体系统在长期规划、数学推理、优化问题和空间推理方面的卓越表现，并且减少了大规模多智能体协作的访问成本。随着LLM的进一步提升和更多协作框架的出现，多智能体协作领域将迎来新的发展机遇。}
11-23	GAIA: a benchmark for General AI Assistants _{GAIA 是一项针对通用人工智能助理的基准测试，其目的在于提出真实世界的挑战性问题，并避开传统 LLMs 评价中的许多陷阱。该基准测试强调任务对人类简单而对AI难度较大，以此来评估AI的执行复杂行动序列的准确能力，这些任务在设计上无法简单地通过暴力方法得以解决。GAIA 还考虑了如何扩展基准测试，并探讨了一些最先进的助理的成功与短板，展示了增强 LLMs 的潜力。最终，文章旨在设立一个开发者问题集，为人工智能研究提供一个可扩展的基准测试平台。}
11-23	LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes _{LucidDreamer是一个能够用于生成逼真而且分辨率更高的3D场景的模型。它优于现有的场景生成模型，因为它不依赖特定的训练数据集，并能够适应多种输入样式。LucidDreamer通过约束点云的移动和使用插值算法，克服了形状扭曲和点云与图像错位的问题，从而在操纵3D空间中的点云时保持了场景的真实感和一致性。在实验中明显展示了其优越性和高泛化能力。}
11-23	Diffusion Model Alignment Using Direct Preference Optimization _{本文提出了一个名为Diffusion-DPO的方法，其通过直接优化基于人类比较数据的模型来实现对扩散模型与人类偏好的对齐。此外，文章也探索了基于AI反馈的训练，取得了与基于人类偏好训练相媲美的成绩。这明显提升了模型在视觉吸引力和文本对齐方面的性能，为利用AI反馈扩展扩散模型对齐方法提供了新的途径。}
11-23	ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs _{文章提出了一种名为ZipLoRA的新策略，旨在通过一个优化过程有效地合并独立训练的主题和风格LoRAs，从而能够生成任何用户提供的主题风格的组合。ZipLoRA对生成任何特定主题和风格的图像这一开放性研究问题提供了创新的解决方案，且由于其无需手动超参数调整，使用起来更加简便高效。实验证明该方法在保持主题和风格真实性的同时，相比于现有方法和其他基本方法而言，具有更好的生成质量和鲁棒性。}
11-22	Enhancing Summarization Performance through Transformer-Based Prompt Engineering in Automated Medical Reporting _{这项研究验证了在自动化医疗报告中应用基于转换器的提示工程可以提高摘要性能。尽管存在一些局限性，但研究提出的方法证明了在提示制定时加入示例和上下文信息的效用，并且指出了未来工作的方向。}
11-22	XAGen: 3D Expressive Human Avatars Generation _{研究提出了XAGen模型，它是首个能够生成全面可控3D人类化身的GAN模型。XAGen在细粒度属性控制上具有独立的能力，并通过多尺度和多部分的3D表示与渲染技术提升了面部和手部的生成质量。实验结果证明XAGen在外观质量、控制能力和数据利用率方面都超过了现有最先进的方法，推进了3D虚拟化身生成技术的发展。}
11-22	LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms _{本论文的主要贡献包括：在开源模型上微调不同大小和风格的指令数据集，评估微调模型在不同的评估范式下的表现，并且发现较少的样本（特别是当这些样本结合了不同来源和风格时）足以在不同类型的评估中获得良好的性能。这表明在培养LLMs的指令遵从能力时，“少即是多”，且通过精心选择微调样本，可以使模型在执行指令能力上得到显著提升。这一发现对于如何有效地微调LLMs以及如何评估它们的实用性具有重要意义。}
11-22	Visual In-Context Prompting _{本论文提出了DINOv，一个新的视觉上下文内提示框架，能够有效处理多样化的视觉提示，使用无标签数据，并在多个任务中达到很好的性能。}
11-21	Prompting Frameworks for Large Language Models: A Survey _{这项研究提供了一个框架，它通过实现新的技术手段来增强与LLMs的交互，包括改善与编程语言的兼容性，使能LLMs使用外部工具，并维护历史交互信息，并以此指导未来的研究方向。}
11-21	Latent Lab: Large Language Models for Knowledge Exploration _{Latent Lab作为一种探索大型数据集中相互联系关系的创新和强大工具，通过利用LLMs和视觉引人注目的接口，它超越了常规搜索的局限性，提供了一个语义上有意义和情境感知的体验。强调探索的价值和迭代设计，在直观地访问大量相互连接的信息方面实现了信息技术专家的长期追求，并通过AI辅助探索将这一愿景变为现实，为未来人工智能共创系统的发展奠定了基础，并促进了更直观和高效的合作，有能力产生新颖和有影响力的创造物。}
11-21	How Capable Can a Transformer Become? A Study on Synthetic, Interpretable Tasks _{本文通过设计合成数据生成过程和系统性实验，以评估和理解自回归Transformer模型在组合其原始能力方面的潜力。研究结果突显了模型学习组合结构的能力，揭示了训练数据对此能力的影响以及模型内部注意力层在组合学习过程中的重要性。这或许为评估和提高现代神经网络对真实世界数据的理解和应用，特别是在其可能面临前所未见的任务时，提供了新的见解。}
11-21	Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks _{本文针对微调对预定义能力的影响开展了一项全面的分析和评估。通过Tracr编译式的能力设计和基于PCFG的学习式能力设计，文章详细探讨了微调过程中嵌入特征的相关性，提出了reFT来强化分析微调影响的深度。本研究的发现改进了对微调影响机理的理解，并为后续的模型设计和微调策略提供了实证支持。}
11-21	Oasis: Data Curation and Assessment System for Pretraining of Large Language Models _{本文提出的Oasis系统是针对大型语言模型预训练的数据整理和评估问题的解决方案。Oasis通过其交互式的自定义数据整理模块、针对偏差的模型过滤器和全面的数据评估系统，旨在提高数据集的质量和多样性，同时降低内存需求和资源消耗。系统的实现立足于提升数据处理的灵活性和评估的准确性，填补了现有工作在全面性和多维度评估方面的空白。通过综合使用人类评估、启发式度量和最新的大型语言模型如GPT-4进行质量评估，Oasis展现了对预训练数据集进行全方位优化的能力。}
11-21	Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey _{文章为了解决LLMs在应对长上下文时的挑战，提出了一系列方法和综合分类体系，提高了LLMs在注意力机制、记忆效率和最大长度处理上的性能。通过综合回顾和分类学界最近的进展，本文为未来的LLMs架构设计和优化提供了清晰的指导方向。。}
11-21	AcademicGPT: Empowering Academic Research _{AcademicGPT针对学术研究的特定需求进行了优化，通过结合针对性强的训练数据和多方面的应用开发，为学术领域提供了实质性的支持和工具。它标志着大型语言模型个性化与专业化发展的一个重要步骤，并有望对学术社区产生深远的影响。}
11-21	Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? _{本论文提出了一种新方法以评价小型语言模型在问答任务中答案的生成是否为记忆或概括能力的结果。通过语义相似度分析，确定了不太可能被模型记住答案的评估样本，并用增加额外训练数据集的方式，针对特定评估子集进行了模型性能的优化。最终，研究结果显示增加了数据集的模型在特定评估数据集上有了显著提升，并推断这种改善与模型的泛化能力有关。}
11-21	A Survey on Multimodal Large Language Models for Autonomous Driving _{该论文全面回顾了MLLMs在自动驾驶领域的应用，表明MLLMs具备解析非文本数据和融合多种模态（如视觉、语言）的能力，这些能力对于行为预测和动作规划尤为重要。通过在不同的自动驾驶环节中部署MLLMs（如理解交通场景、规划控制、模式生成），可以改善决策流程，并实现类似人类的驾驶直觉和决策模式，同时提高车辆导航和规划的效率和安全性。此外，模型通过为多个任务的预训练提供了一种新的可能性，这可能会推动把智能系统推向人工普遍智能（AGI）的发展路径。}
11-20	Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents _{本文作为首篇系统性探讨CoT基步机制、范式转变，以及CoT与代理间复杂交互的工作，提供了一些关键见解。文章揭示了CoT在特定条件下显示出的有效性，指出了使CoT工作的多个条件，以及理论和实证研究为其成功提供了何种解释。文章还对CoT理论进行了深入分析，提出了CoT对于LLMs在多个领域的优化和革新可能具有重要的贡献，并指出尽管LLMs、CoT推理和语言代理快速发展，但仍存在未解决的挑战，如对未见领域的泛化、提高交互效率、代理定制化、代理扩展及代理安全性等【10†源】。}
11-20	GPQA: A Graduate-Level Google-Proof Q&A Benchmark _{GPQA 数据集提供了一个用于测试 AI 系统在处理需深度理解和推理能力的复杂问题上的能力的基准。通过严格的问题质量控制和专家级别的难度，它可能促进人类专家与 AI 系统合作的方法发展，并推动 AI 系统设计的进步。}
11-20	Assessing Prompt Injection Risks in 200+ Custom GPTs _{该论文着重研究了自定义GPT模型中的安全风险，尤其是提示注入攻击。研究者们提出了一个包含扫描、注入敌意提示和提取目标信息三个步骤的攻击方法，并通过实施评估发现自定义GPT模型存在严重的系统提示提取和文件泄露漏洞。这些发现突出了自定义GPT模型中的关键安全缺陷，并指出了提升这些模型安全性结构的必要性。此外，红队评估清楚地显示出，现有防护措施并不足够强大，甚至有时候明确指出不应该分享的信息也能被提取出来，这表明亟需进一步加强对抗提示注入攻击的防御机制。}
11-20	Continual Learning: Applications and the Road Forward _{论文综述了当前的持续学习研究现状，指出了其在记忆限制条件下研究较多而忽视计算成本的问题，并提出了四个有前途的研究方向。这些方向包括：1) 真实世界数据处理的挑战，2) 计算成本的考虑，以及其他如何获取数据和理论理解方面的关注点。论文主张未来的CL算法应在减少对完全标记和封闭世界假设的依赖上做出实质性的进展，以使CL成为解决实际机器学习问题的一个有效工具。}
11-19	TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems
11-18	Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning _{论文提出了一个统一的库——Adapters，它整合并扩展了参数高效和模块化迁移学习方法，实现了与Transformers库的紧密整合，通过多个NLP任务的对比实验，展示了其有效性。}
11-18	Orca 2: Teaching Small Language Models How to Reason _{文章通过介绍一个新的小型语言模型Orca 2，并展示其在多种推理任务上能够与更大的模型相匹敌或超越它们的性能，对当前小型语言模型在复杂推理任务中表现不佳的问题提出了有效的解决方案。Orca 2的开发依赖于对训练数据和训练策略的精心设计，证明了即使是小型模型，也可以通过改进训练方法来增强其理解和推理能力。文章还提供了Orca 2在各种标准测试中的卓越性能结果，验证了其方法论在实际应用中的有效性。}
11-18	RecExplainer: Aligning Large Language Models for Recommendation Model Interpretability _{文章针对推荐模型解释性的研究提出了一种新型的方法，即通过大型语言模型进行对齐，以提高解释的质量和准确性。文章介绍了三种不同的对齐方法，并通过一系列任务训练LLM以模仿推荐模型的逻辑。论文采用了多种评估策略和评分体系，包括使用最新的GPT-4模型和人类评分来验证所提出方法的有效性，并在三个不同的数据集上进行了测试，显示出其在提高推荐模型解释性方面的潜力。}
11-18	An Embodied Generalist Agent in 3D World _{LEO是一个新型的身体化、多模态、多任务的通用型智能体，专注于在3D世界中的感知、基础、推理、规划和行动。通过对3D视觉-语言对齐和视觉-语言-动作指令调优的训练，LEO能在3D世界中执行一系列任务。文章通过一系列严格实验和消融实验的结果，证实了LEO在一系列任务上的高效性能，并为未来身体化通用型智能体的发展提供了宝贵洞见。}
11-17	Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 _{TÜLU 2通过采用新的基础模型和调整策略，在多个性能指标上实现了突破，对进一步理解和改进预训练语言模型的适配具有重要意义。通过引入新的数据混合物和先进的训练方法（如DPO），TÜLU 2提高了模型在各种推理和知识探测任务上的性能，并在开放式生成指标上取得了显著的提升。此外，研究者们通过公开相关模型、数据和代码，推动了语言模型适配方法的开放研究和发展。}
11-17	Exploring the Relationship between In-Context Learning and Instruction Tuning _{论文提供了ICL与IT之间密切相关的实证证据，即使ICL中不更改模型参数，二者所使用的指令和示例都驱动模型朝着收敛的隐藏状态前进。这一发现对于如何设计高效的数据集和任务以推进基础模型在下游应用的发展和对齐具有启示作用。研究结果还可以帮助理解示例在ICL和IT中的作用，以及如何利用这些见解来设计有效的示例任务和数据集，从而提升LLM的性能。论文中申明将会提供实验代码以供复现。}
11-16	Automatic Engineering of Long Prompts _{本文针对语言模型长指令工程中存在的问题，提出了一种新的算法框架，并解决了贪婪算法易陷入局部最优和遗传算法初期收敛慢的问题。通过对指令的每个句子进行语义保持重述，并利用波束搜索来维护和优化候选指令集合，使算法在有限训练数据上表现出良好的性能和较快的收敛速度。}
11-16	Predictive Minds: LLMs As Atypical Active Inference Agents _{本论文将活动推断的概念应用于大型语言模型（LLMs），从一个新的视角分析了LLMs的行为和学习机制。论文提出，尽管LLMs在物理上无法直接与环境互动，但它们通过生成文本在虚拟环境中的“行动”间接影响世界，并有可能将这些影响反馈到模型的训练中。研究指出，增强LLMs与用户交互的反馈循环，将有助于提升模型的自我意识，让其更好地适应和响应环境变化，这将带来重大的社会影响和潜在的风险。论文为理解和改进LLMs在实际部署时的行为提供了重要的理论基础，预测了这些系统未来可能的发展方向。}
11-16	MacGyver: Are Large Language Models Creative Problem Solvers? _{本研究通过创造MACGYVER数据集，探索了LLMs在解决非传统问题上的能力，并通过人类评估员对GPT-4的表现进行了评价。研究结果展示了LLMs在这类任务上的局限性，同时提出了提高其表现的新方法。研究强调了创造性问题解决能力在日常生活中的重要性，并尝试通过LLMs补充人类的创造性思维，以期提高解决问题的能力和效率。}
11-16	Crafting In-context Examples according to LMs' Parametric Knowledge _{本文的重点研究是如何根据LM的参数知识有效地创建上下文示例：选择最优的示例（已知与未知的比较）以及在上下文示例中如何排序答案。实验结果支持了半已知示例的有效性以及基于参数知识的答案排序方法，这些发现为提高大型语言模型在多答案生成任务中的性能提供了可行的技术途径。}
11-15	ToolTalk: Evaluating Tool-Usage in a Conversational Setting _{ToolTalk 是一个致力于评估和提高 LLM 在对话环境中使用多步骤外部工具性能的基准。它通过创新的评估方法和真实场景模拟，挑战和扩展了现有 LLMs 的能力边界，并为未来的研究指出了方向。}
11-15	Memory Augmented Language Models through Mixture of Word Experts _{本论文提出了一个称为MoWE的新型架构，它通过融合稀疏模型的效率和大型语言模型的性能，出色地处理了性能与计算成本之间的平衡。通过采取创新的设计原则，并且在NLP多种任务中验证了其超越传统模型如T5和MoE的性能，MoWE展示了在学术和实际应用领域的潜力，尤其是在处理知识密集型任务时。}
11-15	Contrastive Chain-of-Thought Prompting _{本论文提出了对比式链式思维方法，以解决传统链式思维中存在的问题，即缺乏对错误避免的指导以及实现推理效果的不确定性。通过提供有效和无效的推理示例，新方法旨在引导模型减少推理错误并一步步推理，同时该方法提供了自动化构建对比示例的技术以便泛化到各种任务。实验结果证实，该方法能够作为一种通用增强手段，显著提升链式思维的性能。}
11-15	Exponentially Faster Language Modelling _{本文介绍了UltraFastBERT，这是一个大规模语言模型的变种，它显著减少了在推理时需要使用的神经元数量，并通过使用快速前馈网络来提高计算效率。尽管不具备原生的高效实现，但该模型提供了一个能够显著加速推理过程的CPU代码实现，并在标准下游任务中表现良好。这一工作展示了条件神经执行在语言建模领域巨大的潜力。}
11-15	Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models _{论文提出的CHAIN-OF-NOTE（CON）框架旨在提高RALMs的鲁棒性，主要通过引入结构化的阅读笔记过程来批判性地评估检索到的文档。实验结果表明，该框架提高了模型在噪声数据和未知情况下的健壮性，改善了整体QA性能，并在检索文档失败还是成功时均提高了模型的性能。CON框架通过生成读取笔记和最终回答，提高了模型对噪声的鲁棒性，并在缺乏信息时能够给出“未知”的回答，增强了模型的适应性和可靠性。}
11-14	Learning to Filter Context for Retrieval-Augmented Generation _{本文提出的FILCO方法针对开放领域问答和事实验证等知识密集型任务，通过改善提供给生成模型的上下文质量来解决生成输出时面临的问题。通过结合词汇和信息论方法来识别有用上下文，并训练模型以在测试时过滤检索上下文，很好地解决了以前方法的局限性。实验结果显示，相比传统方法，FILCO在多个知识密集型任务上都取得了显著的性能改进，并且在上下文过滤训练上显示出其有效性。}
11-14	KTRL+F: Knowledge-Augmented In-Document Search _{文章提出了一个新的问题——KTRL+F，以解决文献搜索中的实时、准确性、引入外部知识的需求。通过分析现有基线，文章发现它们存在局限性，在此基础上提出了Knowledge-Augmented Phrase Retrieval模型。该模型有效地在短语检索中整合了外部知识，通过简单的扩展保持了快速响应，无需额外训练。通过用户研究，证明了该模型能够提升用户搜索体验，减少搜索时间和外部信息检索量。作者鼓励研究社区关注KTRL+F这一独特挑战，提高文献信息访问的效率和效果。}
11-14	Instruction-Following Evaluation for Large Language Models _{本文提出了一种评估大型语言模型的指令遵循能力的新方法——IFEval，它通过合成逻辑一致的指令和计算指令遵循准确性的新准则来解决评估过程中的挑战。此方法为自动化且无偏见，它通过多步骤过程避免指令间的潜在冲突，并引入了严格和宽松的准确性评价标准来减少误判，同时认为未来可以通过增加多样化和使用多模态指令来改进该方法。}
11-11	In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering _{本论文提出的ICV方法为大型语言模型的上下文学习提供了一种新颖且更加有效的替代方案。通过将演示示例的关键信息集成到一个可以控制的向量中，ICV方法提高了任务指导的精确度和效果，并显著优于现有的方法。实验结果表明，ICV在多项任务中展现了较高的性能，包括在不同的LLMs上进行语言模型解毒、风格转换和角色扮演。ICV方法的计算开销低，并且易于控制，有助于提升语言模型在实际应用中的适用性和弹性。}
11-01	LLMRec: Large Language Models with Graph Augmentation for Recommendation _{LLMRec作为开创性的工作，它引入LLMs来增强图推荐系统，成功地解决了交互数据的稀疏性和低质量侧信息的问题，并通过强化用户-项目交互边、项目节点属性以及用户画像等手段提升了推荐系统的性能，确保了推荐质量的同时降低了数据噪声的影响。}

10月

Date	Paper	Links & Summary
10-20	The History and Risks of Reinforcement Learning and Human Feedback
10-11	OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models _{OpsEval 作为一个全面的 AIOps 任务导向型基准测试，不仅评估了大型语言模型的综合性能、推理和实际应用能力，还可能改变未来大规模质量评估中使用的评价指标。它提供了一个用于持续研究和优化AIOps领域大型语言模型的坚实基础。}

08月

Date	Paper	Links & Summary
08-18	Learning Representations on Logs for AIOps _{本文提出的BERTOps模型通过使用LLMs中的通用表示，并结合专门针对AIOps日志数据的预训练，有效地提高了自动化日志分析任务的性能，并展示了显著的改进。BERTOps不仅优于现有模型，在多个下游任务中也表现出卓越的性能，有助于加速AIOps的实践应用。}

07月

Date	Paper	Links & Summary
07-11	Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps _{本研究使用对比示例和显著图分析法来探究大型语言模型中上下文学习的内在机制，揭示了标签翻转、输入变化、和补充性解释对预测的不同影响，并为实践者提供了如何策划示例的洞见。}

05月

Date	Paper	Links & Summary
05-24	In-Context Demonstration Selection with Cross Entropy Difference _{文章提出了一种新的基于交叉熵差异（CED）的上下文示例选择方法，并提供了理论上的解释，实现了对不同大小和类型的大型语言模型性能的提升。}
05-19	How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings _{本研究揭示出有效提示构造的关键数据库知识和最优表述，为LLMs在text-to-SQL任务中的应用提供指导，并指出在跨域设置中对于提示长度存在一个“甜蜜点”。本研究的发现可能对于特定数据库不总是适用，特别是如果该数据库与Spider数据库显著不同。}

03月

Date	Paper	Links & Summary
03-31	A Survey of Large Language Models _{总的来说，这篇综述文章介绍了LLMs领域的最新进展，特别是OpenAI推出的ChatGPT和GPT-4模型，并强调了这些产品对人工智能研究的重大影响，特别指出了它们在人机交流、多模态理解和生成、以及人工智能对齐和安全性方面的突破。同时，文章认识到尽管取得了巨大的技术进展，但在安全性、生成质量和多模态性功能方面仍面临挑战，并提出了一系列的技术和策略来缓解这些问题。通过这篇文章，我们可以更好地理解LLMs的发展方向以及对未来人工智能应用和研究的潜在影响。}

02月

Date	Paper	Links & Summary
02-08	A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity _{文章通过更细粒度的方式评估了ChatGPT的推理能力，并且找到了LLMs中的一个关键问题，即在非文本语义理解方面的不足。这一发现对于未来LLMs的改进和推理能力的研究提供了重要的方向。}

ninoxjy / llm-paper-daily Goto Github PK

llm-paper-daily's Introduction

llm-paper-daily 日常论文精选

11月

10月

08月

07月

05月

03月

02月

llm-paper-daily's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent