TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS

TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS ICLR 2024 最近的工作都聚焦于将检索到的数据添加到输入上下文中来增强具有检索能力的LLM,这种方式虽然能取得很好的效果,但是必须在训练和测试时添加检索到的数据。此外由于输入长度随着检索到的数据大小线性增长,Transformer的复杂度和计算成本急速上升。 ...

2025年03月12日 · 2 分钟 · 813 字 · ZhaoYang

ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

论文概览 论文标题:ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates 研究机构:Princeton University, Peking University 代码仓库:https://github.com/Gen-Verse/ReasonFlux ...

2025年03月07日 · 5 分钟 · 2316 字 · ZhaoYang

SUPERCORRECT:SUPERVISING AND CORRECTING LANGUAGE MODELS WITH ERROR-DRIVEN INSIGHTS

论文概览 论文标题:SUPERCORRECT: SUPERVISING AND CORRECTING LANGUAGE MODELS WITH ERROR-DRIVEN INSIGHTS 研究机构:Peking University, National University of Singapore, UC Berkeley, Stanford University 代码仓库:https://github.com/YangLing0818/SuperCorrect-llm ...

2025年03月02日 · 8 分钟 · 3711 字 · ZhaoYang

Buffer of Thoughts:Thought-Augmented Reasoning with Large Language Models

施工中 论文翻译:https://dppemvhuzp.feishu.cn/docx/Rp4YdgRXAohJBaxWqL7cO9FPnJf?from=from_copylink ...

2025年03月01日 · 1 分钟 · 88 字 · ZhaoYang

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

论文概览 论文标题:Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models 核心主题:从普通LLM到大型推理模型的演进之路 关键洞察:OpenAI o1系列标志着AI推理能力的重大突破 ...

2025年03月01日 · 7 分钟 · 3470 字 · ZhaoYang

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought

论文概览 论文标题:Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 研究机构:SynthLabs.ai, Stanford University, UC Berkeley 核心创新:元思维链(Meta-CoT)框架,从CoT到深度推理的革命性跃升 ...

2025年02月26日 · 6 分钟 · 2583 字 · ZhaoYang

Exploring the expertise of large language models in materials science and metallurgical engineering

单位: Christophe BAJANa,‡ and Guillaume LAMBARDa,‡ 代码:🈚️ 原文地址:https://arxiv.org/abs/2501.04277 overview 人工智能在各领域的整合正在迅速增加,大型语言模型(LLMs)在众多应用中也变得越来越普遍。这项研究是一个整体项目的一部分,该项目旨在专门在材料科学领域训练一个LLM。为了评估这种专门化训练的影响,必须建立现有LLMs在材料科学中的基线性能。在本研究中,我们使用MaScQA问答(QA)基准评估了15种不同的LLMs。该基准包括来自工程研究生入学考试(GATE)的问题,旨在测试模型在回答与材料科学和冶金工程相关的问题时的能力。我们的结果表明,闭源LLMs,如Claude-3.5-Sonnet和GPT-4o,表现最佳,总体准确率约为84%,而开源模型Llama3-70b和Phi3-14b的准确率分别约为56%和43%。这些发现为LLMs在材料科学QA任务中的原始能力提供了基线,并强调了通过提示工程和微调策略可以为开源模型带来的显著改进。我们预计这项工作将推动LLMs作为材料科学中有价值的助手的采用,展示它们在这一专业领域及相关子领域中的实用性。 ...

2025年02月25日 · 2 分钟 · 630 字 · ZhaoYang