Exploring the expertise of large language models in materials science and metallurgical engineering

单位: Christophe BAJANa,‡ and Guillaume LAMBARDa,‡ 代码:🈚️ 原文地址:https://arxiv.org/abs/2501.04277 overview 人工智能在各领域的整合正在迅速增加,大型语言模型(LLMs)在众多应用中也变得越来越普遍。这项研究是一个整体项目的一部分,该项目旨在专门在材料科学领域训练一个LLM。为了评估这种专门化训练的影响,必须建立现有LLMs在材料科学中的基线性能。在本研究中,我们使用MaScQA问答(QA)基准评估了15种不同的LLMs。该基准包括来自工程研究生入学考试(GATE)的问题,旨在测试模型在回答与材料科学和冶金工程相关的问题时的能力。我们的结果表明,闭源LLMs,如Claude-3.5-Sonnet和GPT-4o,表现最佳,总体准确率约为84%,而开源模型Llama3-70b和Phi3-14b的准确率分别约为56%和43%。这些发现为LLMs在材料科学QA任务中的原始能力提供了基线,并强调了通过提示工程和微调策略可以为开源模型带来的显著改进。我们预计这项工作将推动LLMs作为材料科学中有价值的助手的采用,展示它们在这一专业领域及相关子领域中的实用性。 ...

2025年02月25日 · 2 分钟 · 630 字 · ZhaoYang

Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search

论文概览 论文标题:Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search 研究机构:AI Lab 基座模型:Llama-3.1-8B-Instruct, DeepSeek-Math-7B-Instruct 论文地址:https://arxiv.org/abs/2501.01478 ...

2025年02月20日 · 6 分钟 · 2612 字 · ZhaoYang

s1: Simple test-time scaling

单位: Stanford 代码:https://github.com/simplescaling/s1 基座模型: Qwen2.5 32B-Instruct 原文地址:https://arxiv.org/abs/2501.19393 ...

2025年02月16日 · 6 分钟 · 2985 字 · ZhaoYang

Sky-T1: Train your own O1 preview model within $450

原博客地址:https://novasky-ai.github.io/posts/sky-t1/ 代码:https://github.com/NovaSky-AI/SkyThought ...

2025年02月16日 · 1 分钟 · 235 字 · ZhaoYang

LIMO: Less Is More for Reasoning

单位: SJTU 代码:https://github.com/GAIR-NLP/LIMO 基座模型: Qwen2.5-32B-Instruct 原文地址:https://arxiv.org/pdf/2502.03387 ...

2025年02月15日 · 6 分钟 · 2705 字 · ZhaoYang

SpatialVLM

图 1 | 我们展示了 SpatialVLM,这是一种数据合成和预训练机制,用于增强 VLM 的空间推理能力。我们证明,在我们的合成数据上训练的 VLM 表现出强大的空间推理能力,并且可以从 2D 输入图像生成度量距离估计,从而解决了当前最先进的 VLM(如 GPT-4V)的盲点。(∗ GPT-4V 于 2023 年 11 月访问)。 ...

2024年07月01日 · 11 分钟 · 5090 字 · ZhaoYang

LL3DA

abstract 大型多模态模型 (LMM) 的最新进展使得人机交互中的各种应用成为可能。然而,开发能够在复杂多样的 3D 环境中理解、推理和规划的 LMM 仍然是一个具有挑战性的课题,尤其是考虑到理解 3D 场景的置换不变点云 3D 表示的需求。现有的工作寻求多视图图像的帮助,并将 2D 特征投射到 3D 空间作为 3D 场景表示。然而,这会导致巨大的计算开销和性能下降。在本文中,我们介绍了 LL3DA,这是一种大型语言 3D 助手,它将点云作为直接输入并响应文本指令和视觉提示。这有助于 LMM 更好地理解人类互动,并进一步帮助消除混乱的 3D 场景中的歧义。实验表明,LL3DA 取得了显著的效果,在 3D 密集字幕和 3D 问答方面均超越了各种 3D 视觉语言模型。 ...

2024年06月27日 · 3 分钟 · 1185 字 · ZhaoYang