热门
最新
红包
立Flag
投票
同城
我的
发布
Scale AI的SEAL研究实验室推出专家评估且可信的LLM排行榜
Scale AI宣布推出SEAL排行榜,这是一种创新且由专家驱动的大型语言模型(LLM)排名系统。该倡议是Scale的安全、评估和对齐实验室(SEAL)的产物,致力于提供中立、可信的AI模型评估。SEAL排行榜旨在应对随着LLM变得更加先进和广泛应用,对可靠性能比较的日益增长的需求。
随着数百种LLM的出现,比较它们的性能和安全性变得越来越具有挑战性。作为领先的AI实验室的可信第三方评估机构,Scale开发了SEAL排行榜,以使用无法操纵的精心策划的私有数据集对前沿LLM进行排名。这些评估由经过验证的领域专家进行,确保排名公正,提供模型性能的真实衡量标准。
我们的观点:https://www.marktechpost.com/2024/06/01/scale-ais-seal-research-lab-launches-expert-evaluated-and-trustworthy-llm-leaderboards/
排行榜:https://scale.com/leaderboard
@高绛婷
CSDN App 扫码分享
评论
11
- 复制链接
- 举报
下一条:
GNN-RAG:一种将大型语言模型(LLMs)的语言理解能力与图神经网络(GNNs)的推理能力结合在检索增强生成(RAG)风格中的新型AI方法来自明尼苏达大学的研究人员介绍了GNN-RAG,这是一种高效的方法,用于在知识图谱问答(KGQA)中增强RAG。该方法利用GNNs处理知识图谱(KGs)中的复杂图数据。虽然GNNs缺乏自然语言理解能力,但它们在图表示学习方面表现出色。GNN-RAG通过在密集的KG子图上进行推理来识别答案候选项,然后提取连接问题实体和GNN-衍生答案的最短路径,将这些路径进行语言化,并通过RAG输入到LLM推理。此外,基于LLM的检索器可以增强GNN-RAG,以进一步提高KGQA的性能。GNN-RAG框架集成了用于密集子图推理的GNNs,随后检索候选答案并在KG内提取推理路径。这些路径随后会被语言化并输入到基于LLM的RAG系统中用于KGQA。GNNs因其处理复杂图交互和多跳问题的能力而被选中,它们检索对KGQA至关重要的推理路径。不同的GNN架构,受预训练语言模型选择的影响,提供了不同的输出,增强了基于RAG的KGQA。相反,虽然LLMs对KGQA有所贡献,但由于其自然语言理解能力,它们更适合单跳问题。检索增强(RA)技术,如结合GNN和基于LLM的检索,改善了答案多样性和召回率,从而增强了整体KGQA性能。快速阅读:https://www.marktechpost.com/2024/06/01/gnn-rag-a-novel-ai-method-for-combining-language-understanding-abilities-of-llms-with-the-reasoning-abilities-of-gnns-in-a-retrieval-augmented-generation-rag-style/论文:https://arxiv.org/abs/2405.20139