当前位置: 首页 > news >正文

男女做暖免费网站 香蕉百度最新版app下载安装

男女做暖免费网站 香蕉,百度最新版app下载安装,新媒体 网站建设,宸建设计网站Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824 在大型语言模型中基准测试泄露的基准测试 文章目录 在大型语言模型中基准测试泄露的基准测试摘要1 引言 图1:不同模型在基准测试的训练集上进行逐字训练相对于测试集以…

Benchmarking Benchmark Leakage in Large Language Models
https://arxiv.org/abs/2404.18824

在大型语言模型中基准测试泄露的基准测试

文章目录

  • 在大型语言模型中基准测试泄露的基准测试
  • 摘要
  • 1 引言

在这里插入图片描述
在这里插入图片描述

图1:不同模型在基准测试的训练集上进行逐字训练相对于测试集以增强能力(基于PPL和N-gram准确性测量)的相对可能性。表现出接近零可能性的模型表明要么没有训练和测试分割,要么在训练过程中使用了这两个分割。这个指标并不意味着作弊,而是表明在(预)训练阶段可能使用了基准测试数据;虽然使用基准测试来增强能力是可以接受的,但缺乏相关文档可能会降低透明度,可能导致不公平的比较,并阻碍该领域的健康发展。

摘要

随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。这些发现促使我们提出了关于模型文档、基准设置和未来评估的一些建议。值得注意的是,我们提出了“基准透明度卡片”(表19),以鼓励清晰地记录基准测试的使用情况,促进LLMs的透明度和健康发展。我们已经公开了我们的排行榜、流程实现和模型预测,以促进未来的研究。
代码:https://github.com/GAIR-NLP/benbench
主页:https://gair-nlp.github.io/benbench
案例研究演示:https://huggingface.co/spaces/GAIR/benbench

1 引言

大型语言模型(LLMs)的快速发展导致了评估方法/协议(Chang等人,2024年)的显著滞后。加上LLMs训练的不透明性,这可能导致个人很难对评估结果形成客观的评估(Bommasani等人,2023年)。这高估了基准测试的有效性,忽视了潜在的不公平比较因素,并最终导致错过了科学上有意义的方向,浪费了社会资源。特别是,许多模型在预训练阶段明确涉及了监督数据,如GLM-130B(Zeng等人,2023年)、Qwen(Bai等人,2023年)、Nemotron-415B(Parmar等人,2024年)、InternLM-2(Cai等人,2024年)、MiniCPM(Hu等人,2024年)等。这一背景为讨论基准数据泄露的关键问题设定了舞台。随着对这些基准测试的依赖性增加,它们可能无意中被纳入LLMs的训练数据中,从而破坏了评估的完整性并复杂化了真正的能力评估。
在探索这个问题时,选择一个合适的测试平台至关重要。理想的测试平台应该表现出特定的特征:(1)它应该包括训练集和测试集,允许受控比较;(2)在这个基准测试上提高性能应该是固有的挑战,且有效的数据集有限。这种稀缺性增加了开发者使用基准数据来提高性能的诱惑;(3)它也应该引起广泛的兴趣,确保它是评估流行模型(如GPT-4(OpenAI,2023年)、Claude-3(Anthropic,2024年)等)的标准度量。鉴于这些标准,数学推理基准数据集GSM8K(Cobbe等人,2021年)和MATH(Hendrycks等人,2021b)成为我们测试平台的合适选择,它们允许我们深入研究数据泄露,但也提供了一个相关且具有挑战性的环境。我们使用这些数据集的主要目的是挖掘潜在的基准泄露,提高语言模型开发的透明度。
鉴于训练数据和模型细节通常是不透明的,且泄露检测受到诸如模型大小和训练策略等各种因素的影响,检测基准泄露并不是一项简单的任务。在这项工作中,我们不是在追求系统开发中的技术贡献;相反,我们试图鼓励这个领域的健康发展,特别是通过数学推理任务的视角,在以下方面:(1)总结各种预训练行为和检测基准泄露的挑战(见第2节):数据泄露可能在各种场景中发生,其检测受到不可靠假设、模型大小、训练策略、未知训练数据甚至无法访问的模型权重等多种因素的影响。(2)提出用于估计预训练行为的检测流程(见第3节):我们引入了一个简单、计算效率高且可扩展的流程,利用两个基本但有洞察力的原子指标:困惑度和N-gram准确性。这些指标有效地概括了语言建模的本质,分别从连续和离散的角度捕捉其细微差别。通过改写基准测试以创建不同的参考版本,我们可以检测模型的原子指标的差异,从而识别潜在的数据泄露。这个流程的有效性得到了彻底的元实验的支持(见第4节)。(3)现有模型的泄露分析(第5节):我们将调查扩展到分析现有模型(即,31个开源LLMs),揭示除了先前确定的泄露外,许多(即,大约一半)包括知名语言模型,可能无意中利用训练数据来提高它们在数学推理任务上的性能,导致不公平的优势。此外,我们的指标甚至可以进行实例级检测,揭示了许多模型中测试集泄露的可能性(见第5.3节)。例如,我们发现Qwen1.8B可以准确预测GSM8K训练集中的223个示例中的所有5-gram,以及MATH训练集中的67个,甚至在MATH测试集中还有额外的25个正确预测。(4)关于模型文档、基准设置和未来评估的建议(见第6节):基于这些发现,我们提出了包括模型文档、基准构建、公共基准访问和多角度评估在内的建议。我们特别强调模型文档的方面;我们建议模型在发布时应附带一个文档,记录是否使用了基准数据进行特定的性能提升以及是否进行了任何数据增强。为此,我们引入了基准透明度卡片(见第A.4节和表19),以促进这一过程,希望它能够被广泛采用,以促进LLMs的透明度和健康发展。
这些发现强调了我们在开发和评估语言模型的方法上进行范式转变的紧迫性。通过精确定位潜在的数据泄露,我们的工作倡导在模型开发中实现更大的透明度和公平性,引导社区朝着更道德和有效的研究方法发展。

http://www.fp688.cn/news/161667.html

相关文章:

  • 人是用什么做的视频网站腾讯广点通广告投放平台
  • 烟台海阳市专业做网站网站怎么做谷歌推广
  • 营销型网站特点今日热点新闻头条国内
  • wap网站html模板营销型网站建设要点
  • 网站的静态页面用什么做seo关键词如何设置
  • 做微信电影网站网页设计制作网站模板图片
  • 网站建设行业数据搜索引擎优化seo专员
  • 用discuz做的网站上海发布最新情况
  • 那家公司做网站市场调研报告范文大全
  • 手机上的软件网站建设seo三人行论坛
  • 企业备案网站名称怎么填杭州seo价格
  • android移动网站开发详解光盘下载制作网站要花多少钱
  • 网站建设w亿码酷1流量订制怎么让百度收录我的网站
  • 做自己的网站多少钱网站地址ip域名查询
  • paypal网站做外贸百度下载app下载
  • 北京网站建设技术网站平台推广
  • 常用的软件开发文档有哪些国内好的seo
  • 域名备案需要有网站吗seo关键词快速获得排名
  • 做苗木网站哪家做得好百度推广关键词质量度
  • 门户网站申请企业营销策划书
  • 上海电子商务网站开发网站营销策划公司
  • 建设银行社会四川招聘网站seo搜索引擎推广
  • 国外免费搭建网站长沙seo网站推广
  • 西安工程信息交易中心在运营中seo是什么意思
  • 如何做网站流量分析seo全网图文推广
  • 桂林疫情最新消息确诊19例seo的实现方式
  • 甘肃网站建设方案服务至上郑州网络营销公司
  • wordpress去掉搜索框google搜索排名优化
  • 做网站公司关键词seo优化操作
  • wordpress全站seo是什么意思知乎