当前位置: 首页 > news >正文

微信网站设计尺寸东莞网站提升排名

微信网站设计尺寸,东莞网站提升排名,互联网工程师,wordpress 附件加密一、基于evaluation的prompt使用解析 基于大模型的应用评估与传统应用程序的评估不太一样,特别是基于GPT系列或者生成式语言模型,因为模型生成的内容与传统意义上所说的内容或者标签不太一样。 以下是借用了ChatGPT官方的evaluation指南提出的对结果的具…

一、基于evaluation的prompt使用解析

基于大模型的应用评估与传统应用程序的评估不太一样,特别是基于GPT系列或者生成式语言模型,因为模型生成的内容与传统意义上所说的内容或者标签不太一样。

       以下是借用了ChatGPT官方的evaluation指南提出的对结果的具体的评估步骤:

       Compare the factual content of the submitted answer with the context. \

I      gnore any differences in style, grammar, or punctuation.

Answer the following questions:

    - Is the Assistant response based only on the context provided? (Y or N)

    - Does the answer include information that is not provided in the context? (Y or N)

    - Is there any disagreement between the response and the context? (Y or N)

    - Count how many questions the user asked. (output a number)

    - For each question that the user asked, is there a corresponding answer to it?

      Question 1: (Y or N)

      Question 2: (Y or N)

      ...

      Question N: (Y or N)

- Of the number of questions asked, how many of these questions were addressed by the answer? (output a number)

所谓的factual content是指显性表达出来的(有明确文字说明的)内容,另外需要忽略掉写作风格,语法,标点符号等带来的差异,因为大多数情况下不同的用户表达同样的意思会有差异,这对于比较模型生成结果和你指定的正确答案来说很重要,否则会失去语言的灵活性。” Answer the following questions”部分说明了评估必须经过的步骤,另外也说明了不能简单地说“Y”或者“N”,而是需要给出一些中间的reasoning process或者说intermediate steps,这样的设计很具有技巧,考验你对业务的理解能力,包括对数据的理解能力以及对模型的理解能力等等。

在下面这个评估方法中,有用户的信息,上下文的信息以及对话机器人返回的信息,其中system_message如下:

You are an assistant that evaluates how well the customer service agent \

answers a user question by looking at the context that the customer service \

agent is using to generate its response.

一般来说,系统级别的信息就是上下文(context),从模型的角度来说,所有输入的东西都是在context的支配下工作的。

上面这个方法基于传入的system_message和user_message,调用方法get_completion_from_messages获得返回的response:

调用方法并打印response如下:

二、关于prompt内部工作机制

       训练GPT系列大模型时,一个基本的能力是预测下一个词(word),那模型为什么能根据我们提供的prompt做出响应?譬如GPT-3,它是根据前面的内容来产出下一个word,前面的内容你都可以认为是prompt。

这个问题的本质是GPT-3/GPT-4是如何训练的,在已有的一个基础的大模型(base LLM)的前提条件下,会经历以下几个核心步骤:

-以一问一答的方式提供样例数据给这个base LLM

-由data contractor人工检查LLM的输出(即human-rating操作),看什么是有用的,什么是没用的

-使用RLHF来调整模型对产生更高rating的输出增加概率

经过上述步骤后会导致我们输入一个prompt(譬如上面说到的evalution使用的看起来有点复杂的prompt)后,会产生相应的结果。

用户在不断地与对话机器人进行交互时,对话机器人在产出结果时至少要考虑两个层面的东西:一是用户输入的内容,二是系统的设定。

Prompt的使用形式有如下几种:

-问答的形式,给一个输入,返回一个输出

-Chain of Thought(CoT)

-Self Consistency with CoT(CoT-SC)

-Tree of Thoughts(ToT),根据用户的输入产生一个树状结构,每一层表示针对上面的节点的prompt或者step产生的结果,譬如第一层针对输入可能会产生不同的结果,然后层层递推,其中存在一个evaluation system,就是判断哪个路径是最相关或者说产出的结果最能够完成用户指定的问题或者任务。

三、从一篇论文来剖析prompt

我们需要思考在一个prompt中,有哪些因素能够影响到一个prompt的功能,另外也要考虑如何使一个prompt最小化,因为这涉及到tokens的使用数量,另外如果信息太多也会干扰到模型对信息的“理解”(这里的“理解”指的是一种形式上的理解,本质上来说模型是无法像人类一样真正理解我们提供的信息的)。

下面这篇论文很重要,提出了几个核心的论述:

-在输入的一个prompt中,“factual patterns”的存在对于CoT的成功来说并不重要

-对于模型来说,中间的步骤(intermediate steps)会作为灯塔信号,让模型参照用户输入中的符号(symbols)构成的patterns来产出结果,模型表现出的仅仅是一种形式上的推理论证

-模型在训练时会获得commonsense knowledge and meaning,从而帮助模型在用户输入的文本形式的prompt中找到patterns

-通过试验分析揭示了在text和patterns之间存在类似生物间相互依赖的一种关系,模型会从文本中基于常识获取patterns,patterns反过来会强化模型对任务进行形式上的理解和指导结果信息的生成

-你能够尽量去裁剪prompt,只留下关键的信息,基于常识依旧能够表达patterns,这些patterns能够指导模型“理解”prompt指定的任务来生成结果

-prompt中的符号的具体形式(exact type of symbols)不影响模型的表现

-CoT帮助模型以prompt为例来学习其中的patterns,然后为任务生成正确的tokens

http://www.fp688.cn/news/154762.html

相关文章:

  • 车机油哪个网站做的好制作电商网站
  • 怎样创建购物网站江苏网站seo设计
  • 国外网站怎么做威客百度的seo排名怎么刷
  • 四川城乡建设网站证件查询网站模板平台资源
  • 网站授权系统怎么用上海好的seo公司
  • 企业站点域名收录批量查询
  • 旅游网站总结seo技术培训宁波
  • 用国外服务器做网站域名流量查询工具
  • 企业网站国内现状百度服务中心人工客服电话
  • 莆田有交做外贸网站的没网店推广培训
  • 进入官网查看seo链接优化建议
  • 怎么做网站页面模板seo推广的方法
  • 建设银行信用卡网站是哪个新东方在线教育平台官网
  • 网站建设主要流程济南优化哪家好
  • 哪里有做空包网站的百度热搜榜排名今日头条
  • phpmysql网站开发技术项目式教程宁波seo深度优化平台有哪些
  • 徐汇网站建设百度怎么注册公司网站
  • 工商网站如何做企业增资合肥瑶海区
  • wordpress自建电商网站今日新闻最新消息
  • 旅游网站设计方案郑州网站关键词优化外包
  • 淘宝网请人做淘宝客网站百度网站排名关键词整站优化
  • 做装修的网站有哪些内容优化设计五年级下册语文答案
  • 政府网站群建设工作总结客户引流的最快方法是什么
  • 紧紧抓住推进党风廉政建设的"牛鼻子"中央纪委监察部网站小红书笔记关键词排名优化
  • 网站客服在线软件百度免费打开
  • 武汉网站建设公司厂家地址淘客推广怎么做
  • 摄影作品网站源码游戏搜索风云榜
  • 315网站专题怎么做自媒体营销模式有哪些
  • 如何禁止通过ip访问网站链接怎么做
  • 棋牌搭建工具seo专业培训seo专业培训