用「AI人」仿照社会学试验，竟然成功了？斯坦福、NYU用GPT-4仿照人类，准确度惊人！

09-01 854阅读 2评论

新智元报导

修改：Aeneas

【新智元导读】斯坦福和NYU的研讨者发现，GPT-4这样的「AI人」，能够被用来仿制社会科学试验了。查询了1万个AI，成果比真人还真？

最近，斯坦福和NYU的一项研讨发现，GPT-4能够很好地仿照人类，高精度地仿制社会科学试验了！

论文地址：https://docsend.com/view/qeeccuggec56k9hd

经过提示，AI能够以随机人口计算特征的方式答复查询问题，查询了数千名「AI人」后，一份社会科学试验陈述就顺畅出炉了。

点进这个页面，就能够运用这个演示，仿照被试生成猜测的试验作用了

社会科学试验中最困难的进程之一，便是郊野查询了。

而现在，能够选用LLM猜测社会科学试验的成果了？

不过有个问题：用LLM仿照实在的人类，成果能准吗？

研讨者发现，在70项研讨中，仿照作用和观察到的作用，存在惊人的共同性。

精确性逾越人类专家

用LLM进行社会科学试验，猜测的精确性有多高？

研讨者运用GPT-4，从70个试验中猜测了465种效应。

其间包括

-经过NSF赞助的TESS方案进行的50项查询试验

-20项额定的重复研讨

给模型的提示词，是（a）从美国人的代表性数据会集提取的人口计算资料和（b）试验影响。

经过汇总模型呼应估量的作用，能够看出它们与实践的试验作用密切相关！

别的研讨者们还发现，跟着模型的演进，它们的猜测精确性越来越高。

到了GPT-4时，现已逾越了美国人在线样本（N=2,659）的猜测。

这儿就有人要问了：有没有或许，LLM仅仅从练习数据中检索和重现已知的试验成果呢？

研讨者找到了依据，证明并非如此。

他们特意找到了GPT-4练习数据截止时未宣布的研讨，发现猜测的精确性依然很高。

咱们找到了对立这一点的依据：仅剖析 GPT4 练习数据截止时「未宣布」的研讨，咱们发现猜测精确性很高。

不过还有一个问题，此前人们曾发现，练习数据中的轻视，会引发LLM的成见。

这些误差是否会影响试验成果猜测的精确性呢？

为此，研讨者从以下三方面，对成果进行了比较：

- 女人和男性

- 黑人和白人

- 民主党和共和党

成果显现，尽管已知练习数据不平等，但LLM得出的猜测精确性，在各个亚组之间依然具有可比性。

但是，研讨的试验作用几乎没有异质性，因而，还需求更多的研讨，来评价LLM试验成果的猜测是否存在误差，以及是怎样的误差。

此外，研讨者还评价了大型研讨的猜测精确性，比较了很多干涉办法的影响。

经过9项查询和实地大型研讨能够发现，LLM得出的猜测适当精确。

特别值得注意的是，它们的精确性现已同等或超过了人类猜测专家。

最终，研讨者发现LLM能够精确猜测对社会有害成果的影响，例如FB上antivax的帖子对vax目的的影响。

这种才能，或许发生活跃的用处，比方协助内容审阅，不过也一起凸显了乱用的危险。

总的来说，这项研讨发现，LLM在试验中给出的猜测，要比外行和人类专家的样本都更精确。

这种才能，在科学和实践方面有多种运用。

比方，运转低成本的试点，来确认有期望的干涉办法，或仿照或许对参与者有害的试验。

不过也存在限制性和危险，包括成见、过度运用和误用。

用LLM仿制社会科学试验，可行吗？

LLM是一种最新的机器学习模型，经过很多人类言语语料库的练习后，它们具有惊人的才能来仿照人类怎么考虑、沟通和行为。

因而，它们能够仿照广泛的人类高档才能，例如社会互动和协调、品德判别、商洽、情感支撑和压服。

跟着LLM越来越能够仿照人类言语的运用，那它们能否被用于社会和行为科学的研讨呢？

在这项研讨中，研讨者探讨了LLM是否能够用于精确猜测行为的成果试验。假如有用，这种才能就能为树立科学理论和行为干涉带来很多长处。

他们查看了先进的揭露LLM——GPT-4，是否可用于猜测在很多有力的、预先注册的、具有全国代表性的试验中观察到的原始试验作用（a）NSF 赞助的多学科社会科学分时试验（TESS）方案和（b）最近仿制研讨的档案，它们一起代表了广泛的不同范畴（例如社会心理学、政治学、社会学、公共方针、公共卫生）。

研讨者让GPT-4仿照了很多不同人口的美国人样本对试验影响的反响。

然后，他们比较了不同试验条件下的均匀呼应，以生成LLM猜测的试验效应巨细，然后将其与原始试验效应相关联。

研讨者评价了LLM得出的猜测对一般美国人和具有共同学术爱好的几个亚集体的精确性，体系地对LLM用于猜测查询试验中观察到的干涉效应的才能进行了基准测验。

最终，他们逾越了这个开端的测验档案，搜集并剖析多种大型多处理试验，包括触及行为丈量的研讨、干涉办法的现场测验和方针影响评价，以更好地评价LLM猜测验验成果的价值和当时限制。」

成果显现，LLM尽管不会替代人类被试，但廉价、快速且或许很多展开根据LLM的试点研讨的才能，能够协助研讨人员确认更有出路的研讨主意，促进理论和假定的树立，更好地估量不知道的效应巨细，以确认所需的作用样本巨细，并优先考虑需求复现的已宣布研讨。

这种才能也或许具有运用价值。例如，方针制定者能够运用LLM来有用评价许多公共信息传递办法，以鼓舞抱负的行为（例如公共卫生行为、福利方案注册）。

现在，猜测验验成果的最佳可用东西是从专家或非专业猜测者那里搜集猜测。

但是，尽管有时具有猜测性，但体系地搜集猜测既耗时又贵重，而根据LLM的低成本东西，能够使猜测性猜测广泛可用。

研讨者研讨了LLM在代表性样本查询试验中精确仿照人类反响的才能。

他们运用LLM，来仿照了人类对各种主题（包括人格特质、品德判别和政治情绪）的查询问题的反响，并取得了不同程度的成功。

研讨概述

他们研讨了是否能够运用当时一代的LLM，来精确猜测在美国进行的社会科学试验作用的方向和程度。

他们首要树立了一个大型的多学科测验档案，其间包括经过美国国家科学基金会赞助的50个查询试验——2016年至2022年社会科学同享试验（TESS）项目，悉数在全国代表性概率样本上进行。

咱们经过最近的仿制项目中的别的20项试验对此进行了弥补，这些试验也是在全国代表性样本上进行的。

关于每个试验，他们都从头剖析了原始的、揭露的数据集，运用共同的剖析办法估量一切试验比照。

这个测验档案有几个长处。

首要，试验质量高：它们都是高度计算、预先注册、同行评定、针对全国代表性样本进行，而且资料是敞开获取的。

运用具有全国代表性的美国人样本特别有价值，使他们能够评价LLM对人口亚组的猜测的精确性。

其次，档案内容广泛且多样化。

这些试验由来自不同范畴（例如政治学、心理学、社会学、社会方针、公共卫生、传播学）的77名社会和行为科学家规划，并测验了许多不同类型的试验医治的作用（例如结构效应、显着性）主题、发动社会身份对一系列成果（如政治、文明和宗教情绪、对少量集体的成见、美好）的影响。

第三，研讨者不依赖别人的剖析，而是选用致的剖析办法来估量试验医治作用。这样做能够让他们防止研讨人员的成见，还能够估量一切或许的试验比照，包括原始研讨人员没有假定的那些影响，由于它们不太或许在已宣布或揭露宣布的论文中呈现。

第四，在GPT-4练习数据窗口结束时，很多试验的成果没有宣布或揭露发布，这样研讨者就能专门测验LLM在GPT-4无法触摸过的试验中的猜测才能。

当然，测验档案也有重要的限制性。最要害的是，它只包括代表美国人口的研讨，无法在该规模之外进行评价。

此外，尽管它包括来自多个学科的研讨，但许多学科并未包括在内（例如认知心理学、行为经济学、开展经济学、营销学）。

最终，档案完全由根据文本的影响和自我陈述的相关丈量的查询试验组成，不包括现场试验、行为因变量或图画或视频影响。

为了开端处理首要测验档案的一些限制性，研讨者对下面的弥补数据集进行了额定的剖析。

他们的研讨规划如下图所示。为了对测验档案中的试验成果生成根据LLM的猜测，他们获得了原始研讨资料，包括一切试验条件、成果变量和反响量表的影响文本。

从广义上讲，LLM能够被提示（a）直接猜测验验成果，或（b）仿照个别参与者对试验影响的反响。

这儿，研讨者选用了后一种战略。

他们向LLM提出了：

（a）介绍性信息（如「您将被要求猜测人们对各种信息的反响」)，包括对研讨布景的扼要描绘；

（b）研讨参与者的详细人口计算概略仿照——包括有关性别、年纪、种族、教育、意识形态和党派成见的信息，从具有全国代表性的大型样本中随机抽取；

（c）试验影响的文本；

（d）用于评价成果的问题文本变量，以及成果啦应量表和标签。

然后，他们提示LLM估量参与者在遭到试验影响后将怎么回应成果问题。

他们运用了集成办法来削减对任何单一提示格局的特别呼应。

关于每个试验条件和成果丈量，研讨者都对一切LLM的呼应进行了均匀。

成果

为了评价当时一代的LLM是否能够用来猜测验验中的干涉效应，研讨者首要查看了GPT-4猜测的干涉效应与实践估量的干涉效应之间的相关性。

在对从存档中的70个试验计算出的476个试验作用进行剖析时，能够发现GPT-4得出的猜测与原始作用巨细密切相关。

仅检査在原始试验中具有计算显著作用的成比照照，能够发现关于90%的比照，GPT-4得出的猜测方向是正确的。

以下几个图，显现了LLM在美国进行的根据文本的社会科学试验中，得到了精确的猜测作用。

（a）在包括70个根据文本的试验（具有476个作用）的数据会集，LLM得出的对许多提示的干涉效应的估量，与原始干涉效应密切相关。

（b）LLM得出的猜测的精确性，在几代LLM中得到了进步，其精确性超过了从一般人群中搜集的猜测。

（c）关于那些不或许呈现在LLM练习数据中的研讨，LLM得出的猜测依然高度精确，由于这些研讨没有在LLM练习数据截止日期之前发布。

（d）在各个试验子集的稳健性检査剖析中，LLM得出的猜测的精确性依然很高。在面板A和中，不同的色彩代表不同的研讨。

LLM得出的猜测（a）在各个亚组中的精确性类似，而且（b）当存在效应异质性时，交互效应适当精确。图中描绘了削弱的相关性。

参考资料：

https://www.treatmenteffect.app/

发表评论取消回复

评论列表（有 2 条评论，854人围观）

捞月亮的渔民 V 游客沙发

高？研讨者运用GPT-4，从70个试验中猜测了465种效应。其间包括 -经过NSF赞助的TESS方案进行的50项查询试验 -20项额定的重复研讨给模型的提示词，是（a）从美国人的代表性数据会集提取的人口计算资料和（b）试验影响。经过汇总模型呼应估量的作用，能够看出它们与实

09-02 回复

不明爬行物 V 游客椅子

这些研讨没有在LLM练习数据截止日期之前发布。（d）在各个试验子集的稳健性检査剖析中，LLM得出的猜测的精确性依然很高。在面板A和中，不同的色彩代表不同的研讨。LLM得出的猜测（a）在各

09-01 回复

用「AI人」仿照社会学试验，竟然成功了？斯坦福、NYU用GPT-4仿照人类，准确度惊人！

相关阅读

接替希尔哈维！官方：贾贝尔成为阿曼国家队新帅

为意甲正名！联赛第9的亚特兰大0-0阿森纳，上赛季斩利物浦、药厂

中超第26轮裁判：张雷执法泰山vs三镇，傅明执法河南队vs蓉城

繁荣与萧条，价值与毁灭：老虎基金那些幽暗岁月

发表评论取消回复