谨慎使用大型语言模型:AI助手的便利性与潜在风险

最近,微软推出了其软件的新版本,其中包含一款人工智能(AI)助手Copilot,它能够执行多种任务,如总结在线会议中的对话、根据口头讨论提出支持或反对特定观点的论点,甚至能够撰写计算机代码。尽管这些技术的发展令人印象深刻且实用,但在使用这些大型语言模型(LLMs)时,我们必须谨慎行事。

谨慎使用大型语言模型:AI助手的便利性与潜在风险

大型语言模型的本质

大型语言模型(LLMs)是一种“深度学习”神经网络,旨在通过分析基于提供的提示的不同响应的概率来理解用户的意图。当用户输入提示时,LLM会检查文本并确定最可能的响应。

ChatGPT是LLM的一个杰出例子,可以回答关于各种主题的提示。然而,尽管它似乎具有丰富的知识回答,但ChatGPT实际上并不具备实际知识,其响应只是基于给定提示的最可能结果。

AI的过度依赖可能带来问题

尽管LLMs能够在提供详细任务描述的情况下提供高质量的响应,但我们不能盲目信任它们的准确性或可靠性。我们必须仔细评估和验证它们的输出,确保我们的初始提示在所提供的答案中得到反映。

在验证和验证LLM输出时,我们需要对主题有深入的了解。缺乏专业知识,我们无法提供必要的质量保证。

在使用LLMs填补我们自己知识中的差距时,情况变得尤为关键。在这种情况下,我们可能无法确定输出是否正确。这种情况可能出现在文本生成和编码中。

AI在会议和编码中的风险

使用AI参加会议并总结讨论在可靠性方面存在明显的风险。虽然会议记录基于文本的转录,但会议记录仍然以与LLMs中的其他文本相同的方式生成。它们仍然基于语言模式和对所说内容的概率,因此在能够采取行动之前,它们需要验证。

由于同音异义词,即发音相同但含义不同的单词,解释问题在AI中变得更加困难。人类擅长在谈话的上下文中理解意思。

但AI不擅长推断上下文,也不能理解微妙之处。因此,期望它根据潜在错误的文本生成论点带来更多问题。

如果我们使用AI生成计算机代码,验证就更加困难了。使用测试数据测试计算机代码是验证其功能的唯一可靠方法。尽管这表明代码按预期运行,但这并不能保证其行为符合实际预期。

在复杂情况下的验证挑战

验证代码输出是否符合此类微妙情况中期望的结果需要专业知识。

非程序员将对用于确保代码正确性的软件工程原则一无所知,例如规划、方法论、测试和文档编制。编程是一门复杂的学科,而软件工程是一门管理软件质量的领域。

结论

像ChatGPT和Copilot这样的LLMs是我们都能受益的强大工具。但我们必须小心,不要盲目信任它们提供的输出。

我们正处于基于这种技术的一场伟大革命的开端。AI具有无限的可能性,但它需要被塑造、检查和验证。目前,人类是唯一能够做到这一点的。