谨慎使用大型语言模型：AI助手的便利性与潜在风险

最近，微软推出了其软件的新版本，其中包含一款人工智能（AI）助手Copilot，它能够执行多种任务，如总结在线会议中的对话、根据口头讨论提出支持或反对特定观点的论点，甚至能够撰写计算机代码。尽管这些技术的发展令人印象深刻且实用，但在使用这些大型语言模型（LLMs）时，我们必须谨慎行事。

大型语言模型的本质

大型语言模型（LLMs）是一种“深度学习”神经网络，旨在通过分析基于提供的提示的不同响应的概率来理解用户的意图。当用户输入提示时，LLM会检查文本并确定最可能的响应。

ChatGPT是LLM的一个杰出例子，可以回答关于各种主题的提示。然而，尽管它似乎具有丰富的知识回答，但ChatGPT实际上并不具备实际知识，其响应只是基于给定提示的最可能结果。

尽管LLMs能够在提供详细任务描述的情况下提供高质量的响应，但我们不能盲目信任它们的准确性或可靠性。我们必须仔细评估和验证它们的输出，确保我们的初始提示在所提供的答案中得到反映。

在验证和验证LLM输出时，我们需要对主题有深入的了解。缺乏专业知识，我们无法提供必要的质量保证。

在使用LLMs填补我们自己知识中的差距时，情况变得尤为关键。在这种情况下，我们可能无法确定输出是否正确。这种情况可能出现在文本生成和编码中。

使用AI参加会议并总结讨论在可靠性方面存在明显的风险。虽然会议记录基于文本的转录，但会议记录仍然以与LLMs中的其他文本相同的方式生成。它们仍然基于语言模式和对所说内容的概率，因此在能够采取行动之前，它们需要验证。

由于同音异义词，即发音相同但含义不同的单词，解释问题在AI中变得更加困难。人类擅长在谈话的上下文中理解意思。

但AI不擅长推断上下文，也不能理解微妙之处。因此，期望它根据潜在错误的文本生成论点带来更多问题。

如果我们使用AI生成计算机代码，验证就更加困难了。使用测试数据测试计算机代码是验证其功能的唯一可靠方法。尽管这表明代码按预期运行，但这并不能保证其行为符合实际预期。

验证代码输出是否符合此类微妙情况中期望的结果需要专业知识。

非程序员将对用于确保代码正确性的软件工程原则一无所知，例如规划、方法论、测试和文档编制。编程是一门复杂的学科，而软件工程是一门管理软件质量的领域。

像ChatGPT和Copilot这样的LLMs是我们都能受益的强大工具。但我们必须小心，不要盲目信任它们提供的输出。

我们正处于基于这种技术的一场伟大革命的开端。AI具有无限的可能性，但它需要被塑造、检查和验证。目前，人类是唯一能够做到这一点的。