AI基础

什么是大语言模型(LLM)?用大白话讲清楚

大语言模型到底是什么?为什么 ChatGPT 能聊天、写代码、翻译?本文用生动的比喻和例子,带你彻底搞懂 LLM 的原理。

发布于 2025/1/20

你有没有想过,为什么 ChatGPT 能回答你关于量子力学的问题,还能帮你写一首藏头诗,甚至调出一段 Python 代码?这背后的核心技术,就是大语言模型(LLM,Large Language Model)

今天我们用最通俗的语言,把这件事讲清楚。

一个超级书虫的比喻

想象一个人,从出生开始就疯狂阅读。他读了互联网上几乎所有的文字——维基百科、新闻、小说、论文、代码注释、电商评论……数量之大,就算你一秒读一个字,也要读几千年才能读完。

读完这些之后,他虽然没有”真正理解”每一件事,但他对语言的规律有了极其深刻的感觉。他知道”今天天气真”后面大概率跟着”好”或”差”,知道”一旦……就……”是个典型的条件句,知道写技术文档要用什么语气,写情书要用什么措辞。

这个超级书虫,就是大语言模型的一个直觉比喻。

LLM 到底在做什么:预测下一个词

LLM 的核心能力,说起来其实很简单:预测下一个 token(词或字)

给它”今天天气真”,它预测下一个字最可能是”好”。

给它”def calculate_sum(a, b):“,它预测下一行是” return a + b”。

给它”请把下面这段话翻译成英语:“,它知道接下来应该输出翻译结果。

这个”预测下一个词”的任务,看起来很简单,但当你用海量数据反复训练之后,模型就不得不学会大量关于世界的知识——因为只有真正”理解”了上下文,才能准确预测下一个词。

参数:1.8 万亿个小旋钮

GPT-4 据称有约 1.8 万亿个参数。参数是什么?

你可以把每个参数想象成一个小旋钮,控制着模型对某种模式的敏感程度。训练过程,就是通过看无数例子,把这 1.8 万亿个旋钮慢慢调到”最优”位置——让模型预测得越来越准。

调参数的过程叫梯度下降,本质上是:预测错了就微调旋钮,预测对了就保持。反复亿万次之后,这些旋钮就形成了一个能处理几乎任何语言任务的复杂系统。

这个训练过程需要大量的算力——GPT-4 的训练估计花费了数亿美元的计算资源,这也是为什么只有少数科技巨头才能训练最前沿的大模型。

为什么它会写代码?会翻译?会做数学?

很多人会问:LLM 是”语言”模型,为什么能写代码、做数学题、翻译外语?

答案是:这些都是模式补全

  • 代码有它自己的语法规律,训练数据里有大量代码,模型学会了代码的模式。
  • 翻译是把一种语言的模式映射到另一种语言,训练数据里有大量双语文本。
  • 数学推导有固定的逻辑链条,模型在足够多的例子中学会了这些链条。

这并不是说模型”真的懂”这些领域——它更像是一个极度精确的模式匹配机器,只不过这台机器足够强大,强大到看起来像是”理解”了。

一个重要的误解:LLM 不是在”思考”

很多人会把 LLM 的输出理解为”AI 在思考”。这是一个常见的误解。

LLM 不思考,它生成。它没有意识,没有感情,也没有目标。它做的事情,本质上是:根据输入的文字,用概率生成最合理的续写。

这就是为什么 LLM 有时候会”一本正经地胡说八道”——它只是在生成看起来合理的文字,而不是在核查事实。它不知道自己说错了,因为它根本没有”知道”的能力。

这也是为什么使用 LLM 时,批判性思维很重要。把它当工具,而不是权威。

这对我意味着什么?

了解 LLM 的原理,能帮你更聪明地使用它:

  • 给它足够的上下文:它是预测机器,信息越多,预测越准。
  • 不要盲目相信:它的输出是”看起来合理的文字”,而非保证准确的事实。
  • 学会引导:换不同的方式提问,往往能得到完全不同(有时候好得多)的结果。
  • 善用它的强项:写作、改稿、头脑风暴、代码辅助——这些场景里 LLM 确实能大幅提升效率。

大语言模型是近十年来最重要的技术突破之一,正在重塑几乎每一个行业。搞懂它的原理,你就比大多数人多了一双看清这场变革的眼睛。