大模型的那些事儿，专门做了个29页的ppt

咱们今天来聊聊大模型的那些事儿，专门做了个29页的PPT来梳理。报告主要讲大模型的技术体系，从基本的原理一直讲到实际的开发应用，把大模型从理论到落地的逻辑都给盘清楚了。咱们先说大模型能干啥，它能写故事、编代码，甚至还能做算法，本事挺大。语言模型的核心其实就是算概率分布，但直接算所有词连起来的概率太难了，参数量太多根本搞不定。后来大家就用链式法则，把联合概率拆成一个一个的条件概率来算。最早的 N 元模型就是说一个词只跟前面几个词有关，这样能省点参数量。不过这模型也有毛病，没法处理长句子，还得靠人工规则平滑数据，单词全是独立的也没考虑它们的相似性。为了解决这些问题，后来就有了神经语言模型。它把那些离散的独热编码换成了稠密的词向量，再加上循环或者卷积网络，既解决了数据稀疏的问题，又能建模长距离的关系。它的参数量是各层全连接层的和，计算的时候还得加个偏置项。预训练语言模型算是开启了新篇章，像 ELMo 这种动态词向量模型打了个基础，GPT 和 BERT 用了 Transformer 架构后，就把自然语言处理带进了预训练加微调的时代，适配各种细分场景就更方便了。大模型要想在特定领域好用，微调是关键手段。虽然通用模型基础不错，但在刑侦、择偶这些地方就得专门强化一些特征。LoRA 这个微调技术就是为了让模型能高效地适应不同场景。实际用的时候也有问题，比如有时候会“说瞎话”，对没根据的问题也能说得头头是道。得想办法防着点。提示词设计也很讲究，得给个清晰的指令、留点思考时间。比如可以用分隔符、要求结构化输出、给点少样本例子、指定一下步骤啥的。 Prompt 设计好了还能防止提示词被注入进去，这样答案才更准。做个问答助手大概分八大步：先规划需求、弄好数据建个向量库、接入大模型 API、实现功能迭代、开发界面、部署上线、最后维护改进。 LangChain 这个框架挺好用的，能把文档加载、切分、向量化成知识库。然后根据相似度匹配相关文本当上下文，结合提示词发给大模型生成答案。咱们也可以集成 GPT、星火这些不同的模型来用。最后声明一下啊：咱尊重知识产权和数据隐私，就是做个内容收集整理分享。内容都来自网络归原机构所有是公开渠道合法取得的。要是侵权了请联系我们删帖；对内容有疑问的话直接找发布机构沟通吧。