咱们今天来聊聊大模型的那些事儿,专门做了个29页的PPT来梳理。报告主要讲大模型的技术体系,从基本的原理一直讲到实际的开发应用,把大模型从理论到落地的逻辑都给盘清楚了。 咱们先说大模型能干啥,它能写故事、编代码,甚至还能做算法,本事挺大。 语言模型的核心其实就是算概率分布,但直接算所有词连起来的概率太难了,参数量太多根本搞不定。后来大家就用链式法则,把联合概率拆成一个一个的条件概率来算。 最早的 N 元模型就是说一个词只跟前面几个词有关,这样能省点参数量。不过这模型也有毛病,没法处理长句子,还得靠人工规则平滑数据,单词全是独立的也没考虑它们的相似性。 为了解决这些问题,后来就有了神经语言模型。它把那些离散的独热编码换成了稠密的词向量,再加上循环或者卷积网络,既解决了数据稀疏的问题,又能建模长距离的关系。它的参数量是各层全连接层的和,计算的时候还得加个偏置项。 预训练语言模型算是开启了新篇章,像 ELMo 这种动态词向量模型打了个基础,GPT 和 BERT 用了 Transformer 架构后,就把自然语言处理带进了预训练加微调的时代,适配各种细分场景就更方便了。 大模型要想在特定领域好用,微调是关键手段。虽然通用模型基础不错,但在刑侦、择偶这些地方就得专门强化一些特征。LoRA 这个微调技术就是为了让模型能高效地适应不同场景。 实际用的时候也有问题,比如有时候会“说瞎话”,对没根据的问题也能说得头头是道。得想办法防着点。提示词设计也很讲究,得给个清晰的指令、留点思考时间。 比如可以用分隔符、要求结构化输出、给点少样本例子、指定一下步骤啥的。 Prompt 设计好了还能防止提示词被注入进去,这样答案才更准。 做个问答助手大概分八大步:先规划需求、弄好数据建个向量库、接入大模型 API、实现功能迭代、开发界面、部署上线、最后维护改进。 LangChain 这个框架挺好用的,能把文档加载、切分、向量化成知识库。 然后根据相似度匹配相关文本当上下文,结合提示词发给大模型生成答案。 咱们也可以集成 GPT、星火这些不同的模型来用。 最后声明一下啊:咱尊重知识产权和数据隐私,就是做个内容收集整理分享。内容都来自网络归原机构所有是公开渠道合法取得的。 要是侵权了请联系我们删帖;对内容有疑问的话直接找发布机构沟通吧。