分享
23.08.15_大模型赛道的技术和应用分析(残缺)
输入“/”快速插入内容
23.08.15_大模型赛道的技术和应用分析(残缺)
飞书用户5849
飞书用户8396
2023年10月10日修改
三个月前思考了一次
🤔 投身大模型,要想清楚的三个问题_23.03.30
(8月7日做了一次增补校正)
现在外界情况和内部认知都有变化,所以重新思考一遍
欢迎拍砖,一条批评胜过百条赞美(建议PC阅读,左侧有导航,右侧有评论)
本文已收录至
🐴 Martin's Wiki
更新记录
大模型技术追赶现状
残缺GPT-3.5已经不是问题
•
首先knowhow在快速扩散,主流玩家对模型的基本流程和认知都比较清晰了(虽然仍有代差)
•
其次Llama2为代表的开源模型在不断抬高技术水位
◦
一方面是基于Llama2涌现出来的学术实践
◦
另一方面是确实Llama2节约了大量的预训练成本,直接进行到
加训环节
,让模型训练时间提速
◦
但开源模型,特别是Llama2只是短期方案,他的基础是存在缺陷的,即
我们无法得知原始任何开源模型的数据集,也因此无法进行相应的调优
◦
举个例子,当模型出现
幻觉问题
,你觉得真的是幻觉吗?
会不会原始预训练数据中就不存在这部分知识
?不知道,模型永远有一大部分是黑洞,这是任何一个追求卓越的大模型玩家无法容忍的。
•
但开源模型再有差距,也实实在在实现了加速
◦
在难度较低的写作、知识领域,一个像模像样的“ChatBot”已经问题不大
完整GPT3.5仍然有距离
•
在
reasoning
,特别是具备庞大潜力的Agent领域,不管是自研的基座模型,还是基于Llama2的模型,表现还很差
•
哪怕有一些研究其实在专门针对Agent相关进行定向微调,但还没看到特别可应用的效果
◦
例如:
TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS
•
此外,也有一些基于Agent领域做的bench提现了这个情况
◦
例如:
AgentBench: Evaluating LLMs as Agents
•
这部分的能力其实国内的玩家还没够到,但也是近期预期内可以够到的
◦
国内的主流玩家都开始介入数学、代码领域的Alignment数据制作环节了
◦
同时预训练、上下文窗口,多轮对话角色遵循等也在开展
◦
甚至大家同时也很狂野地在并行在做多模态,大厂有钱就是好哈哈
真正比较遥远的是GPT-4水平,全方位的困难
•
当然前提是大家用真正的评测去对齐
•
如果还是刷刷MMLU、C-evals这些可以hack的评测集然后宣传达到GPT-4,其实很快国内GPT-4就会出现了
Knowhow
•
knowhow已经不再成为最重要的因素
•
一方面,整个技术圈中knowhow的迁移和贬值速度越来越快
◦
仅说我最熟悉的Alignment模块,我是亲眼看到一篇篇开源论文追着屁股发,那种先行者恐慌和焦虑如影随形。
•
另一方面,除非你把OpenAI的全部团队完完整整挖过来,否则最多只有框架性或局部knowhow
◦
一般来说从OpenAI或meta,google挖到一两个关键人物可以获得这样层级的know
•
所以这种时候最关键的反而是
◦
如果已有
knowhow
情况下
▪
如何快速搭建团队,分工分头行动,用并行方式最快搞定制约资源及落地