个人认为,大模型其实就是一种泛化学习、理解能力模型;很像我们人类,在本身具备有学习能力的模型基础上,就要看这个“人”要学习、掌握哪些“知识”,将来从事哪个方向的“职业”。“知识”在这里就是训练数据、“学习和掌握”过程就是进行数据训练和模型评估、“职业”就是问题中所述的要成为什么样的大模型(通用性、行业行、企业性),以及在往下的划分如日志分析及预警、数据库sql解释和自助式生成、提炼知识点形成知识图谱、风控领域等场景应用。1.
通用大模型、行业运维大模型、企业运维大模型的研究工作,可从如下几方面开展(仅为个人意见,大家一起探讨):
1. 找到适用场景和能力边界。定位要建立多大能力的大模型,考虑周期、收益比;
2. 建立大模型算法库。理清当前有哪些大模型,特点及进展?大家知道的大模型有GPT-3,4、T5、Megatron-LM、XLNet,开源大模型有CodeLlama-7B、ChatGLm3-6b、Baichuan2-13B等;
3. 找到数据标准和数据边界。建立有效数据训练集,定好要收集的数据标准范畴(需考虑到数据采集合规性),以及在数据量不够的情况下,如何进行训练集的合成,以达到训练要求;
4 找到大模型评价标准和评估指标。有了标准和指标,方可评估大模型到了什么程度和精度可对外提供模型服务能力;
5. 找到可纠错的反馈机制。在大模型给出有违实际的结论时,能够及时告警和纠错,有点像监控系统的建设(监控指标、监控告警);
6. 成本控制。大模型很“费钱”,可按照行业大模型+公司小模型的形式搭建,有点行业云、混合云、私有云的构建过程。
7. 风险提示:大模型具有不确定性,要有必要的模型应用风险提示。
正如开头“人”的比喻,怎么培养、交给什么知识、投入多大成本等决定了模型的能力边界。至于大模型的能力到底是通用级、行业级、公司级,就要看模型的算法、训练集了。
该课所述的日志分析为大模型切入点就是利用大模型的泛化能力帮助运维人员提炼更为详尽的分析项,可减少运维人员的专业要求、精力和时间,难点在于划分好数据收集的边界,以及哪种算法,再就是进行训练和微调。