高质量数据的助攻,让微调大模型青出于蓝而胜于蓝!
海量数据的预训练,让通用大模型拥有十八般武艺,几乎能够轻松应对所有问题。但面向特定行业与场景,模型效果却难以让人满意,问题同样也是数据。
通过将特定数据“投喂”给通用大模型,在保持“通才”优势的基础上,微调大模型轻松兼容行业“专才”的优势,指哪打哪。但训练专属大模型,看似简单,背后需要从数据、算力到微调工具等一系列支撑。 讯飞星辰MaaS平台已汇集讯飞星火、Llama3、SD-XL等20+行业内知名的优质模型,无需复杂调整或重新训练,甚至零代码也可能完成微调。 围绕数据管理、模型微调、评估、托管、推理服务,讯飞星辰MaaS平台提供了完善大模型全生命周期管理,覆盖内容创作、代码、逻辑推理等多场景。近期,模型与数据集丰富度,以及功能特性再次完成全新升级。
微调模型更丰富:支持星火系列大模型及多个优质开源大模型
数据集构建更轻松:基本支持行业主流数据集,可实现数据批量处理
微调体验显著提升:提供灵活可用的全栈工具链,让大模型效果符合预期
01丰富模型,满足多样业务场景
讯飞星辰MaaS平台已汇集星火、Llama3等行业优质模型,让每一个场景需求都能找到合适的模型搭子。本次升级,新加入了Spark Max、Spark Mini、Spark Tiny等星火自研模型,让模型“队伍”再次壮大。
Spark Max适用于对内容质量和知识专业性要求高的业务场景,如高端内容创作、专业知识服务等。Spark Tiny的部署和精调成本在星火系列模型中最具性价比,在对成本较为敏感但又需要一定性能支持的场景表现良好,比如小型创业公司的在线客服系统,能在满足性能需求的同时节省成本。
同时,平台还引入了书生系列、Qwen2.5系列等多个开源模型的精调,给开发者提供更多选择。
模型学习如何在特定任务中做出正确的判断?首发文本分类的bert模型,可以分析文本特征后进行分类,将数据提供给bert模型进行微调后的分类器效果非常精准,而且能够直接在Spark API中进行应用。
02夯实数据工程,提效加速更易用
数据量的大小和质量高低是大模型产业发展的关键,也是决定大模型是「专家」或是「砖家」的一条分界线。大模型微调过程中,数据集就像老师教课时用的书和资料。这些书和资料里有很多例子和题目,可以帮助学生(也就是大模型)更好地学习和理解新知识。
通过选择合适的数据集构建方法,并遵循关键步骤进行操作,可以显著提升微调效果,使模型更好地适应新任务。但开发者在数据构建中很容易遇到不少难题:只有文本数据、无问答对数据,数据量少,没办法判断数据质量、不知道如何优化数据集、积累数据困难。
基于问答抽取、数据增强、prompt工程等维度出发,讯飞星辰MaaS平台构建了全方位的数据工程能力,帮助用户轻松构建高质量数据。以数据增强为例,支持常见文本生成、语义理解、知识问答数据泛化,扩展数据集数量;支持混合训练(平台自动添加数据集)。
大模型微调过程中,因为不同的任务需求、数据来源和处理方式会导致数据集的结构和内容有所不同。不同的微调框架可能支持不同的数据集格式。
现在,讯飞星辰MaaS平台的数据集格式扩充,已支持ShareGPT、Alpaca格式数据集,实现了对几乎所有行业主流数据集格式的支持。无论你的数据集什么样,在讯飞星辰MaaS平台上都能训。
如果你不想或者来不及准备测试集,也不用慌。讯飞星辰MaaS平台支持从训练集中拆分出一定比例,在训练完成后,平台会自动把拆出来的这部分数据拿去做验证,就可以直观的看到微调效果展示。
当我们有大量数据需要处理时,而不是一次只处理一条数据,可以把很多数据一起“放”进模型中,让模型一次处理多条数据。现在,讯飞星辰MaaS平台最多支持10个模型同时在线批量推理,大大提高了数据处理的效率。
03扩展功能边界,辅助创新更专业
选好了合适模型,数据准备好后,进入到具体的微调环节,如何让模型的功能更强大、效果符合预期?讯飞星辰MaaS平台还提供了多种让人惊喜的功能。
•兼容OpenAI协议,「丝滑」搬家国产大模型
今年6月,OpenAI 停止向中国大陆地区提供 API 服务,对于依赖 OpenAI API 构建产品和服务的企业来说,无疑是一次技术上的挑战。然而国内大模型已经大幅缩小了与 OpenAI 的差距,可以满足大部分日常的场景。10月24日发布的讯飞星火4.0 Turbo七项核心能力在中文领域已全面超过GPT-4 Turbo,代码能力和数学能力超越GPT-4o。
方便开发者进行能力迁移,讯飞星辰MaaS平台现已兼容OpenAI协议,用户之前用OpenAI的能力,可以一键切换成星火的能力,实现「丝滑」搬家。
•支持function_call 精调训练,高效调用独立工具
由于大模型的训练数据有时间期限,无法了解最近发生的事情。因此,当用户询问模型一些它不了解的数据信息时,模型本身就无法给出答案。此时,function_call 就像放大器一样,通过调用外部工具,增强大语言模型的能力。
使用function_call,可以让模型能够理解什么时候需要调用函数、调用哪种函数,以及如何正确地传递参数给函数,从而增强模型在实际应用中的实用性,使其能够更好地与外部工具或系统进行交互。
•支持Loss曲线展示和裁判员模型效果评估对比,模型效果随时评估
大模型的调试评估不能等精调完再检查,要在过程中就把握好。
讯飞星火系列模型已支持Loss曲线展示,在微调模态训练过程中即可通过精细化的数据配比和动态调整,在提升目标领域能力的同时,最大限度避免灾难性遗忘,保持模型的全面性能。
如果你选择了多个大模型进行微调训练,不知道最终该用哪一个。讯飞星辰MaaS平台提供了裁判员打分模型,基于星火最优模型提供的评估报告,评判模型效果的好坏。
面向专业开发者的更多需求,讯飞星辰MaaS平台还支持部分高级参数,支持分词长度、Lora Merge,UnSloth等特性配置。
讯飞星辰MaaS平台之外,讯飞星火还构建了丰富且高性价比API矩阵。目前,Spark Pro版本每百万token仅需5元,并支持128K上下文;Ultra和Max 均提供Batch版本 API。
全部0条评论
快来发表一下你的评论吧 !