1.命题方向
智能计算
2.题目类别
计算类
3.题目名称
基于大模型的语料库问答
4.背景说明
【整体背景】
通用型大型语言模型(LLM)已经在许多任务上取得了令人瞩目的成果。一些开源的大模型普遍是在百科、公共网络语料、开源代码库等数据上训练过的,知识分布虽然很全面,但是在一个与公众网络差距较大的领域,这类语言模型并没有包含足够的领域知识。在许多特定的垂直业务领域中,由于其与通用领域之间存在较大差异,直接采用开源的通用型LLM经常无法满足该领域应用的要求。如医学、智能制造、金融、旅游等特定领域,这些领域对于模型的要求更多地集中于对领域知识和偏好的深入理解。以旅游领域为例,该类数据是一个相对容易获取且具备较高的数据价值,围绕某一城市获取相关旅游数据并提供一个便捷的人机交互方式,对于文旅产业的发展以及实现城市智能旅游助手等方面有着重要的意义。
【公司背景】
江苏万维艾斯网络智能产业创新中心有限公司由江苏省高等学校优秀科技创新团队(南京大学人工智能推理与学习团队)投资的人工智能产品研发和产业化平台。公司是国内首批以人工智能技术创新为核心价值的高新技术企业,旨在提高人工智能产业的自主创新能力,努力打造一个集国际技术转移、技术研发、国际合作、科技创业、咨询培训功能于一体的创新创业平台。
【业务背景】
智能问答系统是江苏万维艾斯网络智能产业创新中心有限公司的一个业务方向。当前存在这样一个任务,基于目标城市,梳理文旅数据构建语料库,通过大模型技术实现基于大模型的语料库问答。
5.项目说明
【问题说明】
基于给定目标城市,城市可由参赛选手自己选择。通过网络、书籍等方法整理收集目标城市的文旅数据,包括但不限于城市的历史、名人、景点、饮食特色、热门店铺等信息,构建语料库,并基于大模型微调的相关技术方法,实现基于大模型的语料库问答系统。其中对于大模型的选择可以选取一些开源模型,如GLM、modelscope开源的GPT-3中文版本、LLaMA、BLOOM等。
【用户期望】
基于目标城市的文旅数据,构建语料库并进行大模型的微调,实现基于大模型的语料库问答系统。通过问答系统实现用户输入以下问题,问题示例如下:
请推荐XX城市的三个最热门的景点?
XX景点位于什么地方?
介绍一下XX景点的历史?
XX附近有什么推荐的小吃店铺?
该问答系统能够给出上述问题的回复。
6.任务要求
【开发说明】
收集目标城市的相关文旅数据,进行语料库的构建(方法不限),并基于语料库进行大模型微调,实现基于该语料库的问答系统。
【技术要求与指标】
(1)详细方案内容完备,具有可行性和先进性;
(2)模型支持至少两轮问答;
(3)具备大模型的基础问答能力和基于语料库的问答能力。考核方法基于用户提供的语料范围,编制问题,对模型进行提问,对模型问答能力进行评估;
(4)具有交互界面,可通过浏览器进行访问,页面的访问延迟和问答的响应延迟不超过10s;
(5)语料库数据不低于3000条。
【提交材料】
(1)项目概要介绍;
(2)项目简介PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)企业要求提交的材料:
①语料库数据;
(6)团队自愿提交的其他补充材料。
【任务清单】
(1)完成算法设计与实验;
(2)完成提交材料内容。
【开发工具与数据接口】
(1)开发工具不限;
(2)数据接口待定。
7.其他
无
8.参考信息
无
9.评分要点
赛题评分要点见附件一:A 类企业命题初赛统一评分标准。