上海人工智能实验室昨天联合崖州湾国家实验室和中国农业大学,发布了我国首个种业大语言模型“丰登”(SeedLLM)。在上海人工智能实验室研发的大语言模型“书生·浦语”2.0基础上,科研团队输入了科技文献、产业实践报告等海量专业数据,训练出具有强大理解和分析能力的种业大模型。它能降低育种领域的学习门槛,提升从业人员的研究和实践效率,也为“人工智能+生物育种”开辟了探索路径,将为我国粮食安全提供科技支撑。
科研团队介绍,科学高效的生物育种对粮食安全和经济效益意义重大,但由于作物和畜类品种的多样性,育种信息一直缺乏统一的平台,数据知识呈现出“孤岛式”分布,给育种知识普及造成了壁垒。同时,由于生物育种涉及生物学、遗传学、气象学、土壤学等多学科交叉,专业人员在从事育种工作时不得不查阅众多领域的文献和数据,甚至需要编写代码进行数据访问,工作效率受到很大限制。
为此,上海人工智能实验室联合团队提出了大模型赋能生物育种这一思路,把“丰登”训练成具有“AI研究员”潜力的大模型。它可通过自主学习,发掘生物、遗传、气象和土壤间的复杂关联,形成新的知识结构。育种领域涉及的知识资源包含学术文献、田间日志和政府公示等,呈分散状态。针对这种情况,科研人员对相关知识进行了深度挖掘,将文本信息中提炼出的知识汇聚到模型权重中,再将分散在不同文献中的同一知识点进行整合归纳,最终使育种专业知识以结构化的方式呈现。
经联合攻关,这个大模型已具备品种选育、农艺性状、栽培技术、推广区域等4个领域的解释和回答能力。它采用自然语言对话接口,用户可直接提出问题,并获得易于理解的信息。
种业领域的标准化人工评估评测显示,这个大模型在最佳答案个数和综合分数上的表现超出预期,超越了业界公认的高性能大模型Claude 3和GPT-4,其综合得分是相关专业本科生的4.87倍。目前,隆平高科、正大集团、中国科学院、中国农业科学院、上海市农业科学院、广东省农业科学院、华中农业大学、华南农业大学、复旦大学等单位已加入“丰登”测试。
文/俞陶然
编辑/倪家宁