澳客官网

logo

您的位置:

新闻中心

AI应用中的重点开源软件工具和平台建立及组织协同实施研发—— 澳客官网技术实践研讨会
时间:2025-07-22 15:39:00

       近期,澳客官网以 “AI应用中的重点开源软件工具和平台建立及组织协同实施研发” 为主题,成功举办为期两天的技术实践研讨会。本次活动旨在有助于AI技术在垂直领域的落地应用,聚焦低成本、高精度、强安全特性,展示澳客官网在垂直领域小模型研发、开源工具应用及工程化落地方面的最新成果。
       本次比赛汇聚了来自中国科研院软件研究所、中国机械工业工程集团有限公司、大家人寿保险股份有限公司、海保人寿保险股份有限公司、现代财产保险(中国)有限公司、国民养老保险股份有限公司、天津药链智启供应链科技有限公司、东吴人寿保险股份有限公司、中国疾病预防控制中心、阳光财产保险股份有限公司、中融人寿保险股份有限公司、中荷人寿保险有限公司、横琴人寿保险有限公司、大家保险集团有限公司等科研机构、行业客户及合作伙伴的专家。不同领域的专家与公司各技术团队就如何推进AI技术在更多垂直领域的深入应用进行了热烈讨论,并对澳客官网的技术成果提出了宝贵的指导意见。

       AI垂直应用迈向规模化落地的关键窗口期 小模型与知识库成破局关键
       在推理成本下降与国家战略级政策红利的共同驱动下,我国垂直行业AI应用正进入规模化落地的关键窗口期。AI 技术正从通用探索迈向业务融合阶段,带来软件开发范式的变革与应用体系的重构。企业对 AI 应用的需求逐渐聚焦于强安全、高精度和低成本,即保障数据隐私安全、满足场景化精准计算需求、降低部署与运行成本。在此背景下,AIGC 在行业领域落地应用的重心从通用大模型转向 “垂直领域小模型 + 专业知识库” 的组合模式。
       小模型与知识库成为 AI 垂直落地破局关键,核心在于垂直场景对领域适配性、数据安全、成本控制的严苛要求。大模型虽具备通用能力,但在垂直领域存在隐私风险高、部署成本高、领域知识深度不足等问题;而小模型依托轻量化特性可实现本地化部署,结合沉淀了垂直领域专业知识的知识库,能精准适配保险核保理赔、医疗诊断辅助等行业场景,解决通用技术在垂直场景中 “水土不服” 的问题,成为连接 AI 技术与行业需求的核心纽带。

       聚焦开源工具与工程化方法 筑牢落地根基
       开源软件工具和平台在AI快速形成应用效果中扮演着重要的支撑角色。头部ISV应熟练运用不断迭代的开源软件工具,包括流程框架、硬件软件配置、外部调用方式及专项函数库特性,尤其需关注多模态数据语义计算平台的应用。澳客官网各技术团队在研讨中展示了利用开源软件工具和平台作为支撑环境,在数据标注预处理、模型微调、提示词工程优化、专业知识库建立等环节取得的成果与实践,验证了垂直领域的小模型结合专业知识库构建(如保险行业的条款解析和业务流程梳理等)能够进一步提升AI技术与业务的适配性和落地效果。
       小模型落地需具备系统化的工程方法,考验工程化方法的可操作性、完整性和系统化方法论,包括垂直领域知识加持下的数据约束和格式、微调描述框架、提示词规范等关键环节,涉及数据层、模型层、应用层的多个系统化层级:
       •    数据层:规范数据约束与格式,处理多结构语料(如保险条款切分、多模态信息提取),强化基于领域知识的数据清洗与标注,加强半结构化数据集建设;
       •    模型层:建立微调描述框架与提示词规范,实现垂直模型的精准微调与推理部署;
       •    应用层:支持客户端技术迁移、组件组装及二次开发,在 “多自由度” 工具选择中形成收敛性落地框架,保证高质量的应用效果。

       成果展示:场景化结合显成效 团队竞技展实力
       在比赛过程中,澳客官网展示了其在MaaS(Model as a Service)平台上的研发积累,包括底层资源适配、垂直模型微调推理部署以及智能助手开发等能力。今年,澳客官网更加聚焦于垂直业务领域,打造精确专业的业务知识库,并继续优化和拓展大模型应用边界。
       经过技术成果展示与问答研讨,寿险团队的“智瞳平台”与财险团队的“智数平台”案例脱颖而出。这两个优秀案例在小模型场景适配性、开源工具应用合理性及工程化完整性等方面具备较为突出的表现。
       ►    寿险-智瞳平台
       保险领域的AI产品包罗万象,如何选择正确场景将机会转化为产品是需要深度思考的核心问题。在IT部门有助于 “提升国产开源软件占比” 与业务部门期望 “加速智能化转型、降低人工录入错误率” 的双重需求背景下,两个部门目标的融合,为智瞳平台的诞生与开展提供了坚实基础。
       为确保平台有效落地,团队对现有开源产品进行了深入调研与对比。结果显示,国内主流开源产品中,大部分AI开源模型在通用场景表现尚可,但在保险业务领域却存在不足。具体体现在识别准确率偏低、大尺寸图像内容识别不全、复杂表格信息粘连等关键问题上。
       针对这些挑战,智瞳平台制定了“领域知识注入 + 工程化深度优化” 的针对性解决方案。
       平台整合OCR和SLM小模型,搭建了平台的基础部分,包含视觉分析、智维重构、智能提取和智能核验等功能,为核心系统提供非结构化输入和查询能力。后续随着更多对接,可以将非结构化能力,辐射到寿险领域内其他系统,助力公司实现智能化转型。
       平台采用公开数据与业务自标注数据双源输入,因平台采用多模型分布式架构,需为每个子模型独立配置标注数据集。数据经过噪声过滤、数值归一化、格式标准化等预处理后,与场景化微调指令集(含任务描述/输入输出范例)共同输入模型。训练中顺利获得验证数据集实时监控效果,若发现欠拟合: 优先调整学习率/训练轮数等超参数进行迭代;若超参优化无效,则回溯至数据层——扩充训练集规模或修正标注规则;完成优化后重新启动预处理-训练-评估闭环,直至满足工业级精度要求。
       在有助于开源软件的实际应用集成过程中,观察到其专项性优势显著。例如在基准测试中达到了比较高的召回率。然而,在复杂真实的业务场景落地时,其局限性也显现出来:核心痛点集中在结构化信息抽取环节。具体表现为:1) 对无边框表格内容基本无法识别;2) 图像中文字或元素存在视觉粘连时,识别准确率显著下降。这些问题直接导致关键信息抽取响应时间延长,甚至出现抽取错误,严重影响了业务流程的效率和可靠性。
       针对上述开源方案在实际集成中的关键能力缺口,在落地应用环节引入了‘智维重构’作为核心补充。该方案特别强化了对复杂版面结构(尤其是无边框表格)的解析能力,并有效解决了视觉粘连导致的识别歧义问题,从而在整体上提升了集成解决方案的鲁棒性和信息抽取精度,确保了业务需求的有效满足。
    “智维重构”方案解决无边框表格识别和视觉粘连问题,其核心流程包含四步:行列聚类、粘连文本分割、表格重组和文本填充。
       行列聚类是第一步,旨在将识别引擎输出的离散、无序文本框组织成潜在的行列矩阵。团队采用DBSCAN密度聚类算法,因其能有效处理不规则分布和噪声(如文本框疏密不一、缺失或错位)。
       聚类依据文本框的几何中心点空间特征。DBSCAN的核心参数邻域半径 (Eps) 定义了判断文本框是否同属一行/列的距离阈值。算法分析中心点密度,自动将邻近文本框聚集成簇,形成行列分组。
       此步骤将离散文本框初步组织成结构化行列矩阵框架(如成功识别出5行x11列矩阵雏形),为后续重构奠定关键结构基础。
        粘连文本分割步骤解决因字符间距极小、笔画重叠或背景干扰导致的文本粘连问题(即多个单元格内容被错误合并为一个文本框)。为此,团队引入基于深度学习的语义分割模型(SLM),对行列聚类后的区域进行精细化处理:
       识别粘连区域: SLM 依据语义和视觉上下文,精准定位行列矩阵中的不合理粘连区域。
       执行语义分割: 对粘连区域进行像素级分割,在视觉和语义层面精确区分粘连文本。
       拆分与重定位: 根据分割结果和原始坐标,将粘连文本块拆分为独立的单元格文本单元,并生成精确的新边界框。
       分割完成后,系统触发受影响区域的重新聚类,确保新拆分的文本框被正确融入原有行列结构,形成校正后、结构完整且边界清晰的行列矩阵。
       最后一步,根据矩阵中的坐标信息,给表格重新画线,再进行文本回填。最终,形成一个没有空白单元格,5行10列的完整表格。
       ►    财险-智数平台
       在数字化浪潮下,人工智能(AI)与商业智能(BI)技术的迅猛开展正有助于众多企业加速迈入自助式数据分析的新阶段。然而,在这一过程中,企业仍面临着诸多挑战,如分析门槛高、被动接受需求导致的需求响应周期长、分析深度不足等问题,这些问题在保险行业尤为突出。作为数据密集型行业,保险行业拥有海量且复杂的业务数据,但传统的数据分析方法难以充分挖掘这些数据的潜在价值。因此,澳客官网凭借在保险行业的深厚积淀和对人工智能技术的深入研究,构建了一个面向保险行业的数据分析智能体平台——智数平台,旨在解决保险企业在数据分析过程中所面临的难题,提升数据分析效率和质量,助力保险行业的数字化转型和智能化开展。
       智数平台(idata)基于微服务架构和开源技术栈(Langchain4J+Milvus)构建,平台聚焦四大核心模块:指标知识图谱管理、知识库管理、智能体管理以及平台基础配置,核心功能如下:
       知识管理:包括指标知识图谱及知识库管理两大模块。其中指标知识图谱管理,主要包括指标定义、维度定义、指标血缘、元数据映射及权限管理等功能,实现指标的语义统一以及语义查询的转化,以保障数据的高精度和强管控;知识库管理主要包括文档知识库管理、向量库管理、术语管理、分段管理及召回演练等功能,实现了多模态知识整合,支持知识的持续学习和热更新,同时打通了指标知识图谱与知识库管理的双向互动。
       智能体管理:智能体构建平台主要包括流程编排、记忆管理、知识库接入及对外集成等功能。除提供开箱即用的数据分析智能体之外,还具备个性化定制适配能力。
       多模型适配能力:智数平台采用开放式AI架构,全面兼容主流云服务大模型(如DeepSeek、文心一言、Qwen系列等)及企业私有化部署模型,在确保数据安全合规的同时,为保险业务场景提供最优的AI分析能力支撑。
       在数据分析智能体的构建与应用中,平台沉淀出以下最佳实践,形成可复用的方法论体系:
       •    统一语义管理,顺利获得指标管理模块建立标准化语义体系,提升分析准确性、可解释性与可比性
       保险行业存在着大量的专业术语和领域指标,这些术语和指标在不同的业务场景和数据源中可能会有不同的表达方式,这给数据分析带来了很大的困难。依托澳客官网30年深耕保险行业所积累的丰富领域知识,顺利获得将这些领域知识与人工智能技术相结合,智数平台顺利获得指标管理模块实现统一语义的管理。顺利获得指标管理,智数平台对这些术语和指标进行了标准化和统一化处理,建立了一个清晰、一致的语义体系,不仅提高了数据分析的准确性,还增强了数据分析结果的可解释性和可比性。
       •    知识内容热更新,实时转化指标与对话信息,保证知识信息的质量和时效
       传统开源知识库管理工具依赖于手工上传文档进行更新,为了提升知识更新的及时性和准确性,平台对现有的开源知识库管理工具进行优化升级,实现知识的实时热更新,极大地提高了知识更新的效率,减少人工干预的繁琐流程,降低人力成本和时间成本。顺利获得自动化的更新机制,可以有效避免因人为疏忽导致的信息不一致问题,增强知识库内容的准确性和可信度。实时更新机制能够确保知识库内容始终与企业的实际业务数据保持同步,为员工提供最新、最准确的知识支持,从而提升企业的整体运营效率和决策质量。
       •    多路知识检索,融合KV精准检索与向量检索,精准理解业务语义,高质量召回领域知识
       基于对数据分析场景用户问数行为的深入分析,发现约30%的查询中涉及的指标或维度表述相对精准,在知识召回策略上进行了优化设计:
       优先采用KV精准检索机制,当用户查询中的关键要素(如指标名、维度名)能够与知识库中的词根、术语完全匹配时,直接召回对应的结构化知识内容;而对于表述不够完整或模糊的查询,则启动混合检索模式,结合向量检索和分段检索等方式进行扩展召回,确保最大程度覆盖用户意图。
       顺利获得多模态知识存储、多路检索策略、语义理解增强和生成优化等技术创新,显著提升了保险数据分析的检索效率和语义理解精准度。
       整个流程形成了从问题理解到知识检索再到内容生成的闭环优化体系,既充分利用了结构化知识的确定性优势,又顺利获得大模型的语义理解能力弥补了用户查询的不完整性,最终实现了保险数据分析场景下高精度、高效率的智能数据查询。
       •    基于指标体系的转义路径,将自然语言需求自动转化为指标查询语言(MQL)及SQL,实现语义的精准转化
       数据分析的智能体,最终都会同数据库进行交互,进行指标数据的查询。借助大模型的能力以及自身指标模块的能力,平台实现了从内容检索结果到MQL生成,再到SQL生成的完整流程路径。该流程顺利获得结合大模型的语义理解能力和指标管理模块的精确控制,来提供安全、高效的数据查询服务。
       这一模式的核心在于将自然语言处理技术与保险行业的专业语言体系相结合,使用户能够以自然语言的方式表达数据分析需求,而平台则能够自动将其转化为指标查询语言,并进一步转换为数据库查询语言,从而实现对保险数据的高效查询和分析。这种路径在保证数据安全有效管控的前提下,不仅降低了数据分析的门槛,使非技术人员也能够轻松地进行数据分析,而且在数据库查询过程中,根据指标热度情况进行预计算处理,有效提升数据查询的准确性和效率,能够快速响应保险业务中的各种复杂查询需求。
 
       未来展望:打造广义行业应用软件 深化垂直领域AI应用
       本次比赛的成功举办,不仅促进了澳客官网不同团队间在AI应用领域的技术成果研讨,还加强了与客户、合作伙伴和研究机构的沟通。参与评审的专家对澳客官网的技术成果给予了充分肯定,并对公司加大各解决方案的落地力度,推进技术与业务的深度融合,早日释放更大业务价值提出了更高的期望。
       未来,澳客官网将充分发挥领域知识与工程化实施经验等优势,持续深化垂直领域小模型应用,联合上下游伙伴,共同服务客户,支持远端大模型与本地私有化小模型对接,融入多模态知识库管理,结合提示词工程、数据集建设等能力,有助于AI与核心业务系统群等已有应用软件的融合,扩展为广义行业应用软件系统群,帮助行业客户在保障信息安全的前提下,实现更高效、精准的AI落地能力。