重新定义“AI数据服务”恺望数据基于优势进军“AI应用”
2024年9月24日,北京 “人工智能之城” 北京经济技术开发区(北京亦庄)打造全要素AI原生产业创新高地再加速——由北京亦庄智能城市研究院(简称“亦庄智能院”)建设并运营的北京顶级规模公共算力平台、人工智能数据训练基地,与国内领先数据服务公司恺望数据联手打造的国内首个“车路云”数据协同平台正式对外发布并上线。
由北京市高级别无人驾驶示范区工作办公室(简称“北京自驾办”)指导,恺望数据联合北京国际算力服务有限公司(简称京算公司)举办的“数智加速度:AI大模型下的数据力量与应用革新”生态大会在北京亦庄举行,近200位智能驾驶及人工智能专家和代表,一同探讨数据在AI大模型背景下的战略价值。
恺望数据在当天宣布将基于数据优势打造AI大模型应用,并发布三大场景的AI应用解决方案。
北京亦庄正在全面加速打造全域“人工智能之城”。当天,恺望数据与亦庄智能院旗下全资子公司京算公司、车网公司携手,基于“人工智能数据训练基地”打造了全国首个“车路云数据协同平台”,并已正式上线运营。该平台聚焦无人驾驶车端感知数据和车路云智能交通场景,为需方提供高效、安全的智能数据应用服务,不仅提供精准适配和精加工的数据,还提供模型训练所需的GPU算力集群服务,首批项目成交签约合作伙伴包括国汽智控、辉羲智能等生态企业。
“数据、算法和算力是构成人工智能技术的三大核心要素。”北京国际算力服务有限公司总经理助理马光表示,从外部条件来看,目前制约企业大模型发展显而易见的问题是算力和数据,因此建设公共算力平台将解决企业,尤其是创业型企业、小规模企业在发展中购买算力能力不够的问题。
《北京·亦庄全域人工智能之城建设方案》中提到,将在北京“全域创建数据要素市场化配置改革综合试验区”,着力打造国家级数据管理中心、数据资源中心和数据流通交易中心。
其中,按照数据基础制度先行区重点建设“2中心2基地(数据训练基地)”的功能布局,由京算公司运营的人工智能数据训练基地是国内首个正式启用的人工智能数据训练基地,集中承载北京顶级规模的智能算力基础设施、人工智能数据标注库和大模型数据训练基地等功能,解决行业中存在的数据流通难、确权难、应用难及合规监管难等痛点,推动高质量数据价值释放。
马光提到,人工智能数据训练基地不仅是一个数据汇聚、清洗和标注的平台,更是构建安全合规数据流通形态的核心载体及高质量数据安全流通的可信基础设施,提供数据可信存储、可信加工、可信交付全流程服务,以及提供基础设施、应用平台和对外门户等基础能力,汇聚生态伙伴数据标注、模型训练、合规评测等工具能力,并通过引入沙盒监督管理机制为数据流通提供了高效、安全的路径。
围绕“全国首个“车路云数据协同平台”,京算公司、恺望数据、国汽智控、辉羲智能等多方已签订相关战略合作协议,明确未来将在各自需求与优势领域展开合作,围绕“大模型+大数据+大算力”,支持建设北京人工智能数据训练基地,有望将进一步筑牢“高质量数据集—智能算力底座—自主可控算法—示范性应用场景”全要素AI原生产业基础底座,并最大限度提高数据利用效率及实现数据价值。
“车路云数据协同平台通过构建一个安全、合规的数据流通体系,让数据要素发挥最大的价值和效能。”马光表示,人工智能数据训练基地是创新数据流通新模式的探索与实践,要建设以AI训练场为载体,以安全合规为核心,以沙盒监管为支撑,以交易应用为目的的新型数据流通形态,“车路云数据协同平台”是数据流通、交易模式创新的首个应用场景,有望在未来推广至更多的AI领域,构建多元的智能数据生态格局。
“站在行业已有的数据基础上,通过平台存储、监管和再加工,实现行业数据共享、数据复用的实现,行业效率解决企业的翻倍降本需求,可以助力公司实现‘成本少一半、速度快三倍’的数据应用优势。比如传感器型号、位置、算法的趋同,我们有机会把相似的匹配上,匹配不上的通过微调、2次加工达到个性化结果。”于旭表示,随着该平台的上线运营,未来智能交通领域的数据共享,使数据流通成本得到极大降低及数据的利用效率大幅度的提高,该“车路云数据协同平台”是结合人工智能数据训练基地理念,在智能交通领域探索的数据服务及新型数据流通形态的创新模式,最大限度提高了数据利用效率。
于旭表示,未来恺望数据仍将发挥在无人驾驶数据服务方面的行业经验与优势,深度参与到国家重要的车路云及人工智能的创新与示范项目探索,一同推动高质量数据价值的释放。
成立未满3年的恺望数据已是国内领先的自动驾驶数据服务商,然而随着去年以来AI大模型浪潮进入千行百业,算力算法需要更高效和更好的数据,恺望数据的“一站式数据产线”优势也迅速扩展到AI落地场景应用领域。在推出与亦庄智能院联合打造的车路云数据协同平台的同一天,恺望正式公开宣布大模型数据服务已成为公司的第二增长曲线,公司的数据服务优势经验证已在“AI大模型应用场景”中有效解决“业务适配问题”,极大的提升数据利用效率。
“AI大模型时代的数据服务价值,已经不是为大模型提供数据标注、数据训练等这些传统大模型数据服务,而是基于和发挥数据优势、做更适配业务场景的AI应用。”恺望数据CEO于旭表示。
为精准解决不同场景的智能数据应用需求,恺望数据发布了全新的AI应用场景解决方案,该方案覆盖剧本创作、客服辅助和文件处理三大AI应用场景,有效解决业务适配、降本增效等AI应用难题。
在剧本创作场景中,恺望数据通过定义内容产线的不同分工和角色,将AI内容生产能力“嵌入”内容产线的所有的环节,实现从内容选题、剧本撰写到视觉包装的全流程AI解决方案,帮企业快速生成高互动性的AI社交内容。
在客服辅助场景,恺望数据结合智能座舱、智慧园区、电子商务、私域运营等场景的不一样的需求,为公司可以提供从场景梳理到模型搭建的全流程AI客服解决方案,大幅度的提高客服响应效率,降低运营成本。
在文件处理场景,针对大批量合同审批、流程制度管理等业务需求,恺望数据可提供基于AI大模型的审批辅助和修改意见生成等解决方案,帮企业优化管理流程,实现效率提升三倍以上。
“依托恺望的数据自动化产线,我们能为公司可以提供数据收集、处理、应用的全流程AI改造,深度嵌入智能数据应用的细分场景,为企业搭建智能化转型的有效路径。”恺望数据AI应用场景解决方案负责人邓稳介绍。
恺望数据成立于2022年,专注于智能驾驶与AI领域的数据服务,致力于构建全新的AI数据自动化平台,为行业提供一站式数据解决方案。在AI大模型时代,市场对高效率和高质量数据的需求日益迫切。恺望数据打造的「数据自动化产线」通过“自动化产线+规模化人力”的核心优势,实现了AI数据生产的标准化、规模化和自动化转型,并推出“车路云数据协同平台”及“AI应用场景解决方案”。
自2023年量产以来,该产线已为国内众多领先车企、无人驾驶公司及AI大模型公司可以提供高效、稳定、经济的数据供应链,助力企业实现数据应用优势,推动人工智能技术的广泛落地。
大模型的自我学习仰仗训练。同日启用的北京人工智能数据训练基地里,已经有多款大模型正练就“最强大脑”。训练中,大模型依靠基地“投喂”的语料,像学生“刷题”一样不断的提高自己的能力,从而在未来上线后应付现实中的各种难题。
作为国内最早启用的人工智能数据训练基地,可以组织数据供给方、加工服务方、模型训练方“进场”合作,推动高质量数据价值释放,助力通用模型和行业垂类模型训练精调。
成为“第一个”,不只依靠算力这种“硬件”,更需要打通数据确权、安全等方面的机制。
“训练基地要干的,不只是训练。”运营训练基地的北京国际算力服务有限公司总经理助理马光介绍,使用数据时会面临所有权归谁、是否可信、如何保障安全、收益如何分配等很多问题,都要建立机制来规范。为此,基地针对大模型训练的数据合规和场景应用了“监管沙盒”机制,为新技术创新迭代提供开放包容的政策保障,免除后顾之忧。
数据不像普通的商品,使用方一旦获得会不会复制外泄?为此,基地里专门的存储设备能让数据“可用不可见”。从采集到存储,再到初加工、精加工,最后到模型训练,整个链条都是在训练基地进行,跑不出去。“若发生纠纷,也有解决的兜底机制,邀请互联网法院、知识产权局等来帮忙协调。”马光说。