在电影《流浪地球2》中,数字生命“丫丫”在经过无数次迭代后拥有了自主意识,那一幕让无数观众感到震撼。而在现实世界里,江旭晖作为该电影的科学顾问之一,亲历了这场关于未来的“头脑风暴”。彼时,他是站在科幻视角思考技术演化的科研人员,在“数字生命”的构想中寻找逻辑的合理性;此时,作为数创弧光(深圳)科技有限公司(简称“数创弧光”)的创始人兼CEO,正试图用“合成数据”这一技术,为现实中的人工智能注入进化的燃料。
2025年,随着国家发展改革委联合国家数据局发布《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》,以及“人工智能+”行动意见的深入实施,合成数据被正式确立为国家战略层面的关键技术路径。站在这个时代的风口上,江旭晖和他的数创弧光,正在大模型训练的“数据缺口”中,挖掘出一条通往未来的新航道。
给AI“学霸”出模拟题 在数据枯竭前找到解法
什么是“合成数据”?为什么我们需要它?“当下互联网的真实数据就像是‘历年高考真题’,而现在的基座大模型就像是一个超级‘学霸’。”江旭晖解释道,“这个学霸的学习速度极快,很快就把历年的真题(真实数据)刷完了。但问题是,高考真题不可能随着人的意志凭空变出来,它是按年份线性增长的。如果模型想要进一步提升能力,而在真题不够用的情况下,该怎么办?”
答案显而易见,需要高质量、定制化的“模拟题”。这就是数创弧光的核心任务——为AI提供高质量的“模拟题”——合成数据。江旭晖发现,大模型的发展正在撞上一堵墙:互联网上的高质量中文和英文数据几乎已经被过度消耗,面临枯竭的风险。与此同时,在金融、高端制造等隐私敏感行业,以及小语种长尾领域,数据更是极度稀缺。
“我们聚焦于从大模型训练过程中的‘数据缺口’中寻找价值。”江旭晖表示。这并非简单的“无中生有”,而是一种基于深厚技术积淀的系统性工程。
为了制造出高水平的“模拟题”,数创弧光并非像传统方式那样简单地进行数据增强,而是走出了一条“知识驱动”的独特路径。“我们引入了‘语境图谱’的概念,这是知识图谱的下一代形态。”江旭晖表示,这套系统能像人类思考一样,先锁定特定的知识点,再联想对应的场景,最后生成结构化的数据。这种“Synthesize-on-Graph”的技术路径,使得数创弧光在MultihopRAG数据集上的表现比斯坦福大学的同类方案性能提升了25.4%。
这种技术壁垒的建立,让数创弧光在强手如林的AI赛道上找到了一席之地。与美国估值近300亿美元的Scale AI或是深耕数据隐私赛道的Gretel不同,数创弧光没有在通用的数据标注红海中厮杀,而是专注于大模型Agent的合成数据,特别是在推理能力和长上下文的生成上,跑在了行业的最前沿。

跨越4.5T与400T的语言鸿沟 带着“中国技术”出海
如果说技术是数创弧光的底座,那么“出海”则是江旭晖为公司选定的破局之道。他列举了一组数据:“阿拉伯语的互联网文本语料大约只有4.5个T,而英文语料大概有400多个T。”
这近百倍的差距,意味着以阿语为代表的小语种世界,在AI时代面临着严重的“掉队”风险。受限于语料的匮乏,大模型在这些语言环境下的表现往往不尽如人意,甚至会出现严重的“幻觉”——一本正经地胡说八道。更致命的是,通用大模型往往难以兼顾特定地区的文化与风俗,这在文化色彩浓厚的中东地区是不可接受的。
“这正是合成数据的用武之地。”江旭晖看到了巨大的商业机会。数创弧光利用其自研的小语种合成数据框架,不仅能够将高资源语种(如中、英)的知识迁移转化,还能在生成过程中通过“知识关联验证”机制,确保内容的真实可靠,并严格遵循当地的文化与宗教规范。
目前的数创弧光,已经形成了一套清晰的“国内深度验证、全球规模复制”的商业闭环。在国内,他们将金融、工业等高复杂度场景作为技术的“炼丹炉”,打磨产品的极致可靠性与隐私合规性;在海外,他们则将这套成熟的技术体系输出到中东、东南亚等高潜力市场,迅速实现商业价值的变现。
做最富有创造力的事
这一战略并非纸上谈兵。目前,数创弧光已与中东地区的政府数字部门及头部运营商取得了实质性的合作进展,在研阿拉伯语TTS(语音合成)、ASR(语音识别)及OCR模型已达到业界SOTA(State Of The Art)水平。
政策的东风也为这艘出海的航船加满了油。国务院印发的《关于深入实施“人工智能+”行动的意见》中,明确提出支持发展数据合成技术,培育壮大数据服务产业。这不仅赋予了合成数据技术合法的“身份证”,更将其提升到了国家数字基础设施建设的高度。
“这一系列的政策,无论是从数据要素流通的角度,还是人工智能发展的角度,都验证了我们的方向是正确的。”江旭晖在采访中难掩兴奋,“市场需求、资本反馈和国家政策,三者在此时此刻形成了完美的共振。”
江旭晖的履历是一份典型的“精英科学家”样本:中国科学院计算所博士,IDEA研究院科学家,在顶级会议发表论文30余篇。但从科学家转型为创业者,他经历了一场深刻的思维蜕变。
“技术人员往往容易犯一个错误:做一个最牛的锤子,然后满世界找钉子。”江旭晖坦言,这是他早期科研思维的惯性。在博士期间,导师王元卓的一番教导让他开始转变观念——追求简单但有效的研究,关注技术的实际落地价值。
创立数创弧光后,这种思维的转变更加彻底。他不再执着于单一技术模块的炫技,而是学会了“看到钉子,再去打造最合适的锤子”。这种以需求为导向的商业逻辑,让数创弧光在成立仅几个月就完成了多轮融资,投资方囊括了君联资本(君科丹木),东方富海等头部VC,以及华为哈勃、深智城等产业资本,估值数亿元。
展望未来,江旭晖的目标不止于云端。他透露,数创弧光的技术演进路线将从纯软件向“软硬一体”延伸,从文本模态向多模态及具身智能扩展。“也许有一天,就像《流浪地球》里展示的那样,我们的合成数据不仅能训练大模型,还能驱动现实世界中的机器人,真正实现数字世界与物理世界的融合。”
来源:《中关村U30》特刊