海天瑞声(688787):国内领先的训练数据专业提供商
科创板新股系列:
北京海天瑞声科技股份有限公司
海天瑞声是国内领先的训练数据专业提供商,公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形 成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、 自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种 创新应用场景。其中智能语音为发行人的优势领域,产品线已包含 160 余个主要 语种及方言。公司产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威 视、微软、亚马逊、三星等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、智能驾驶、机器翻译等多种产品相关的算法模型 训练过程中。目前海天瑞声客户累计数量超 500 家,覆盖了主要的大型科技公 司、人工智能企业及科研机构。2019 年公司市场占有率为8%。
2021 年 1-3 月,公司实现营业收入 4,423.89 万元,同比 增长 41.52%;实现归属于母公司所有者权益的净利润 1,634.17 万元,同比增长 19.69%;实现扣除非经常性损益后的归属于母公司股东的净利润 1,432.50 万元, 同比增长 26.12%。
公司预计 2021 年 1-6 月实现营业收入约 12,750 万元至 14,025 万元,同比增长约 25.07%至 37.58%;预计实现归属于母公司股东的净利 润约 4,650 万元至 5,115 万元,同比增长约 0.74%至 10.81%;预计实现扣除非 经常性损益后归属于母公司股东的净利润约 4,185 万元至 4,604 万元,同比增 长约 0.54%至 10.61%。
发行人主要从事训练数据的研发设计、生产及销售业务。发行 人通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形 成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。
海天瑞声是我国最早进入基础数据服务行业的企业之一。自 2005 年成立以 来,海天瑞声一直积极钻研核心技术、积攒行业经验,始终致力于为产业链上的 各类机构提供算法模型开发训练所需的数据集,已成为我国领先的训练数据专业 提供商。
通过多年的技术研发和业务实践,公司积累的核心技术横跨基础研究、平台 工具、训练数据生产等三大领域,贯穿训练数据设计、原料数据采集和加工以及 质量检测等应用环节,已成为公司为下游客户提供高质量训练数据产品、高效率 训练数据定制服务以及高水准训练数据相关的应用服务的重要支撑。例如,在平 台工具方面,公司自主研发的“一体化数据处理平台”整合贯通了训练数据生产 的设计、采集、加工、质检及数据安全管理等各个环节,充分挖掘了算法与技术 所能创造的作用与效能,形成了多维度、多创新点的工具群,从而有效提高产能 及效率、降低训练数据生产成本以及缩短开发处理时间。
凭借丰富的技术积累和行业经验,公司提供的训练数据产品及相关服务已覆 盖三大技术领域、多个语种/方言和多项应用场景,赢得了阿里巴巴、腾讯、百 度、微软、三星、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等众多 大型优质客户的认可,核心技术、产品资源、优质客户等竞争优势逐步凸显。
海天瑞声是中国基础数据服务行业的头部企业,市场份额位居行业前五。根 据艾瑞咨询发布的《2020 年中国 AI 基础数据服务行业研究报告》(以下简称“《行业研究报告》”),2019 年,以海天瑞声、百度众包为代表的国内基础数据服务行 业前五大企业的市场份额为 26.2%。行业整体仍处于低集中竞争阶段,行业活力 充足,发展空间较大,作为中国领先的基础数据服务商,公司在品牌效益、团队 建设、资质、服务意识、业务能力等方面均有优势,市场份额仍有较大的提升空 间。
其中,2019 年基础数据服务行业前五大企业的市场份额情况如下:
海天瑞声是中国语音类基础数据服务领域的头部企业。根据艾瑞咨询出具的 《2020 年中国 AI 基础数据服务行业研究报告》,海天瑞声在中国语音类基础数据 服务领域企业中营收份额占比排名第一。按数据类型划分,中国基础数据服务行 业的市场需求可以分为语音类数据需求、图像类数据需求和自然语言处理类数据需求。现阶段国内基础数据服务商以提供图像类数据和语音类数据服务的公司为 主。图像类数据业务内容涉及人像数据、OCR 数据、自动驾驶数据等,百度众 包在图像类基础数据服务领域的营收份额占比最高。而提供语音类数据产品和服 务的供应门槛高于图像类数据,业务内容包含语音识别数据、语音合成数据等, 海天瑞声在语音类基础数据服务领域的营收份额占比最高。
凭借丰富的行业经验、先进的核心技术和优质的产品服务,公司先后获得国 家重点软件企业、国家高新技术企业、中关村高新技术企业等资质,并成为中 国人工智能产业发展联盟理事单位、中国语音产业联盟理事会员单位、中关村 高新技术企业协会理事单位。近年来,公司还荣膺多项国内外人工智能领域大 奖:2017 年公司被中国信息协会、信息化观察网评为“年度人工智能数据服务 领域领军企业”;同年作为亚太唯一一家人工智能基础数据供应商入选美国 IT 企业联盟杂志 APAC CIO Outlook 评选的“年度 25 家最具推荐价值人工智能企 业”;2018 年公司获得中国语音产业联盟颁发的“智能语音创新大赛行业先锋 奖”;同年获中国信息协会、信息化和软件服务网颁发的“2018 年人工智能行 业最佳产品”奖项。
发行人在基础数据服务行业深耕多年,始终秉承基础研究与实际应用紧密 结合的原则,持续开展基础研发等研究创新工作。
在算法、技术方面,发行人的专业研发团队结合多年训练数据生产经验需 求,积累下 12 项核心技术,尤其在多语种的语音语言学基 础研究和高效数据处理技术方面积累下 5 项具备较强专业性、较高技术壁垒、 较难为同行业公司或上下游行业突破的核心技术——语音语言学基础研究、多 语种多模态训练数据设计技术、数据同步技术、大数据驱动的高效数据处理技 术及分布式高性能自动校验技术。在主营业务领域,发行人已取得 24 项发明专 利授权、1 项实用新型专利授权及 1 项外观设计专利授权,另有 2 项专利已提交 申请,较同行业公司处于领先水平。
在工具、平台方面,为使训练数据生产相关的技术落地,发行人自主开发了 一体化数据处理平台,嵌入训练数据生产各环节所需的工具、软件模块,持续 将训练数据生产相关算法、技术的基础研究成果运用至具体工具/平台之中,并 结合市场及内部数据开发需求的变动持续调整技术应用、打磨技术细节、优化 工具/平台,提升开发效率、服务质量及数据安全性,从而为客户提供高质量的 训练数据产品和高效率的训练数据定制服务。
在语音语言学基础研究方面,公司建立了成熟的发音词典构建流程、积累了 深厚的语音语言学基础研究成果,产品/服务覆盖 160 余个语种/方言,已积累下 超 100 个语种/方言的发音词典,覆盖希伯来语、乌尔都语、缅甸语等小语种, 累计词条数超 1000 万条,可构建高质量的智能语音训练数据,是发行人在智能 语音训练数据生产领域的主要壁垒及核心技术之一。
受益于前述专业技术积累以及多年专业客户服务经验,截至 2020 年 12 月 31 日,发行人已积累下 760 余个自有知识产权的训练数据产品,覆盖智能语音、 计算机视觉及自然语言三大领域;产品/服务可覆盖 160 余个语种/方言,涉及生 活交流、客服、家居、办公、行车、普通环境、噪声等多种特定场景中的语言 现象和视觉呈现,可应用于智能助理、智慧交通、智能搜索、智能家居、自动 驾驶等 16 类终端应用场景。
同时,发行人拥有丰富的多语种语言学家团队资源,成员遍布世界各地的学 校和研究机构,在语音语言学领域具备丰富经验和技术储备。且多年来深耕基础 数据服务行业,发行人与供应商、客户等上下游合作稳定,获得众多下游客户的 认可。
上述资源优势根植于发行人超过 15 年的训练数据生产经验和资源积累,需 要长时间的行业深耕和持续投入才能形成,存在明显优势。
公司高管及核心人员大多毕业于清华、北大、中科大、复旦等一流院校, 大部分曾在微软、阿里巴巴、英特尔、IBM、中科院等业内领先成熟企业与研究 机构担任人工智能领域技术研发与管理的领导职务。这些核心人员将其在业内 优秀企业积累的技术经验和管理经验应用于公司实践,并通过传帮带培养了一 批专业而精干的中层技术团队,有效提升了企业的技术水平和规范化运作水平, 实现了对客户的快速响应、高品质交付。高管、核心技术人员及其培养出的专 业而精干的技术团队所塑造的人才优势帮助公司创立了现在的优势市场地位, 并为未来公司的长远发展提供了重要保证。

Appen Limited,1996 年成立于澳大利亚,是面向机器学习和人工智能开发 的高质量人工标注数据集的提供商,已于 2015 年 1 月 7 日于澳大利亚证券交易 所上市。Appen 在采集并丰富语音、文字、图像和视频等各种数据类型上积累 多年经验,与全球技术、汽车和电子商务公司,以及政府部门建立了合作,帮 助他们开发、利用和增强依赖自然语言和机器学习的产品。
北京慧听科技有限公司成立于 2011 年,公司业务包括语音识别、语音合成、 语音评测、语言文本类、多媒体类等多领域数据制作,以及语音合成、语音识 别、输入法系统的研发等。公司提供服务涵盖语音训练数据制作、音乐数据制 作标注、语音质量评测等,经营模式包括定制开发和自有训练数据产品销售。
标贝(北京)科技有限公司成立于 2016 年,总部位于北京。主要提供智能 语音交互相关服务,包括语音合成整体解决方案,以及语音合成、语音识别、 图像识别等数据服务,经营模式包括定制开发和自有训练数据产品销售。
2021 年 1-3 月,公司实现营业收入 4,423.89 万元,同比 增长 41.52%;实现归属于母公司所有者权益的净利润 1,634.17 万元,同比增长 19.69%;实现扣除非经常性损益后的归属于母公司股东的净利润 1,432.50 万元, 同比增长 26.12%。
公司预计 2021 年 1-6 月实现营业收入约 12,750 万元至 14,025 万元,同比增长约 25.07%至 37.58%;预计实现归属于母公司股东的净利 润约 4,650 万元至 5,115 万元,同比增长约 0.74%至 10.81%;预计实现扣除非 经常性损益后归属于母公司股东的净利润约 4,185 万元至 4,604 万元,同比增 长约 0.54%至 10.61%。


目录 返回
首页