1.客户需求
新华社多媒体数据库中的数据资源超过1.5亿条,如何更好使用和盘活这些数据资产,使之转化为新的生产力,服务于新华社战略转型,是新时期新华社信息化建设的一个历史使命。现有的文本检索系统检索精度差,基于规则的静态分词不适应业务发展需要。同时,对于历史新闻数据的语义分析,新闻文档对象之间的关系理解,都需要借助新的技术手段予以实现。另外,对于多语言的分析处理,海量多媒体资源(图像,音视频)识别和标引的需求也亟待被满足。
从业务角度上看,新华社业务种类的日益丰富,原有的IT系统已显露出诸多的不足和问题,难以对新业务和新的需求进行快速的响应和有力的支撑。另外,随着新华社新闻稿件半结构化、非结构化数据的日益增长,信息管理平台应用已面临着数据备份恢复时间长、运维成本高、存储弹性扩展能力差、存储成本高、无法满足业务多维查询的问题;文档服务平台存在海量历史数据离线检索不便、数据备份恢复时间长的问题。同时,随着近年来业务的发展,产生了结构化数据与非结构化数据整合存储与联动查询的新需求。
2.解决方案
天迪工控大数据一体机在解决如上问题和新需求方面较传统技术手段更有优势,并具备现实可行性。非结构化数据分析采用XData-hadoop,结构化数据分析采用XData并行数据库,系统架构如图:
3.客户收益
1) 对各应用系统进行整合,避免之前的独立建设造成的IT资源浪费;
2) 实现了音像资料、金融信息的共享,能够很好地满足新媒体发展和全媒体融合的需要;
3) 基于标准规范构建的多媒体数据库数据共享服务,实现了系统间数据复用功能;
4) 能够很好地满足新华社对结构化和非结构化数据整合存储与联动查询的新需求;
5) 架构上采用松耦合的技术原则,能够实现系统的灵活扩展;
6) 平台针对不同子系统的需求特点,选用合适的技术,能够突破性能瓶颈提升单台设备的处理性能;
7) 系统具备良好的扩展能力,能够在适应当前需求的基础上尽量为将来可预见和不可预见的功能、性能扩充留有余地;
8) 新功能、新业务的增加能够在不影响系统运行的情况下实现;
9) 系统采用HA、负载匀衡、云计算虚拟化、副本式存储计算冗余等技术,从系统级、设备级和业务级等多个层面进行高可用设计;
10)有全面、完善、便捷、统一的网管系统和网络性能监控系统,支持多种故障报警,一旦发生问题能够在最短的时间内处理解决。