摘要:大数据的普及和应用正在重塑很多行业的生产模式、销售模式和管理模式。本文从出版行业的角度出发,主要探索出版行业内大数据的内容来源和分类,分析数据组成、特点和价值,在此基础上提出出版大数据的内容应用模式,推动出版产业快速发展。
关键词:出版 大数据 内容生产 复用模式
一、大数据介绍
2012年3月,美国奥巴马政府公布了“大数据研发计划(BigData Research and Development Initiative)”,旨在提高和改进人们从海里和复杂的数据中获取知识的能力,进而加速美国在科学与工程领域发明的步伐,增强国家安全。在美国宣布大数据计划后,世界其他国家和大公司也对大数据给予了极大关注[1]。
大数据的来源一方面包括基因组学、蛋白组学、天体物理学等以数据为中心的学科,其日常科研产生大量数据,另一方面,大数据主要来源于人们的日常生活,特别是互联网中的相关服务。就互联网上的大数据类型,可主要归纳为:用户行为数据、用户消费数据、用户地理位置数据、互联网金融数据、用户社交数据等。如谷歌公司每个月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,生成300TB以上的日志数据[2]。
针对海量数据的深度挖掘和复用的大数据时代已经到来,对大数据的管理和分析必将对各个行业产生深远影响[3][4]。本文从出版行业出发,探讨大数据对出版行业的内容生产和复用产生的相关影响。
二、出版大数据的来源
随着互联网的发展,出版产业发生了巨大变化,数字出版蓬勃发展,数字化阅读、网络阅读成为主流,传统出版流程在内容生产、作品传播、版权管理、消费阅读方面都形成了新的操作流程和经营方式。特别是随着社会化媒体的发展,个人通过博客、微博等平台发表自己的作品,个人既是内容的消费者,又是内容的生产和传播者。
如表1所示,网络和新媒体的发展革新并拓展了传统出版流程,普通用户参与内容的生产,作品形式、发布和传播渠道更加丰富,用户阅读消费的终端也日趋多样化。
随着数字出版的发展,海量用户参与到出版的每个环节,日积月累形成大量的出版数据。出版大数据从数据生成来源角度,可以分为专家生成的专业数据(PGC)、用户生成内容(UGC)和设备采集生成内容(DGC)。
大数据从数据组成上,包括非结构数据、半结构数据和结构化数据。出版领域的内容中,结构数据主要包括作者、书籍等作品的基础信息,这些信息可以通过关系数据库来存储。半结构数据主要包括出版内容、版式和元数据等文件,这些数据可以通过关系数据库或半结构原生数据库(如XML、HTML原生数据库)来存储。同样,出版过程中也存在非结构数据,主要包括txt文本、图像和音视频等文件。这些数据通常使用关系数据库中的特定数据类型或文件夹进行存储。
如表2所示,出版产业的大数据主要来自写作过程数据、发表内容、行为数据和阅读衍生数据。过程数据主要包括写作交流和作品修改记录。发表内容包括用户发表的网络文学、博客、微博等内容。行为数据指的用户围绕作品的一系列动作,包括搜索、浏览、点击、购买和阅读等。阅读衍生数据主要是针对作品的书评、阅读交流等。
三、出版大数据的价值和作用
大数据的操作主要包括海量数据采集、管理和深度挖掘分析方面。大数据的作用主要体现在为用户精准过滤相关内容,通过数据全面掌握和优化企业生产和管理过程,并通过数据挖掘分析实现企业管理和生产的高效性、动态性和可预测性。
如图1所示,出版大数据由不同来源,各种结构类型的内容组成,这些数据的有效使用,包括数据的采集、存储、过滤、挖掘、预测等,对管理部门,出版企业和读者个人都产生巨大影响。
具体来说,不同来源、不同种类的出版大数据对出版行业的作用主要体现在以下几个方面:
1. 聚合海量出版信息,提高管理决策
大数据的核心是海量信息的获取和价值分析应用。管理部门和出版社都应该建立完善出版信息的上报机制和自动采集技术,针对各种阅读终端和可穿戴设备实时收集信息,特别是用户行为和作品衍生内容的收集整理。
大数据的信息汇聚和分析作用贯穿于出版产业的全流程。2013年《中国出版物在线信息交换》行业标准(CNONIX标准)发布,为我国建立了一个统一规范的图书产品信息描述和交换标准。标准的建立和发布只是开端,标准的普及、基于标准的元数据收集和挖掘才是打通产业链,实现产品增值的重点。
出版大数据的思想普及和技术运用,是贯穿出版的内容生产、作品加工、发行传播、阅读消费的面向全流程、面向多种类的信息管理和汇总,实现在线、实时的信息发布共享和挖掘分析,随时获得出版企业总体发展状况,不同企业的出版状况,不同区域,不同种类读者的消费历史和阅读倾向,帮助管理部门全面、客观的掌握产业整体情况,产出行业统计报告,预测出版产业发展趋势和市场动向,作为政府部门制定决策的客观依据。
2. 加强用户交流创作,丰富内容来源
互联网技术和社会化媒体的发展改变了人们的信息生产、获取、交流和共享的方式,个人既是网络信息的消费者,同时又是网络信息的生产者和传播者。基于互联网中用户生产内容进行内容挖掘分析,形成出版作品的模式日益成熟。例如,国外著名少儿故事出版平台storybird鼓励家长和用户在线进行故事创作,通过拖曳已有的图画素材和添加文本,很快即可创造出一个少儿故事,高人气故事可以生成纸质书销售。Chen等人介绍了一个开放式几何教科书项目,该项目致力于通过共享的网络平台,收集大众的几何知识,最终形成可自由访问的、及时更新的动态教科书[5]。
通过收集和挖掘网络中用户生成的内容,可以发现其中的出版价值,经过编辑加工形成新的出版物,这样的出版物基于海量数据的分析挖掘技术,集中体现了用户人气,通过严格的编审和公开反馈也保证了作品质量,丰富了出版内容来源。
3. 优化内容生产模式,提高作品质量
质量是出版物的价值基础。激烈的市场竞争使得传统出版社更加关注作品数量,编辑人员的工作量远远超过有效的编审负荷,作品质量难以保障。
基于大数据分析技术,形成机器自动过滤,人员协同编辑审核,作品质量评估反馈的质量保障体系,对作品内容质量进行有效控制。
针对不同格式的作品的批量过滤,能够高效发现格式布局和语法问题,分析内容抄袭和重复部分,形成信息摘要,既能有效过滤掉不合格作品,又能为编辑人员的进一步审核提供辅助支持。
基于网络的多人协同编辑是当前研究的热点。根据Normatov等人通过对维基百科编辑过程的研究,发现在多人协同编辑过程中,编辑的数量、教育背景多样性和知识水平专业性均对协同编辑的作品质量有正向作用[6]。而具体的协同编辑模式需要基于编辑过程数据进行分析挖掘,针对当前人员和作品特点进行设计。
通过监测和记录编辑人员审核编辑的过程、参与编辑的人数、编辑人员的专业背景、编辑次数,形成编辑过程信息库。通过专家评审、分析挖掘读者反馈等方式综合衡量作品质量,结合编辑过程信息发现适用于本出版社的编辑人员组成和编辑协同工作模式,细分编辑过程,兼顾生产效率和作品质量。
4. 实行多种挖掘技术,细分产品形式
基于云计算的多种数据挖掘分析技术是大数据的基础。当前我国图书种类数量远远多于其他国家。但是用户市场细分却比较欠缺,用户面对海量图书,更加难以选择,大量优秀的出版物未能有效传播和销售。
大数据的高效分析计算能够有效的对用户数据进行分析,在细分受众的基础上有针对性的筛选产品,为用户提供需要的作品和服务。国外大数据的成功应用当属亚马逊,其图书销售网络记录用户的浏览过程和购买历史,基于作品的相似性推荐给读者可能需要的作品。同时辅助进行电子邮件推销,并收集用户阅读邮件的浏览过程,统计邮件阅读率、点击率等指标。这些大数据的分析使得亚马逊不再局限于部分样本的取样分析,而是可以关注全局用户的购买趋势。
同时,除了针对作品相似性进行挖掘推荐,还能根据用户相似性,用户圈子的关联度等方面进行分析,作品形式也可以从完整的一本书到某个章节,某个知识点,出版物的衍生产品,相关大数据的“大”是为了个性化的“小”,根据海量用户的统计分析,结合个人的特征,从本质上提高个人用户从浏览到最终购买的转化率,是精准营销的最终目标。
5. 建立动态更新机制,扩展知识体系
互联网时代的知识生产呈幂级数增长,知识体系的更新变化更加频繁,人们如何在互联网中及时获得需要的知识体系,而不是单一知识点,是当前科学传播和出版的研究重点。而知识体系的动态构建和知识结果的有效呈现需要基于大数据的海量数据处理技术进行支撑。知识图谱是大数据的典型应用。2012年谷歌推出知识图谱,根据用户的搜索关键词返回多种媒体样式,多种知识点形成的知识关联结果,用户可以有效获得基本信息的汇总,而不再是单一知识点。
继谷歌之后,国内的搜狗知立方、百度知识图谱纷纷上线,信息搜索向知识搜索的发展扩展了已有的科学出版,多媒体的知识呈现,在线的提问交流,细化的知识点服务等都是科学出版和传播的最新发展。
知识图谱的背后是庞大的信息库,基于云计算架构的实时网络信息抓取,高效知识实体发现,以及动态的知识体系调整更新等技术。
四、结论
综上所述,面向内容采集和分析复用的大数据时代正在深入出版产业的不同层面和各个环节。有效地利用大数据技术能够对出版流程进行高效的管理,优化出版环节,充分挖掘用户需求,高效加工复用出版内容,准确分析和预测出版市场趋势,为出版产业成功转型和升级改造提供有力的技术支持和保障。
(来源 :中国文化报)