资讯新闻网—提供实时讯息的综合性新闻门户网站! 网站地图 | 加入收藏
资讯新闻网
最新文娱 电影网站 装饰装修 灵异事件 特色产业 生活品质 体育竞技 旅游资讯 文化传播 家居建材
时尚生活 军事历史 家用电器 女性健康 军事频道 热门推荐 手机游戏 摄影论坛 热点推荐 农业技术
您当前的位置: 首页 >> 旅游资讯 >> 正文

我被“非结构化数据包围了”,请求支援!

http://www.kyeoz.com 时间: 2019-9-28 资讯新闻网

香艳迷醉李浩轩,伦敦奥运会跳水决赛,巴菲特股东大会直播

发布于 201陕西治癫痫医院哪家较好9-09-10 分类:互联网 来源:阿里郑州癫痫医院哪里治疗比较好技术 阅读(112) 评论(0)

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。

我被“非结构化数据包围了”,请求支援!

非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片西安去哪的正规医院能医治癫痫?、视频、音频、设计文档、日志文件、机器数据等。

我被“非结构化数据包围了”,请求支援!

图:非结构化数据的占比图 图片来源:《大数据分析行业网》非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。 下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

我被“非结构化数据包围了”,请求支援!

图:结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据-图片格式如下图所示:

我被“非结构化数据包围了”,请求支援!

图:非结构化数据 图片来源:《数字时代》非结构化数据包含的信息量丰富。非结构化数据与结构化数据很大的区别在于蕴含信息量非常丰富,同样以图片为例,请看下图:

图:图片蕴含的信息 图片来源:淘宝你看到了多少信息?不妨我们一起看一看:

人物:女人,短发,佩戴项链,做了美甲, 衣服:女装,黑色T恤,长袖,低领,白色裤子,薄款,紧身 文字:秋定制,流金诗意,2折包邮,custom

这是一些显性信息,可以看出一张图片里面的显性信息就已经很多了,当然还有很多隐形信息。比如:

衣服材质:纯棉 特点:时尚的版型,贴身,显身材

由此可以看出非结构化数据隐含的信息量非常丰富。 非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:

我被“非结构化数据包围了”,请求支援!

本文地址:郑州中医治癫痫医院 转载请注明出处!

友情链接
Copyright ©2018 http://www.kyeoz.com Corporation, All Rights Reserved