由于泛在网路空间、网路套用模式和大数据的发展,国内研究人员对网路空间搜寻技术有了新的认识,逐渐形成了网路空间智慧搜寻暨网路空间大搜寻技术。网路空间大搜寻是指面向泛在网路空间中的人、物体、信息和服务,在正确理解用户意图基础上的,基于从网路空间大数据获取的知识,给出满足用户需求的智慧解答。
基本介绍
- 中文名:网路空间大搜寻
- 外文名:Cyberspace Big Search
背景
搜寻空间从面向信息的网际网路扩展到了人、机、物互联的泛在网路空间。网际网路、移动网际网路、物联网、感测网等技术的迅猛发展促进了网路空间的日趋繁荣,使得传统搜寻引擎的搜寻空间由单一的网际网路发展到了泛在的网路空间。泛在网路空间是一种建立在网际网路基础之上的具有自适应性的智慧型网路,它通过各种有线和无线网路与物联网、网际网路、感测网等的融合,综合套用海量的感测器、智慧型处理设备等终端,实现物与物、人与人等之间在任何时间、任何地点的安全有效连线,并在上面运行了海量的软体、服务和套用。泛在网路空间以深度环境、内容感知为基础,实现人机物三元世界中的社会资源、信息资源、物理资源的高效深度融合和综合利用,为个人和社会提供无所不包、无所不能的信息服务和套用。网路空间的扩展,使得搜寻引擎的範围由网际网路扩展到“网际网路+物联网+感测网”所形成的泛在网路空间,使得搜寻对象由传统的信息扩展到了物体、信息、人物和服务。搜寻空间的扩展使得传统的面向关键字的搜寻不能满足用户对物体、信息、人物和服务搜寻需求,搜寻引擎必须进行完全创新性的、颠覆性的、革命性的变革。
网路套用模式从Web1.0发展到了Web3.0。当前,网路套用模式从靠点击流量取胜的综合门户Web1.0时代,发展到高度互动人人都可参与的Web2.0时代(如社交网路套用等),并向更高级的服务化、高度智慧型化的Web3.0套用模式发展。在Web1.0时代,主要以静态、单向阅读的静态网页为主,其特点是由商业公司和少数人将大量的信息编辑并上传到网上,用户通过浏览器获取信息,属于製造者和消费者之间的关係。这些搜寻引擎主要採用网路爬虫技术获取网际网路上的Web网页,按内容建立倒排索引,根据用户输入的关键字进行检索,再利用PageRank等算法对搜寻结果排序,即可满足人们按关键字在网际网路上快速搜寻相关内容的需求。在以社交网路为代表的Web2.0时代,任何人既是网路信息的消费者,也是网路信息的製造者,并相互影响,频繁互动。Web2.0套用主要包括:微博、微信、论坛、贴吧、部落格、百科全书、网摘、P2P、即时信息等。这些套用生成了更多的数据,主要包括:带有时间位置的时空交通数据;用户产生的图片和音视频数据;用户情报数据和司法数据;用户产生的大量健康医疗数据;表达用户对某事件具体想法的数据;用户讨论话题内容不断演化的数据;人与人之间的互粉、交流等互动数据。Web3.0语义网路是以网路化和个性化为特徵,提供更多人工智慧服务的语义网,为人们提供更加个性化的智慧型服务。显然,传统的Web1.0搜寻引擎已不能应对上述变化,大搜寻需要新一代的、革命性创新的搜寻引擎。
大数据时代的到来。
“大数据”是指在一定时间内难以依靠已有数据处理技术进行有效採集、管理和分析的数据集合,它通常满足“5V”特点:规模大(Volume),从TB级别跃升到PB甚至ZB级别;数据类型繁多(Variety),如文本、视频、音频、图片等及其变化组合;速度快(Velocity),数据高速生成,要求实时处理;不确定性(Veracity),数据不确定,来源不可信;有价值(Value),大量的数据中存在极有价值的信息。目前,企业利用自己拥有的大数据为自己进行服务,但如果数据是可交换及开放的,发掘能力也是通用的,大数据就可以为其他企业及社会大众创造价值。随着数据的不断发布和公开,一种通用的、智慧型化的、泛在的大搜寻技术正成为迫切需求。
发展
国家自然科学基金委员会第120期双清论坛于2014年9月28日-29日在北京召开,与会代表围绕网路空间智慧搜寻暨网路空间大搜寻理论与技术的研究现状、发展趋势及面临的挑战进行了热烈讨论和交流,初步提出了该领域急需关注和解决的重要基础科学问题。