《大数据时代》读后感_1800字
《大数据时代》读后感1800字
大数据这名词听起来很高大上,但其实大数据真的是越来越火了,但凡什么创业公司吹牛的时候就喜欢宣称自己使用了大数据技术,使用了数据挖掘、机器学习。外行人听起来云里雾里、不明觉厉,听说某名校还专门成立了大数据专业。
大数据这名词听起来很高大上,但其实内里简单的不得了。什么叫大数据呢?就是大量的数据。对的,就是这么简单。大量的数据就是大数据了。
大量的数据是从哪来的?
小明早晨起床,想起昨天答应女友要送她一个新的包包,可是小明对包包一窍不通,鬼知道女友喜欢什么款式啊!只能上网去搜今年的流行包包,打开百度,查到今年流行机车包(我瞎写的,因为我也不懂包包),于是又赶快去淘宝上搜索机车包,可是出来的样式千奇百怪,最惨的是价格从几十到几千相去甚远,小明彻底蒙了,要是买错了可是要跪泡面的啊!于是又赶快打开微信,发了个朋友圈,问问朋友圈里的同事们该送什么包包给女友,顺便还记得屏蔽了一下女朋友。同事小丽说要买MK的,小红却说要买巴黎世家的,小甜说……小明彻底晕菜,干脆把这些牌子放到淘宝里搜一搜,找了个最贵的买下来了,寄送地址填的是老婆的上班地址。毕竟要给老婆在同事们面前显摆才是买包包的第一要务。
在上例中,小明使用了百度、淘宝和微信,分别在其中输入了各种关键字。而这三大巨头的后台数据库,也把小明的这一天的行为完全的记录了下来。
以淘宝为例,小明今天的行为数据就长这样:
- 用户小明,登录
- 搜索机车包
- 点击下一页
- 关闭页面
半小时后
- 用户小明,登录
- 搜索 MK 机车包
- 按价格排序
- 点开排名第一的商品
- 加入购物车
- 回到搜索页
- 搜索 巴黎世家 机车包
- 按价格排序
……
- 点击购买
- 填写寄送信息(寄送信息地点为 上海浦东)
- 购买成功
每一个用户的每时每秒的数据,都会被如实的记录下来,以淘宝的注册用户数量和用户粘性来判断,估计每天的用户行为数据就能上PB。注意,是每天。大量的数据就这样产生了。
多大的量才能被叫做大量的数据呢?
其实这事因时而异。大数据名词刚被提出的时候,如果没记错,大约是06年吧(家里网络不好,上不去谷歌index,明日查明之后更新),那时候,总数据量上到百级GB,就可以说自己数据量很大了,现在呢,谁还没有个TB级的硬盘呢。
大数据和普通数据的分水岭在于它们不同的处理方式。普通数据通常使用结构化存储,比如大家所熟知的 MySQL ,商用的 ORACLE 等,而大数据通常使用 Hadoop 家族产品及 Hadoop 周边产品,比如 HDFS、Hbase 和 MongoDB 等等。通常,数据量小的时候适合使用 MySQL, 而数据量大了之后,适合使用 NoSQL 存储(比如刚刚提到的Hbase 和 MongoDB),而不同的NoSQL存储又有它们各自的擅长之处,以后会有详细展开。
数据大和小?看你的处理方式啦!
大量的数据有什么用呢?
大数据在互联网的使用场景十分广泛,比如用户推荐。
以上文提到的小明的行为数据为例,如果有一天淘宝、百度和腾讯合并了,三家的数据放到了一块,通过登录设备和 IP 地址匹配到了小明在三家网站使用的不同账号,发现了小明这一天的完整的心路历程。唔,这是一个会给女友买昂贵礼物的好男人,打上“愿意给女友花钱的好男人”标签吧!
第二天,小明的女友搜索了 lamer 眼霜。
第二天的晚些时候,小明打开淘宝,突然弹出对话框“您的女友搜索了 lamer 眼霜,就等着您买给她啦!”
你说小明是买还是不买呢……
在不远的未来,你的电脑就会比你更懂你自己了!
处理大量数据和处理少量数据有什么区别?
在计算机界,一直有个很有意思的比喻,我们通常会把编程比喻成盖房子。
数据也可以这样比喻。
处理一个 excel 的数据可以比喻成盖狗窝,只要是个正常人,简单学习一下,都能盖出一个来。就好像你处理 excel ,可以写宏,可以用 pivot table ,也可以手算(毕竟一个 sheet 最多也就 6 万多行数据嘛)。
处理关系型数据可以比喻成盖个小别墅,麻烦了些,一个人是搞不定了,得有个团队。不过有类似 MySQL 这类的通用框架,就好像别墅的墙板全都做好了,一个人也能借助工具拼装一下把别墅盖好呢!
处理非关系型数据(通常大数据才需要非关系型的结构)就好像盖一栋大楼,打地基,搭混凝土框架,每一项都是专业人士的领域,需要的人手更多,需要的时间更长。不过呢,现在采用拼搭技术,7天也能盖一栋大楼,因为各个墙面部件全部都在工厂做好了呢,而 Hadoop 及其各种周边们,就是计算机领域的拼搭技术,它使得一个受过培训的普通工程师,也能独立搭建使用分布式系统,处理大量的非关系型数据。