填空
大约 2 分钟Data mining
1.知识点(2024.9.3):
大数据的基本特征:
4V:Volume、Variety、Value和 Velocity
① 数据体量大:从 TB级别,跃升到 PB
② 数据多样性:多为非结构型数据,如网络日志、视频、图片、地理位置信息
③ 价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有
一两秒
④ 速度快:产生了大量的高速动态数据流,对数据流的实时分析与处理要求不
断增加,数据处理的越及时,产生的价值越大。
大数据基本特征的第五个V:Veracity 数据的不确定性
数据分析可以分为三个层次:描述分析、预测分析和规范分析
数据挖掘基本步骤:
◆数据清理
◆数据集成
◆数据选择
◆数据变换
◆数据挖掘
◆模式评估
◆知识表示
数据挖掘发现的知识类型:
◆广义知识
◆关联知识
◆分类知识
◆聚类知识
◆孤立点知识
◆预测知识
◆序列模式知识
数据分析与挖掘过程:
明确目标 —— 搜集数据 —— 清洗数据 —— 构建模型 —— 模型评估 —— 应用部署
附:开源数据挖掘工具:
- Weka:数据挖掘工作平台
- RapidMiner:该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技
术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务
提供,而不是一款本地软件。 - Orange:Orange 是一个基于组件的数据挖掘和机器学习软件套装,它简单易学
并且功能强大拥有快速而又多功能的可视化编程前端,以便浏览数据分析
和可视化,绑定了Python以进行脚本开发。
会议期刊:
SIGMOD:ACM SIGMOD数据管理国际会议(Special Interest
Group on Management Of Data)是由美国计算机协会(ACM)数据
管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地
位的国际性学术会议。VLDB:-数据库领域著名国际会议VLDB(即Very Large Data
Bases)ICDE:
数据集:
- 常用的基本上UCI和w3c,UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\\MLRepository.htm - statlib:
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/ - 样本数据库:
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html - 关于基金的数据挖掘的网站:
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/ - 各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data