• 回到顶部
  • 88888888
  • QQ客服
  • 微信二维码

大数据采集

 

  大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。

数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。

网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。

文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。