hadoop+datanode起不来
@盖狮1719:试比较hadoop中的数据库hbase和传统关系数据库的不同 -
米顾19829594425…… 答:主要体现在以下几个方面:1.数据类型.关系数据库采用关系模型,具有丰富的数据类型和储存方式.HBase则采用了更加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成...
@盖狮1719:问个问题,我这里有1.8亿条结构化数据,oralce 跑不动了,能否使用hadoop +hive 或者+hbase解决 -
米顾19829594425…… 1.8亿条要看你的查询需求,如果需要查询速度快的话用hadoop+hbase.如果需要分析的复杂操作,groupby、join等等用hadoop+hive.目前这两种组合都能轻松hold住海量数据.机器数量3-5台足够.以后不够再平滑扩展
@盖狮1719:为什么MySQL+HADOOP有点过时了 -
米顾19829594425…… Hadoop最常见的用途是日志分析. 互联网、银行、电信等用户,最先考虑的是把日志放到Hadoop系统里,作为数据仓库的更大存储.流行的技术方案是从MySQL导数据到Hadoop,编 写Map/Reduce或定期用HIVE做分析. 聪明的IT工程师做些...
@盖狮1719:Hadoop+HBase如何实现DB数据的缓存 -
米顾19829594425…… 您好10g之前可以设置db_cache_size 来指定缓存大小10g开始可以使用sga_target(当然你也可以不用,但是推荐用),来设定整个共享内存区域大小,包括缓存和共享池等.不需要再单独设置db cache11g可以设置memory_target,不光包括了sga,还包括了pga,是所有给oracle的内存的总和,就更方便了.如果你使用了sga_target或者memory_target,还同时设置了db_cache_size的话,那么你设置的db_cache_size成为了缓存的最小值.需要分配给数据库多大内存取决于你的业务需要,你可以通过db cache advisor的视图,来估计是否需要更大的缓存.
@盖狮1719:实时数据处理 用什么分布式框架 -
米顾19829594425…… 在我看来,一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能.hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置...
@盖狮1719:如何把kafka的数据传入hadoop -
米顾19829594425…… class LogClient(object): def __init__(self, kafkaHost, kafkaPort): self.kafkaHost = kafkaHost self.kafkaPort = kafkaPort def fixLen(self, s, l): s = s[0:8]+worknode+s[8:] fixed = s+" "*(l-len(s)) return fixed def sendLog(self, topic, filename): try: client = ...
@盖狮1719:怎么使用hadoop+spark集群做数据处理 -
米顾19829594425…… 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户) sudo adduser -ingroup hadoop hadoop 然后输入密码,接下来一路ENTER 完成创建 配置用户的环境变量 !
@盖狮1719:如何基于hadoop搭建大数据开源平台 -
米顾19829594425…… 这个就比较负责了,可以用hadoop+hbase+spark/storm进行平台构建,spark用于数据分析和处理、hbase用于将处理后的数据保存、hadoop用于离线分析和原始数据存储,具体的还得结合应用场景
@盖狮1719:hadoop+nutch学习 -
米顾19829594425…… 1、hadoop本身是nutch的一部分,后来由于hadoop的发展趋势,就把他们分开了.2、hadoop是一个分布式环境,而nutch是一个基于分布式的开源组件,nutch既可以独立工作,也可以基于hadoop分布式工作.3、nutch是一个系统的搜索框架,包括爬虫、索引、查询等,而hadoop只是可以让nutch可以分布式的去工作.关于再细节的话,可以去我的百度空间看看相关文章,有六七篇吧.
@盖狮1719:hadoop+9000+端口+没 -
米顾19829594425…… 你说的9000应该指的是fs.default.name或fs.defaultFS(新版本)这一配置属性吧,这个属性是描述集群中NameNode结点的URI(包括协议、主机名称、端口号)50070其实是在hdfs-site.xml里面的配置参数dfs.namenode.http-address,默认配置为dfs.namenode.http-address,这是HDFS web界面的监听端口
米顾19829594425…… 答:主要体现在以下几个方面:1.数据类型.关系数据库采用关系模型,具有丰富的数据类型和储存方式.HBase则采用了更加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成...
@盖狮1719:问个问题,我这里有1.8亿条结构化数据,oralce 跑不动了,能否使用hadoop +hive 或者+hbase解决 -
米顾19829594425…… 1.8亿条要看你的查询需求,如果需要查询速度快的话用hadoop+hbase.如果需要分析的复杂操作,groupby、join等等用hadoop+hive.目前这两种组合都能轻松hold住海量数据.机器数量3-5台足够.以后不够再平滑扩展
@盖狮1719:为什么MySQL+HADOOP有点过时了 -
米顾19829594425…… Hadoop最常见的用途是日志分析. 互联网、银行、电信等用户,最先考虑的是把日志放到Hadoop系统里,作为数据仓库的更大存储.流行的技术方案是从MySQL导数据到Hadoop,编 写Map/Reduce或定期用HIVE做分析. 聪明的IT工程师做些...
@盖狮1719:Hadoop+HBase如何实现DB数据的缓存 -
米顾19829594425…… 您好10g之前可以设置db_cache_size 来指定缓存大小10g开始可以使用sga_target(当然你也可以不用,但是推荐用),来设定整个共享内存区域大小,包括缓存和共享池等.不需要再单独设置db cache11g可以设置memory_target,不光包括了sga,还包括了pga,是所有给oracle的内存的总和,就更方便了.如果你使用了sga_target或者memory_target,还同时设置了db_cache_size的话,那么你设置的db_cache_size成为了缓存的最小值.需要分配给数据库多大内存取决于你的业务需要,你可以通过db cache advisor的视图,来估计是否需要更大的缓存.
@盖狮1719:实时数据处理 用什么分布式框架 -
米顾19829594425…… 在我看来,一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能.hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置...
@盖狮1719:如何把kafka的数据传入hadoop -
米顾19829594425…… class LogClient(object): def __init__(self, kafkaHost, kafkaPort): self.kafkaHost = kafkaHost self.kafkaPort = kafkaPort def fixLen(self, s, l): s = s[0:8]+worknode+s[8:] fixed = s+" "*(l-len(s)) return fixed def sendLog(self, topic, filename): try: client = ...
@盖狮1719:怎么使用hadoop+spark集群做数据处理 -
米顾19829594425…… 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户) sudo adduser -ingroup hadoop hadoop 然后输入密码,接下来一路ENTER 完成创建 配置用户的环境变量 !
@盖狮1719:如何基于hadoop搭建大数据开源平台 -
米顾19829594425…… 这个就比较负责了,可以用hadoop+hbase+spark/storm进行平台构建,spark用于数据分析和处理、hbase用于将处理后的数据保存、hadoop用于离线分析和原始数据存储,具体的还得结合应用场景
@盖狮1719:hadoop+nutch学习 -
米顾19829594425…… 1、hadoop本身是nutch的一部分,后来由于hadoop的发展趋势,就把他们分开了.2、hadoop是一个分布式环境,而nutch是一个基于分布式的开源组件,nutch既可以独立工作,也可以基于hadoop分布式工作.3、nutch是一个系统的搜索框架,包括爬虫、索引、查询等,而hadoop只是可以让nutch可以分布式的去工作.关于再细节的话,可以去我的百度空间看看相关文章,有六七篇吧.
@盖狮1719:hadoop+9000+端口+没 -
米顾19829594425…… 你说的9000应该指的是fs.default.name或fs.defaultFS(新版本)这一配置属性吧,这个属性是描述集群中NameNode结点的URI(包括协议、主机名称、端口号)50070其实是在hdfs-site.xml里面的配置参数dfs.namenode.http-address,默认配置为dfs.namenode.http-address,这是HDFS web界面的监听端口