分布式常见面试题:如何快速设计一个个性化推荐系统?
在程序员面试中,分布式相关问题很常见,其中“如何快速设计一个个性化推荐系统”这题可难住了不少人。一提到推荐系统,大家脑海里就会冒出大数据、人工智能、用户画像这些高大上的概念,感觉只有大厂养着一群技术专…
MapReduce概述、优缺点及其典型应用场景
1.概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。Apache对其做了开源实现,整合在hadoop中实现通用分布式数据计算。MR由两个阶段…
基于Java API实现HDFS文件的操作
准备 使用Java API操作HDFS中文件主要涉及如下几个类: 1)Configuration类:该类的对象封装了客户端或者服务器的配置。 2)FileSystem 类:该类的对象是一个文件系统对象…
消息队列常见面试题:消息队列该如何选型?
同学们,经常有人问,消息队列的种类繁多,在进行项目规划时到底该怎么选呢?相信很多同学都有同样的困惑。其实市面上常用的消息队列也就三个,分别是 rabbitmq、rocketmq 和 kafka 。 咱…
Hadoop经典综合性案例—温度排序示例
温度排序示例是一个综合性比较强的Hadoop经典案例,除了基础的MapReduce,还有自定义序列化对象、分区、分组、自定义排序等相关知识,对于刚入门的同学来说,理解起来可能会稍有困难。 假设有多年气…
学java还是大数据哪个就业前景好,哪个好找工作
我是一个自学转向大数据的机械专业学生,最初在做Java开发,后来转向大数据领域,目前担任大型公司的数据部门负责人。在这里,我想分享一下自己的观点。 学习门槛和发展潜力 学习大数据相对Java而言门槛略…
Hadoop中HDFS 的常用命令
我们已经知道 HDFS 是分布式存储,可以存放大批量的文件,如果要对文件进行操作,可以通过下面的命令来完成,如读取文件、上传文件、删除文件和建立目录等。 1.对文件的操作 HDFS 的命令都在 Had…
Yarn基本架构及其主要角色
1.基本架构 YARN是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。 将MP1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和App…
前端如何实现回到用户上次阅读位置,优化阅读体验?
用户阅读长篇文章或浏览多屏信息时,阅读过程中经常被打断,再次打开页面时却要重新寻找上次阅读的位置,这无疑会极大地影响用户体验。就好比用户在一篇长达5000字的文章中,深夜读到第3屏时被外卖电话打断,第…
Flume日志采集工具入门简介
在大数据技术架构中,主要包括数据采集、数据存储、数据计算、数据分析、数据可视化等核心步骤。其中数据采集至关重要,只有将数据源的数据采集过来,才可以进行计算和分析等工作,但是由于数据源很分散,导致数据的…