如何查看ubuntu git doc_IT百科

git查看提交历史

这是git中使用平率非常高的一个 *** 作，git中查看提交历史的功能也非常强大，提供各种筛选和输出格式定制功能。

最简单的，运行git log命令，你将看到一个详细的提交日志：

git-log

# 当然也可以只查看某个版本

$ git log fd0a1b2

信息内容都很好理解，重点说说第一行commit后这个40个字符的字符串，这是该次提交的对应的SHA-1值，在git中，会对提交（commit）、文件（blob）、目录（tree）、标签（tag）生成一个唯一的SHA-1值，git就是基于此来得知文件或目录的改动，因为这四类对象计算得到的SHA-1值都是唯一的，同时你也可以直接使用SHA-1值来指代相应的对象。比如：

$ git show bdd3996

# 查看某个版本下具体某个文件

$ git show bdd3996 README

git log还有很多命令选项来定制历史记录

选项说明

-(n) 仅显示最近的 n 条提交

–since,–after 仅显示指定时间之后的提交

–until,–before 仅显示指定时间之前的提交

–author 仅显示指定作者相关的提交

–committer 仅显示指定提交者相关的提交

–reverse 按时间倒序显示

-p 按补丁格式显示每个更新之间的差异

–stat 显示每次更新的文件修改统计信息

–shortstat 只显示 –stat 中最后的行数修改添加移除统计

–name-only 仅在提交信息后显示已修改的文件清单

–name-status 显示新增、修改、删除的文件清单

–abbrev-commit 仅显示 SHA-1 的前几个字符，而非所有的 40 个字符

–relative-date 使用较短的相对时间显示（比如，“2 weeks ago”）

–graph 显示 ASCII 图形表示的分支合并历史

–pretty 使用其他格式显示历史提交信息。可用的选项包括 oneline，short，full，fuller 和 format（后跟指定格式）

可以通过对上述选项进行组合定制出更为个性化的日志信息，比如：

$ git log --committer 'god' --shortstat --pretty=oneline

该命令将以单行模式显示由god提交的统计信息。

$ git log -p -5

显示最近5次提交的，并显示其差异

除此之外，git log –graph也很好玩。我git log –graph了一下git项目的日志，非常壮观。

git graph log

–pretty=format

单独介绍下–pretty=format选项。使用format和占位符可以定制出更为个性化的显示格式。

选项说明

%H 提交对象（commit）的完整哈希字串

%h 提交对象的简短哈希字串

%T 树对象（tree）的完整哈希字串

%t 树对象的简短哈希字串

%P 父对象（parent）的完整哈希字串

%p 父对象的简短哈希字串

%an 作者（author）的名字

%ae 作者的电子邮件地址

%ad 作者修订日期（可以用 -date= 选项定制格式）

%ar 作者修订日期，按多久以前的方式显示

%cn 提交者(committer)的名字

%ce 提交者的电子邮件地址

%cd 提交日期

%cr 提交日期，按多久以前的方式显示

%s 提交说明

$ git log --pretty=format:'%h by %ce at %cd'

该命令将以“简短SHA-1 by 提交者 at 提交时间”的格式显示日志

1.首先介绍一下wordcount 早mapreduce框架中的对应关系

大家都知道 mapreduce 分为 map 和reduce 两个部分，那么在wordcount例子中，很显然对文件word 计数部分为map，对 word 数量累计部分为 reduce；

大家都明白 map接受一个参数，经过map处理后，将处理结果作为reduce的入参分发给reduce，然后在reduce中统计了word 的数量，最终输出到输出结果；

但是初看遇到的问题：

一、map的输入参数是个 Text之类的对象，并不是 file对象

二、reduce中并没有if-else之类的判断语句，来说明这个word 数量加一次，那个word 加一次。那么这个判断到底只是在 map中已经区分了还是在reduce的时候才判断的

三、map过程到底做了什么，reduce过程到底做了什么？为什么它能够做到多个map多个reduce？

一、

1. 怎么将文件参数传递到 job中呢？

在 client 我们调用了FileInputFormat.addInputPath(job, new Path(otherArgs[0]))

实际上 addInputPath 做了以下的事情（将文件路径加载到了conf中）

public static void addInputPath(Job job,

Path path) throws IOException {

Configuration conf = job.getConfiguration()

path = path.getFileSystem(conf).makeQualified(path)

String dirStr = StringUtils.escapeString(path.toString())

String dirs = conf.get(INPUT_DIR)

conf.set(INPUT_DIR, dirs == null ? dirStr : dirs + "," + dirStr)

}

我们再来看看 FileInputFormat 是做什么用的， FileInputFormat 实现了 InputFormat 接口，这个接口是hadoop用来接收客户端输入参数的。所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于读取普通文件的FileInputFormat，用来读取数据库的DBInputFormat等等。

我们会看到在 InputFormat 接口中有getSplits方法，也就是说分片 *** 作实际上实在 map之前就已经做好了

List<InputSplit>getSplits(JobContext job)

Generate the list of files and make them into FileSplits.

具体实现参考 FileInputFormat getSplits 方法：

上面是FileInputFormat的getSplits()方法，它首先得到分片的最小值minSize和最大值maxSize，它们会被用来计算分片大小。可以通过设置mapred.min.split.size和mapred.max.split.size来设置。splits链表用来存储计算得到的输入分片，files则存储作为由listStatus()获取的输入文件列表。然后对于每个输入文件，判断是否可以分割，通过computeSplitSize计算出分片大小splitSize,计算方法是：Math.max(minSize, Math.min(maxSize, blockSize))也就是保证在minSize和maxSize之间，且如果minSize<=blockSize<=maxSize，则设为blockSize。然后我们根据这个splitSize计算出每个文件的inputSplits集合，然后加入分片列表splits中。注意到我们生成InputSplit的时候按上面说的使用文件路径，分片起始位置，分片大小和存放这个文件的hosts列表来创建。最后我们还设置了输入文件数量：mapreduce.input.num.files。

二、计算出来的分片有时怎么传递给 map呢？对于单词数量如何累加？

我们使用了就是InputFormat中的另一个方法createRecordReader() 这个方法：

RecordReader：

RecordReader是用来从一个输入分片中读取一个一个的K -V 对的抽象类，我们可以将其看作是在InputSplit上的迭代器。我们从API接口中可以看到它的一些方法，最主要的方法就是nextKeyvalue()方法，由它获取分片上的下一个K-V 对。

可以看到接口中有：

public abstract boolean nextKeyValue() throws IOException, InterruptedException

public abstract KEYIN getCurrentKey() throws IOException, InterruptedException

public abstract VALUEIN getCurrentValue() throws IOException, InterruptedException

public abstract float getProgress() throws IOException, InterruptedException

public abstract void close() throws IOException

FileInputFormat<K,V>

Direct Known Subclasses:

CombineFileInputFormat, KeyValueTextInputFormat, NLineInputFormat, SequenceFileInputFormat, TextInputFormat

对于 wordcount 测试用了 NLineInputFormat和 TextInputFormat 实现类

在 InputFormat 构建一个RecordReader 出来，然后调用RecordReader initialize 的方法，初始化RecordReader 对象

那么到底 Map是怎么调用的呢？通过前边我们已经将文件分片了，并且将文件分片的内容存放到了RecordReader中，

下面继续看看这些RecordReader是如何被MapReduce框架使用的

终于说道 Map了，我么如果要实现Map 那么一定要继承 Mapper这个类

public abstract class Context

implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT>{

}

protected void setup(Context context) throws IOException, InterruptedException

protected void map(KEYIN key, VALUEIN value, Context context) throws IOException,InterruptedException { }

protected void cleanup(Context context ) throws IOException, InterruptedException { }

public void run(Context context) throws IOException, InterruptedException { }

我们写MapReduce程序的时候，我们写的mapper都要继承这个Mapper.class，通常我们会重写map()方法，map()每次接受一个K-V对，然后我们对这个K-V对进行处理，再分发出处理后的数据。我们也可能重写setup()以对这个map task进行一些预处理，比如创建一个List之类的；我们也可能重写cleanup()方法对做一些处理后的工作，当然我们也可能在cleanup()中写出K-V对。举个例子就是：InputSplit的数据是一些整数，然后我们要在mapper中算出它们的和。我们就可以在先设置个sum属性，然后map()函数处理一个K-V对就是将其加到sum上，最后在cleanup()函数中调用context.write(key,value)

最后我们看看Mapper.class中的run()方法，它相当于map task的驱动，我们可以看到run()方法首先调用setup()进行初始 *** 作，然后对每个context.nextKeyValue()获取的K-V对，就调用map()函数进行处理，最后调用cleanup()做最后的处理。事实上，从context.nextKeyValue()就是使用了相应的RecordReader来获取K-V对的。

我们看看Mapper.class中的Context类，它继承与MapContext，使用了一个RecordReader进行构造。下面我们再看这个MapContext。

public MapContextImpl(Configuration conf, TaskAttemptID taskid,

RecordReader<KEYIN,VALUEIN>reader,

RecordWriter<KEYOUT,VALUEOUT>writer,

OutputCommitter committer,

StatusReporter reporter,

InputSplit split) {

super(conf, taskid, writer, committer, reporter)

this.reader = reader

this.split = split

}

RecordReader 看来是在这里构造出来了，那么是谁调用这个方法，将这个承载着关键数据信息的 RecordReader 传过来了？

我们可以想象这里应该被框架调用的可能性比较大了，那么mapreduce 框架是怎么分别来调用map和reduce呢？

还以为分析完map就完事了，才发现这里仅仅是做了mapreduce 框架调用前的一些准备工作，

还是继续分析下 mapreduce 框架调用吧：

1.在 job提交任务之后首先由jobtrack 分发任务，

在任务分发完成之后，执行 task的时候，这时调用了 maptask 中的 runNewMapper

在这个方法中调用了 MapContextImpl，至此这个map 和框架就可以联系起来了。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/bake/11374532.html

如何查看ubuntu git doc

发表评论

评论列表（0条）