对于理工科的大一新生来说，C 语言是个绕不开的坎。由于在进入大学前，许多人都完全没有接触过编程相关的内容，导致对于这门课的接受能力普遍偏低，学起来也非常费劲。这里就总结一些可能在课堂上老师不会详细讲解，但是对于理解 C 语言个人感觉比较重要的一些内容，供大家参考讨论。

...

首先我们来讨论一些基础的内容。由于学校教学时长是有限的，每节课的时间也比较短，因此在进入具体教学前的绪论环节，并不会花费过多的笔墨。很多时候，甚至只会告诉同学如何安装 IDE、如何新建文件、保存、编译并运行，但不会告诉同学们为什么要这么做，每一步背后到底都干了些什么。要搞清楚这些问题，首先需要知道一些编程语言的基本知识，我们从分类讲起。

编程语言怎么分类？

编程语言的分类其实有很多种分类方法，首先可以将其分为高级语言与低级语言，而高级语言之中又有着非常多的种类，这些将在下面进行介绍。

高级语言与低级语言

首先按照高级低级来区分，可以分为机器语言（汇编语言）和其他。高级语言的分类较多，这边先简单聊一聊低级语言。

机器语言仅由 0 和 1 组成，是计算机硬件能够直接理解的语言。不同的架构——如我们熟知的 ARM，x86，RISC-V 等架构——都有着不同的机器语言。机器语言能够直接操作处理器，其操作码在计算机内都有着对应的电路来完成。

汇编语言是在机器语言的基础上诞生的一种语言，每一条语句都与机器语言中的操作码一一对应，能够直接翻译到机器语言。其存在的意义就是能够方便程序员理解。

...

上图：汇编语言与机器语言对比

举一个简单的例子：如果想要让两个数进行加法运算，例如计算 2+3 ，那么使用机器语言可能就是 00000011 00000010 00000011 （这里为了方便加入了空格，实际的机器语言中不存在空格，只有 0 和 1 ，且该机器码为个人杜撰，仅作为例子使用，并非某一架构实际所使用的机器码），而用汇编语言写起来则是 ADD 2, 3 这样较为便于理解的方式。当然，汇编语言可不止这么简单，不过由于本文并非主要介绍汇编语言，因此就不进行深入讨论了。

尽管如此，汇编语言依然非常复杂，而且限制颇多，一旦需要写一些复杂功能，或是算法运算，很容易写完后连自己都读不懂。我在学习微机原理时，写过一个课程项目，要求是用汇编为 89C51 单片机写一段摇一摇计数的代码，剔除驱动 LCD 屏的代码，总共不过四五百行，却又写了近三百行注释以便理解。虽然其中有我对于汇编不够熟练的缘故，但其繁复程度可见一斑。

由此可见，显然不太可能用机器语言或是汇编语言来进行复杂代码的编写。这时高级语言就应运而生。下面就简单介绍一下高级语言以及其分类。

编译型、解释型与混合型

接下来介绍通过语言的翻译方式来进行的分类，以三种目前非常流行的语言为例，分别为 C 语言，Python 以及 Java。

由于所有写的代码最终都会变成机器语言才能执行，因此不同的语言最终也会殊途同归，翻译回汇编和机器语言，只是不同类型的语言翻译的方式不同而已。这边首先介绍 C 语言为代表的编译型语言。

编译型语言，顾名思义，就是通过编译将代码翻译到机器语言，再进行执行，因此执行前会首先将代码进行编译，这一步在老师教学的时候，会告诉同学们必须要先点击编译再点击执行，或点击编译并执行，其原因就在这里。编译会调用现成的编译器对代码进行分析，优化，处理，其中的过程在这里由于篇幅原因也不过多赘述了，总之最后会将所写的 .c 代码编译为以 .exe（Windows 下）或 .out （macOS 下）结尾可执行文件。

...

C 语言编译前

...

C 语言编译后

这里可以控制编译器生成汇编语言文件，可以看一下两者的差距

...

上图：C 语言与对应汇编语言

显然 C 语言的版本更容易理解。

编译型语言虽然在会在执行前进行分析优化，运行起来速度也非常快，但对于大型程序来说，编译耗时也会非常长。那么能否不进行编译而直接运行呢？答案显然是可以的，这就是解释型语言，如 Python。

对于解释型语言，将不会使用编译器进行翻译，最终生成机器语言的可执行文件，再进行执行。它会调用解释器，逐行翻译源文件，将每一行实时翻译到机器码并执行。如此一来，就不需要进行编译，执行前的准备时间大大减少。但是由于解释器并不会对代码进行优化，而且每次运行时都需要从头解释一遍，导致执行效率不如编译型语言。

编译型语言还存在另一个问题。根据前文所提到的，每种架构都有独特的机器语言，而编译的过程就是将代码翻译为机器语言的过程，这就导致每次编译生成的文件都只能在特定平台上运行。那能不能做到一次编译，就能在全平台运行呢？显然这也是可以的。这就是混合型语言，如 Java。

这类语言同样需要编译，但是编译后生成的并非机器码，而是字节码。通常这类语言在运行时会再转换成机器码执行，或直接由虚拟机解释执行。由于编译到字节码而非机器码，因而编译得到的执行文件是全平台通用的。

指定数据类型

许多同学在学习 C 语言的时候可能会疑惑，数据类型到底有什么用？要理解这个问题，我们先来看看数据是怎么存储的。

数据类型的意义

在内存中，所有数据都会被以二进制进行存储，即 01001001 等形式。这些数据仅仅只是 0 和 1 而已，所表达的意义都是人为规定的。

通常，第一位会被视为符号位，即 0 位正， 1 为负。然而，如果我希望第二位来表示符号位，也完全是符合规定的，只是所有涉及到运算的代码都要重写罢了。而数据类型就是用来规定每一位所代表的意义。

举个例子，在 32 位系统中，对于 int 类型而言，第一位表示符号，后 31 位表示具体的值。而对于 float 类型而言，尽管第一位也表示符号，但剩下的 31 位与 int 类型所表示的意义就不同了。紧接着的 8 位是指数位，剩下的是尾数，即使用科学计数法表示为尾数 * (2 ^ 指数) 。这里是 2 的原因是计算机中所有数据都是二进制存储的，而非十进制。

...

上图：float 类型存储方式

这里用 0 10000010 00010000 00000000 0000000 来展示一下 float 类型的具体计算。理解这段需要会一些简单的进制转换，如果不会建议自学一下。通过二进制计算器，可以很容易得到它对应的十进制数是 1094975488 。

对于 float 类型来说，其指数为 10000010 ，即 129 ，再根据规定减去 127 ，最终得到其指数为 2 。对于尾数而言，由于一定由 1 开头，因此最开始的这位 1 会被省略，因此其尾数实际为 10001000 00000000 00000000 ，即为 1.0001 * (2 ^ 2) ，换算成十进制为 4.25 。

如果希望对这两个类型的数据进行简单的加法运算，而不指定数据类型，汇编中会直接进行对位相加，即对应的每一个 0 或 1 相加，并加上前一位的进位。这样计算会得到 10000010 00010000 00000000 00000000 ，显然不是我们想要的 1094975492.25 。

如果不指定数据类型，计算就会得到错误的答案。由此可见，在内存中无意义的一串二进制数，我们可以通过规定每一位的意义，来得到不一样的结果。

为什么要指定这么多数据类型

很多同学可能也有这样的疑惑，为什么光一个整数就有 short ， int ， lang 三种，浮点数也有 float ， double 两种，甚至还有与 int 类型对应的 char 类型呢？只需要 int 和 double 不就够用了么？

由于现在的计算机内存普遍充裕，不太会遇到内存空间不足的问题，因此可以直接选用高精度的数据类型进行存储与计算。然而，在多年以前，或是在嵌入式领域，这类存储空间非常紧张的条件下，不同数据类型的差距就显现出来了。

由于在这些条件下，每一个 bit 都显得弥足珍贵，因此程序员会想方设法地优化存储空间的使用，能够用低精度的就不会用高精度。

而浮点数根据上文对存储方式的解释可以看出，精度越高，其所能表示的大小越小，因此在表示较大的，对精度要求高的数据时，就必须使用高精度的数了，反之则可以用低精度的节省空间。由于 float 所能表示的精度实在是非常低，因此建议在学校编写 C 程序时，如无特殊要求，一律使用 double 类型。

而 char 类型则较为特殊，可以与整数类型进行相互转换。在单片机等环境中，由于存储空间有限，因此更倾向于使用 char 这一只消耗一字节的数据类型，而不是 int 等更大的。另外， char 一般用来表示字符，因此如果要表示例如 'A' 这种字符型的数据时，一般用 char 类型。 char 类型在后文有关字符串的部分还会提到。

然而， short 类型不一定就比 int 类型消耗的空间少， long 也不一定就比 int 表示的精度高，一切由编译器决定（只需要遵守 2 <= short <= int <= long 就是符合规定的）。因此如果真的有需要，可以用 char 来降低消耗，而不是使用 short 。

...

上图：数据类型在不同操作系统下的大小

由此可见，虽然常用的数据类型就这么几个，但是其他的类型也都有其存在的意义，可以不用，但不能没有。数据类型一旦确定，该变量在内存中所分配的大小，以及每一位所代表的意义，也就随之确定下来了。

数组与指针

明白数据类型，接下来就可以定义数组了。一个数组是由一定数量的，相同数据类型的变量组成的一种数据结构，也就是说，一个数组可以由一定数量的其他数组组成，而这些数组也可以由数组组成，形成套娃。

在 C 语言中，数组在定义时必须显式指定其长度与数据类型，而在一些其他语言——如 Java、 Python 中——可以不断扩展数组的长度，但 C 语言中却不能这样做。这又是为什么呢？这需要从如何在内存中生成一个数组说起。

数组的生成

我们在 C 语言中创建数组时，会指定数组的数据类型和长度，而编译器可以根据数据类型 * sizeof(数据类型) 推算出这一数组具体需要占据多大的内存空间，进而在程序运行到这一步，需要创建数组时，为其在内存中申请符合要求的，连续的一段空间进行数组的生成。但为什么要连续的空间，而不能断断续续呢？

数组在访问时，会首先找到其内存地址。数组在创建时的变量名，实际也是一个指向数组第一项的一个指针（后面会讲到）。随后，根据具体访问哪一项，如第 n 项，就会将这一地址加上 n * sizeof(数据类型) ，就能直接找到这一项的内存地址。因此数组在生成时需要申请连续的内存地址，否则就无法做到这么高效的访问速度。

C 语言中的数组与其他语言的数组

那么问题来了：为什么别的语言能做到扩展数组长度，通过变量来初始化数组，而不是通过常数来指定呢？

事实上，在最底层的实现中，它们也是会指定一个具体的值来生成数组，其原理与 C 语言完全相同。但是在需要更长的数组时，会申请一段更长的连续内存空间来存放新数组，并将原来的旧数组完全复制一份过去。当然，各种语言会存在一定的优化，申请的空间会比所需的空间略大一些，防止重复不断的复制降低运行效率。

...

上图：数组动态扩容

由于 C 语言的数组是最原始的数组，语言本身不会自行进行申请新地址，复制旧数组等操作，因此需要在初始化时就指定好长度。

指针的作用

另外一个初学时难以理解的概念就是指针了。先来看下指针到底是什么。指针是一个存放内存地址的变量，也就是说可以直接访问并操作内存。

...

上图：指针示意图

图中 a 表示一个整数类型的变量，值为 100，在内存中存放在 0x0010 这一地址中。因此可以定义一个指针 x 指向这一地址。可以理解为 x 中存放了 0x0010 这一地址，访问这一指针就相当于访问这一地址。这就引出了一个问题：既然指针存放的是地址，访问的也是地址，那么为什么还要定义一个类型呢？

原因很简单，因为要取出该地址具体存放的值。前面说过，数据类型决定了该数据所占的大小，以及每一位具体所代表的内容。因此，要取出该地址具体存放的值，必须要知道其数据类型才行。这就是为什么 C 语言中定义指针时要指定数据类型，指明该内存地址存放数据的具体数据类型。

指针与数组的关系

指针与数组的关系也非常紧密。定义数组时取的名称就是指向数组第一个元素的指针，也就是说，要访问数组 a 中的 a[0] ，可以直接访问 *a 。以此类推，可以通过访问 *(a+1), *(a+2)来访问 a[1], a[2] 。这是因为在定义数组时已经指定了数据类型，因此这里的 +1 就不是简单的加法，而是在指针存储的地址的基础上，加上 sizeof(a[0]) （这里的 sizeof 用来获取某一变量在存放时使用的内存大小）。从上图可以看出，每个 int 类型如果占了 4 个字节，那么每次 +1 都会将内存地址 +4 再访问。

需要注意的是，通过这种方式访问数组会有数组越界的问题。也就是说，如果定义了一个长为 n 的数组，但是通过 *(a+n) 来访问第 n+1 位，C 语言并不会有任何的错误提示，只会返回一个存储在该内存地址的，根据定义的数据类型来计算得出的值。很多情况下无法分辨到底是否越界，因此使用这种方式访问需要小心谨慎。

另外，虽然数组名是一个指针，但是是一个常量，因此不能给其赋值。

字符与字符串

之前提到， char 类型多用于表示字符。字符串是由字符组成的，其底层是一串由 char 类型的变量组成的数组，因此可以通过 char* 或是 char[] 来生成字符串。赋值时，可以通过数组一个一个字符赋值，也可以通过双引号直接赋值。

在一些其他编程语言中，会专门有一个数据类型 String 来表示字符串，但在 C 语言中并没有。因此对字符串的处理就等价于对字符数组的处理。

在处理字符串时需要注意，数组长度是包含最后的 \0 的，而 strlen 函数则不会。另外，如果通过数组的方式一个个添加字符，且在最后没有加上 \0 ，那么则由于数组越界进而使得字符串中的数据出现错误。为了防止出现这一错误，最好直接通过双引号进行赋值。另外，不论字符数组有多长，第一次出现 \0 就代表着字符串的结束。

由于 char 实际就是一个数字，因此在解决如大小写转换之类的问题时，可以通过 +- 32 来解决。这里的 32 来自于 ASCII 码表，每一个数字都对应着一个字符。码表可以在网上轻松找到。如果不记得具体的大小，可以通过格式化输出 %d 直接查看对应的数字，如果记不得大小写间差了 32，可以用 'a' - 'A' 来临时凑合使用一下。

一些要注意的语法格式

老师可能不会着重提语法格式，但是实际上良好的格式能够显着提升代码的可读性，方便理解与找错。

main 函数

首先，根据 C99 标准， main 函数应当定义为 int main(void) {...} 或是 int main(int argc, char *argv[]) {...} 。前一种在现在学习的阶段更为常用，其中的 void 一般是可以省略的。但是，最后的 return 0; 是可以被省略的，如果不写将会默认返回 0。有些老师或者书上可能会写成 void main() {...} ，或是说一定要显示地写出 return 0; 。这些都是错误的。具体标准可以参考标准文档。