1、CPU调试支持
软件断点
软件断点就是INT3指令
- 机器码为1字节,内存ASCII码为0xCC,经典的“烫烫烫烫”;
- IDE下断点,就是在那条指令的位置插入INT3,或者那个字节替换为0xCC;
- 软件断点没有数量限制,很有灵活性
- 软件断点的局限性:
- 由于软件断点是插入或者修改指令,对于在ROM(只读存储器)中执行的程序比如BIOS或者其他固件程序,无法动态增加软件断点,只能用硬件断点;
- 属于代码类断点(可以让CPU执行到代码段内的某个地址时停下来),所以不适用于数据段和I/O空间;
CMD/DOS命令行与批处理
内部命令和外部命令
自定义结构
枚举
enum提供了创建常量的方式,可以替代const。使用#define和const可以创建符号常量,使用enum不仅可以创建符号常量,还能定义新的数据类型。
枚举类型的声明和定义:
1 | //声明,创建一个数据类型,还没有分配存储空间 |
1 | #include <iostream> |
使用细节:
- 枚举值不能做左值;
- 非枚举变量不可以赋值给枚举变量;
- 枚举变量可以赋值给非枚举变量;
enum只是定义了一个常量集合,里面没有元素,在内存中是当作int存储的。sizeof的值为4.
结构体和联合体
结构体与数组有两点不同:结构体可以在一个结构中声明不同的数据类型;相同的结构体可以相互赋值,但数组不行。
联合体(共用体)都是由不同的数据类型成员组成,但联合体同一时间只存放一个被选中的成员。如果对联合体的不同成员赋值,将会对其他成员重写。共用体的用途是当数据项使用多种格式单不会同时使用时,可以节省空间。
结构体和联合体的在内存中是小端存储的,从低地址开始存放。
1 | //结构体 |
结构体中的位字段
有些信息在存储时,并不需要占用一个完整的字节,只需要占用几个或一个二进制位。位了节省存储空间,C预言提供了一种数据结构,称为“位域”或“位段”。
C/C++允许指定占用特定位数的结构成员。字段的类型应该为整形或枚举,接下来是冒号,冒号后面指定使用的位数,且可以使用没有名称的字段来提供间距。每个成员都被称为位字段。赋值时不能超过位域的允许范围,如果超过,仅将等号右侧值的低位赋给位域。
1 | struct reg{ |
存储结构与结构体数据对齐
1 | #include <string.h> |
联合体内部公用一块内存空间,所以内部占用空间按照最大的数据类型来存储,联合体适合内存受限的场景,比如嵌入式系统。也因为这个原因,同一时间只有一个成员有效,写入一个成员时会覆盖其他成员。
空结构体(不含数据成员)的大小是1,不是0。编译器必须要为其分配一个存储空间用于占位。
1 | struct s1 |
- 结构体的每个成员在内存中的起始地址必须满足其类型的对其要求,32位系统要求如下:
- char:任何地址
- short:偶数倍地址
- int:4的整数倍、
- float:4的整数倍
- double:8的整数倍
- 指针:4的整数倍
可以看到,如果结构体中存在一个double,则会按照8字节来对齐。然后所有成员按照顺序依次分配内存,编译器会在成员之间插入填充字节,确保下一个成员满足对齐要求。如果存在结构体嵌套,也按照这个对齐规则,所有结构体中的最大成员值来进行内存对齐。结构体的总大小波许是最大成员对齐值的整数倍。
有一点需要注意,如果结构体中存放了一个数组,数组是按照单个变量一个一个摆放的,不要把数组视为一个整体。
程序是可以修改默认编译选项的,修改结构体内存分配,如果设置为1,那就是连续的内存分配布局:
1 | Visual C++: |
C++基础句法
三种基本结构
分支结构
if分支语句
- 单一语句:在任何一个表达式后面加上分号;
- 符合语句:用一对花括号{}括起来的语句块,在语法上等效一个单一的语句;
- if语句:if语句是最常用的一种分支语句,也称为条件语句。
if语句练习:实现一个函数:输入一个年号,判断是否是闰年。闰年判断:1、能够被400整除;2、能被4整除但不能被100整除。
1 | #include <iostream> |
if语句练习:判断一个整数是否是另一个整数的倍数:
1 | #include <iostream> |
switch分支语句
1 | switch(表达式) |
1 | #include <iostream> |
为了比较两种分支语句的区别,我们可以看更底层的汇编代码,拿上面例子举例:
1 | // 多分支条件的if |
在分支不是很多的情况下,两者差异不大,但如果分支很多的话,switch的效率更高。从汇编看switch更像一个表结构,if是个树结构。
使用场景的区别:
- switch只支持常量值固定相等的分支判断;
- if可以做区间范围判断;
- switch能做的if都可以,但反之不行。
性能比较:
- 分支少的时候,差别不是很大,分支多时,switch性能较高;
- if开始处的几个分支效率高,之后效率递减;
- switch的所有case速度几乎一样。
循环结构
C++中一共提供了三种循环语句:while、do while、for
三种循环结构
1 | //计算1 + 2 + …… + 99 + 100的和 |
1 | 三种汇编代码的底层逻辑: |
从底层逻辑上看,do while循环的效率最高,for循环的效率最低。
多层循环与循环优化
请输出所有形如aabb的四位完全平方数:
1 | #include <iostream> |
函数
一个C++程序是由若干个源程序文件构成,一个源程序是由若干函数构成,函数将一段逻辑封装起来,便于复用;
从用户角度看,函数分成:
- 库函数:标准函数,由C++系统提供;
- 用户自定义函数:需要用户自定义后使用
函数的组成部分:
- 返回类型:一个函数可以返回一个值;
- 函数名称:函数的实际名称,函数名和参数列表一起构成了函数签名,函数签名才是被调用的真正名字;
- 参数:参数列表包括函数参数的类型、顺序、数量。参数是可选的,可以不包含参数;
- 函数主体:函数主体包含一组定义函数执行任务的语句。
函数重载与Name Mangling
函数重载Overload,函数的名称一样,但参数列表不同:
1 | int test(int a); |
程序是怎么选择调用哪个函数的呢?这就引入了Name Mangling,给重载的函数不同的签名,以避免调用时的二义性调用。
1 | #include <iostream> |
观察编译生成的.obj中间代码,可以看到有三个test函数:
1 | //?test@@YAHH@Z |
我们用VS自带的undname.exe工具,观察其中的一个可以看到:
即在程序中存储的是程序的签名。
函数与指针
指针的功能很强大,我们可以让指针指向任意的地址空间,所以我们可以让指针指向一个函数。
1 | #include <iostream> |
要注意区别指向函数的指针和返回指针的函数:
- 每一个函数都占用一段内存单元,我们可以通过内存访问到函数,它们有个起始地址,我们可以用一个指针指向起始地址。指向函数入口地址的指针称为函数指针;
函数指针一般形式:数据类型(*指针变量名)(参数表)
- 区分与返回指针的函数的区别
- int(*p)(int); //是指针,指向一个函数的入口地址
- int* p(int); //是函数,返回的值是int指针
1 | #include <iostream> |
上文的例子中,bool ProcessNum(int x, int y, int(*p)(int a, int b))参数有函数指针,我们把函数名传递进去,真正的调用是在这个函数体内部的。我们把这样的调用方式称为回调函数。
命名空间
开发过程中,可能会出现相同的函数签名,但内部实现不一样的情况。为了解决这个问题,可以使用命名空间。
命名空间这个概念,可作为附加信息来区分不同库中相同名称的函数、类、变量等,命名空间即定义了上下文。本质上,命名空间就是定义了一个范围。
关键词:using和namespace的使用。
1 | #include <iostream> |
在开发中,命名空间的使用非常广泛,尤其是使用第三方库的时候。程序中常用的cout就属于std命名空间。
内联函数
如果一个函数是内联的,那么在编译时,编译器会把该函数的代码副本放置在每个调用该函数的地方。
1 | inline int MaxValue(int x,int y) |
引入内联函数的目的是为了解决程序中函数调用的效率问题,即空间换时间;
注意:内联函数内部不能有太复杂的逻辑,比如复杂的循环判断或者递归。编译器有时会有自己的优化策略,所以内联不一定起作用。VS中记得把C/C++设置中的内联优化打开。
递归函数
数学归纳法
数学归纳法是证明当n等于任意一个自然数时某命题成立。证明步骤分两步:
- 证明当n=1时命题成立;
- 假设n=m时成立,那么可以推导出在n=m+1时命题也成立(m为任意自然数)
递归背后的数学逻辑就是数学归纳法。
1 | 斐波那契数列:1,1,2,3,5,8,13,21,34,…… |
递归的基本法则
- 基准情形:必须存在无需递归就能解决的场景;
- 不断推进:每一次递归调用都必须使求解状况朝着接近基准情形的方向推进;
- 设计法则:假设所有的递归调用都能运行;
- 合成效益法则:求解一个问题的同一个实例时,切勿在不同的递归调用中做重复性的工作;
递归的优化
递归是一种重要的编程思想,很多重要的算法都包含递归的思想;但递归在时间和空间上都有很大的缺陷:空间上需要开辟大量的栈空间;时间上可能需要大量的重复运算。
递归优化思路:
- 尾递归:所有递归形式的调用都出现在函数的末尾;
- 使用循环替代;
- 使用动态规划,空间换时间;
1 | // 使用循环来代替递归调用 |
1 | //尾递归 |
1 | //动态规划 |
指针与引用
指针
内存由很多内存单元组成。这些内存单元用于存放各种类型的数据。为了标识内存单元,计算机对内存的每个单元都进行了编号,这个编号就称为内存地址,内存地址决定了内存单元在内存中的位置。程序员并不需要记住这些内存地址,C++的编译器让我们可以通过名字来访问这些内存位置。
指针本身就是一个变量,其符合变量定义的基本形式,它存储的值是内存地址。对于一个基本类型T,T* 是“到T的指针”类型,一个类型为T*的变量能够保存一个类型为T的对象的地址。
通过一个指针访问它所指向的地址的过程称为间接访问(indirection)或者引用指针(dereferencing the point)。这个用于执行间接访问的操作符是单目操作符*。
1 | int main() |
变量、地址和指针变量总结:
一个变量具有三个重要的信息:
- 变量的类型;
- 变量所存储的信息;
- 变量的地址位置
指针变量是一个专门用来记录变量地址的变量,通过指针变量可以间接访问另一个变量的值,这里的另一个变量也可以是个指针,这就是多级指针的问题;
左值与右值
字符串可以用字符数组表示,也可以用指针来表示:
1 | int main() |
strHello不可改变,strHello[index]的值可以改变;pStrHello可以改变,pStrHello[index]的值能否改变取决于所指的存储区域是否可变。这里就涉及到了左值与右值的概念,左值与右值是相对赋值运算符"="来说的,左边需要一个存储单元,右边需要一个值:
- 左值:编译器为其单独分配了一块存储空间,可以取其地址的,左值可以放在赋值运算符左边(也可以放右边);
- 右值:指的是数据本身;编译器没有分配存储空间,不能取到自身地址,右值只能放在赋值运算符右边
左值最常见的情况就是函数和数据成员变量的名字;右值是没有标识符、不可取地址的表达式,一般也称为“临时对象”。
比如:a = b + c;&a是允许的操作而&(b+c)不能通过编译,因此a是一个左值,(b+c)是一个右值;
C++原始指针
一般类型指针T*
T是一个泛型,泛指任何一种类型
1 | int i = 4; |
不论T是什么类型,T*这个指针的内存空间都是一样的,为4个字节
指针的数组 与 数组的指针
指针的数组 T* t[]:指针的数组仍然是数组,里面每个值是个指针(array of pointers)
数组的指针 T(*t)[] :一个指针,指向一个数组(a pointer to an array)
1 | int* a[4]; //一个数组,每个元素都是int指针 |
const与指针
1 | int main() |
如何确定const修饰的内容:
- 看左侧最近的部分
- 如果左侧没有,则看右侧
指向指针的指针
1 | int a = 123; |
*操作符具有从右向左的结合性,**c 这个表达式相当于 *(*c),必须从里向外逐层求值 *c得到的是c指向的位置,即b的地址;**c相当于 *b,间接引用得到变量a的值。
下表是上面例子的一些变量表示:
表达式 | 值 |
---|---|
a | 123 |
b | &a |
*b | a,123 |
c | &b |
*c | b,&a |
**c | *b,a,123 |
未初始化指针和非法指针
1 | int* a; //只声明不赋值,a指向哪里完全不知道 |
上述操作并没有对指针a进行初始化,也就是说我们并不知道a最终会指向哪里。运气好的话定位到一个非法地址(程序不能访问的地址),程序会出错从而崩溃终止。最坏的情况下,a定位到了一个可以访问的地址,这样我们就无意间修改了它,这样的错误难以捕捉,引发的错误与原先用来操作的代码毫不相干,我们根本无法定位。
用指针进行间接访问之前,一定要确保它已经初始化,并且被恰当的赋值。
NULL、nullptr和void*
NULL指针是一个特殊的指针变量,表示不指向任何东西。
1 | int* a = NULL; |
NULL指针的概念非常有用,它给了一种方法,来表示特定的指针目前未指向任何东西。
- 对于一个指针,如果已经知道将被初始化为什么地址,那么请给他赋值,否则请把它设置为NULL,这样可以有效避免不可确定性访问的问题;
- 在对一个指针间接引用前,先判断这个指针的值是否为NULL;
- 指针使用完成后也请重新赋值为NULL;
在早期的C语言中,编译器定义:#define NULL ((void*)0)。void*是一个很万能的指针,可以转换任意的类型。参数传递时经常用到,函数编写时无法预测将来要传递什么信息,就用void*代替。
C++语言诞生时没有把NULL定义为void*,而是定义为了0:
1 | #ifndef NULL |
C++中NULL表示为int而不是指针,和C语言的差异会导致问题,所以C++11中用nullptr来代替(void*)0,NULL只表示0。在新的C++标准中,空指针尽量使用nullptr来表示。
1 | void func(void* i) |
野指针
野指针是指向“垃圾”内存的指针。if等判断对它们不起作用,因为没有置为NULL,它存有值,但是我们用不了;
一般情况下有三种情况被称为野指针: 1. 指针变量没有初始化; 2. 已经释放不用的指针没有置为NULL,如delete和free之后的指针; 3. 指针操作超越了变量的作用域范围(指针指向具有一定生命周期的空间);
没有初始化的,不用的或者超出范围的指针,请一定置为NULL
指针的基本运算
C/C++常常把地址当作整数处理,但不意味着程序员可以对地址进行各种算术操作。指针可以做的运算有限,像指针与其他变量的乘除、两个指针之间的乘除、两个指针相加都是没有意义、不被编译器接受的。
算数运算
指针加上一个整数的结果是另一个指针。当一个指针和一个整数量进行算术运算时,整数在执行加法运算前始终会根据合适的大小进行调整,这个“合适的大小”指的是指针所指向的类型的大小。假设某台机器float占据4字节,则float类型指针+3时,这个3将根据float的大小变为12,即指针增加3个floag的大小。
也可以进行指针之间的算数运算,但只有两个指针指向同一个数组中的元素时才允许这种运算,如果不是同一个数组中的元素,相减的结果是未定义的。减法的运算表示的是两个指针在内存中的距离,以数组元素的长度为单位,而不是以字节为单位
&与*操作符
1 | char ch = 'a'; |
&操作符不能做左值,&操作编译器做是事情是把变量的地址位置取出来,然后放在内存空间中。但是他本身并不是变量自身,仅仅是一块空间存储着变量地址,这块空间的地址我们的程序是没办法获取到的。就像上图,&ch操作拿到的是ch变量的地址,但取出的信息不会像cp这个变量一样有一块能获取地址的内存空间来存储。一定要注意,虽然cp是ch的地址,&ch也是ch的地址,但这俩不是一个概念,只是恰好存的东西一样。
1 | *cp = 'b'; //左值,取的是空间 |
间接引用操作当用作左值的时候,实际的操作是把变量ch当前的位置取出来(取空间),这种操作我们可以对这块空间进行操作,比如赋值操作;当我们把他当作右值时,实际的操作取的就不是存储空间,而是存储空间中的值。
*cp + 1首先得到cp中的值,得到a,做+1操作就是对ASCII码进行操作,得到b。但是这个操作还是由编译器创造一块空间取值,我们得不到这个变量的地址,不能做左值。这个+1的操作是按照cp的类型来做加法的,移动的是cp这个类型的大小。
*(cp+1)操作我们先做了+1,而cp本身是个指针,我们做的是指针的加法,得到的是ch这个变量的地址的后面那个地址(做这个操作前要确定cp指向的地址后面的内容是可以访问的)。这个操作也是可以用作左值和右值,左值就是取地址,右值就是取空间中存储的值。
1 | int main() |
指针的++ 与 --
1 | char* cp2 = ++cp; |
1 | char* cp3 = cp++; |
前置操作先做加法再赋值,后置操作先赋值后做加法操作。自减操作符和自增操作符相同,前置操作先做减法再赋值,后置操作先赋值再做减法。
自增/自减操作获得的地址不能当作左值,它得到的只是个地址的副本,没有明确的变量来存储它的位置。
++操作符优先级高于*,先计算地址偏移;
++++和----等运算符连续
编译器程序分解符号的方法是:一个字符一个字符的读入,如果该字符可能组成一个符号,那么读入下一个字符,一直到读入的字符不能组成一个有意义的符号。这个处理过程称为“贪心法”。
1 | int a = 1,b=2; |
关系运算符
指针可以进行<、<=、>、>=运算,不过前提是它们都指向同一个数组中的元素。根据所使用的操作符,比较表达式将告诉我们哪个指针位于数组中更前或更后的元素。
C++程序的存储区域划分
栈和队列
数据结构中有两种常见的结构,一种是栈结构,先进入的数据会被压在栈底,后进入的数据会被放在栈顶,是一种先进后出的结构;还有一种是队列结构,和栈相反,类似于生活中的队列,先进入的数据会先出队列。
在C++中,栈是一种很常见的结构,我们一般性的变量都在栈上,函数也会在栈上处理。
存储区域划分
1 | #include <iostream> |
通过调试上面的代码,可以观察到一些程序中的地址分布:
上图是栈区变量b,s,p2的地址空间,可以看到虽然我们定义变量的顺序是b,s,p2,但是内存空间的地址位置是从高地址到低地址变化的,越早分配的变量,拿到的地址位置越高。
再观察p3变量。看p3本身的地址可以观察到它的地址分配再p2的上面,因为都是栈区变量,但是内部存储的一个地址并不是在栈区,是在常量区。在常量区中的内容,我们是无法修改的。这就是指针变量的特点,可以指向不同的位置。如果p2指向的是一个字符数组,那么指向的就是栈区空间,是可以改变的。
继续观察p1,p1是在函数之外声明的,看地址也可以观察到,它的地址和b,s相差很大,可知它并不在栈区。这种定义在函数外的变量属于全局的区域。
当p1和p2执行完new操作后,观察p1和p2指向的地址空间,发现两个区域相邻。而且p1先new,p2后new,地址空间p2指向的地址也比p1要高。new操作会产生新的区域,我们称为堆区,和栈区相反,内存分配方式由低地址向高地址分配。
再看p4,p4本身是在main函数中定义的,是栈区变量。它new的是一个char型的数组,new出的地址和p1和p2指向的地址也很接近,可知也是堆区内。
对存储区域做一个总结,如下图:
动态分配资源--堆区
- 从现代编程语言的观点来看,使用堆,或者说使用动态内存分配,是一件很自然的事情;
- 动态内存带来了不确定性:内存分配耗时需要多久(分配大空间不好控制)?分配失败了怎么办?在实时性要求很高的场合,如嵌入式控制器和电信设备,这些不确定性是很严重的;
- 一般而言,当我们在堆上分配内存时,很多语言会使用new这样的关键字,也有些语言是隐式分配,不使用new的语义,但使用的是new的方式。在C++中new对应词是delete,因为C++是允许程序员完全接管内存的分配释放的。
分配和回收动态内存的原则
程序通常需要牵扯到三个内存管理器的操作:
- 分配一个某大小的内存块;
- 释放一个之前分配的内存块;
- 垃圾收集操作,寻找不再使用的内存块并给予释放;
这个回收策略需要实现性能、实时性、额外开销等各方面的平衡,很难有统一和高效的做法。C++语言使用了1和2;Java使用了1和3。
资源管理方案--RAII(Resource Acquisition Is Initization)
- 这是C++特有的资源管理方式,主流的编程语言中,C++是唯一一个依赖RAII来做资源管理的,核心思想是分配资源的时候就可以管理资源;
- RAII依托栈和析构函数,来对所有的资源--包括堆内存在内进行管理。比如一个对象在构造和析构中就把资源管理起来,当对象生存空间超出后进入析构状态,我们就可以进行资源的释放。RAII的使用,使得C++不需要类似于Java哪样的垃圾收集方法也能有效管理内存。
- RAII有些比较成熟的智能指针代表,如std::auto_ptr和boost::stared_ptr。
C++的几种变量的对比
stack | heap | |
---|---|---|
作用域 | 函数体内,语句块{}作用域,超出后被系统回收 | 整个程序范围内,由new、malloc开始,delete、free结束 |
编译期间大小确定 | 变量大小范围确定 | 需要运行期间才能确定 |
大小范围 | Windows默认1M,Linux默认8M或10M,注意空间很小,不要分配大内存变量 | 所有系统的堆空间上限接近内存(虚拟内存)总大小(有一部分被OS占用) |
内存分配方式 | 地址由高到底减少 | 地址由低到高增加 |
内容是否可变 | 可变 | 可变 |
全局静态存储区 | 常量存储区 | |
---|---|---|
存储内容 | 全局变量,静态变量 | 常量 |
编译期间大小是否确定 | 确定 | 确定 |
内容是否可变 | 可变 | 不可变 |
内存泄漏(Memory Leak)问题
内存泄漏指的是程序中已经动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果;
内存泄漏主要发生在堆内存分配方式中,即“配置了内存后,所有指向该内存的指针都遗失了”。如果缺乏垃圾回收机制,这样的内存片就无法归还系统;
因为内存泄漏属于程序运行中的问题,无法通过编译识别,所以只能在程序运行过程中来判别和诊断。
比指针更安全的解决方案
使用指针是非常危险的行为,可能存在空指针,野指针的问题,并可能造成内存泄漏问题。可是指针又非常高效,所以我们希望以更安全的方式来使用指针。一般有两种典型方案:
- 使用更安全的指针:智能指针;
- 不使用指针,使用更安全的方式:引用;
C++的智能指针
C++推出了四种常见的智能指针:unique_ptr、shared_ptr、weak_ptr和C++11中已经废弃(deprecated)的auto+ptr,C++17中auto+ptr已经被正式删除。
auto_ptr
auto_ptr是一种简单直接的智能指针,可以指向一个泛型对象。我们由new获得的对象在堆区中,如果auto_ptr指向这个对象,那么在auto_ptr对象销毁的时候,它所管理的对象也会一并delete掉,这不是一个特别合理的行为,因为指针指向对象不是一种强关联的关系。
所有权转移:有一个auto_ptr指向一个对象,如果我们不小心把对象传递给另外的智能指针(即有另一个auto_ptr指向了原来的对象),原来的指针就不再拥有这个对象了。这个操作是通过C++中的拷贝构造和赋值完成的,会直接剥夺指针对源对象内存的控制权。被剥夺后,对象内存的所有权转移给新指针,然后将原对象指针置为nullptr。因为这个问题,导致auto_ptr存在很大的安全隐患,这是被废弃的重要原因。
1 | #include <string> |
1 | //xmemory文件 |
unique_ptr
auto_ptr提供了自动管理内存的一个方法,但是它和对象的耦合性太紧了,如果多方操作对象很容易出问题,所以推出了unique_ptr。unique_ptr是专属所有权,所以被unique_ptr管理的内存,只能被一个对象持有,不支持复制(参数传递)和赋值(=)操作。
移动语义:虽然unique_ptr禁止了拷贝语义,但有时候我们也需要能够转移所有权,于是提供了移动语义,即可以使用std::move()进行所有权的转移。
1 | #include <memory> |
shared_ptr和weak_ptr
unique_ptr在同一时间只能由一个指针持有对象,使用上具有局限性。所以推出了shared_ptr。
shared_ptr通过一个引用计数共享一个对象,在这个机制上提供了可以共享所有权的智能指针,当然引用计数需要额外的开销。当引用计数为0时,说明该对象没有被使用,可以进行析构。
1 | #include <iostream> |
引用计数也会带来一个严重问题:循环引用。即存在一种情况,有两个对象,对象A内部有shared_ptr指针指向B,B中也有shared_ptr指向A,当A使用完毕打算回收内存空间时,会检查内部变量pA,此时会去尝试清理B,但B中也有pB指向A,此时循环引用会导致堆里面的内存无法正常回收,造成内存泄漏。
为了避免这种循环引用,标准库提供了weak_ptr,被用来和shared_ptr共同工作,用一种观察者模式工作,获得资源的观测权,像旁观者那样观测资源的使用情况。比如两个对象A和B互为关联,但B只是想获取A的一些属性,并不需要A的所有权,那么可以用weak_ptr,指向A但是并不拿A的引用计数。因为B没有A的引用计数,那么A销毁的时候,B也可以同时销毁。这就是观察者模式,观察者意味着weak_ptr只对shared_ptr进行引用,而不改变其引用计数,当被观察的shared_ptr失效后,相应的weak_ptr也失效。
1 | #include <string> |
1 | 上面代码输出: |
引用
引用在本质上仍然是是指针,只不过自身比较特殊,是不允许修改的指针。(我们常说java中没有指针,其实java中的指针就是引用)
在指针使用上,我们会遇到一些问题:
- 空指针
- 野指针(没有初始化)
- 不知不觉改变了指针的值,我们却仍然在使用
使用引用,我们可以避免这些问题:
- 不存在空引用;
- 引用必须被初始化;
- 一个引用永远指向它初始化的那个对象,不允许被修改。
- 引用的基本使用:可以认为是指定变量的别名,使用时可以认为是变量本身:
1 | int x1 = 1,x2 = 3; |
- 当我们在函数中需要操作形参并且返回时一并返回,这时候我们就可以传递引用。
1 | #include <iostream> |
C++为什么要同时存在指针和引用?在java语言中我们直接使用引用,传统C语言我们都使用指针。C++可以认为是夹在C和java之间的一种。之所以要使用引用是为了支持函数的运算符重载。而C++为了兼容C语言不能摒弃指针。
在函数传递参数的时候,对于内置基础类型(int、double等)而言,在函数中传递值更高效(pass by value);在面向对象中自定义类型而言,在函数中传递const引用更高效(pass by reference to const)。
基础容器--字符串
字符串是由零个或多个字符组成的有限串行。
子串的定义:串中任意个连续的字符组成的子序列,并规定空串是任意串的子串,任意串是其自身的子串
字符串变量与常量
C风格的字符串包括两种:字符串常量和末尾添加了'\0'的字符数组。无论怎么表示,都以'\0'结尾。
字符串变量
- 字符串是一个特殊的字符数组,以空字符'\0'结尾;
- 空字符'\0'自动添加到字符串的内部表示中;
- 在声明字符串变量的时候,要时刻记得为这个空结束符预留一个额外元素的空间:char str[11] = {"helloworld"},十个字符要留11个位置
字符串常量
- 字符串常量就是一对双引号括起来的字符序列:"helloworld";
- 字符串常量中的每个元素可以作为一个数组元素访问;
- 字符串常量也是以'\0'结尾的;
字符串的指针表示
1 | const char* pStrHelloWorld = "helloworld"; |
表示一个char型的指针变量,指向内存中一个存储字符串“helloworld”的地址。
定义字符串有两种方式,char[]和char*,要区分以下两个概念:
- 区分地址本身和地址存储的信息;
- 区分可变与不可变;
1 | int main() |
char* pstr是指针,pstr本身可变,pstr[index]是否可变取决于指向的存储区间是否可变;
char str[]是字符串数组,str本身的值不允许改变,但可以改变str[index];
字符串操作
头文件:string.h
C/C++字符串处理函数,传递给这些标准库函数例程的指针必须具有非零值,并且指向以null结束的字符数组中的第一个元素。其中一些标准库函数会修改传递给它的字符串,这些函数将假定它们所修改的字符串具有足够大的空间接收新字符串,程序员需要保证目标字符串足够大。
字符串遍历
一般来说,我们使用指针的算数操作来编译C风格的字符串,每次对指针进行测试并递增1,直到到达结束符null为止:
1 | const char *cp = "helloworld"; |
字符串长度
1 | strlen(s); //返回字符串s的长度,要注意字符串的长度不包含'\0'。 |
1 | //自定义实现strlen |
字符串比较
1 | strcmp(s1,s2); |
两个字符串自左向右逐个字符相比,按照ASCII值大小来比较,直到出现不同字符或遇到'\0'为止;
1 | //自定义实现strcmp: |
字符串拷贝
1 | strcpy(s1,s2); //赋值字符串s2到字符串s1的地址空间 |
要注意一个陷阱,一定要保证字符串s1的内存大小能存的下要拷贝的s2的大小
1 | //自定义实现strcpy |
拷贝还可以使用内存拷贝函数:
1 | //从src所指向的内存地址起始位置开始拷贝n个字节到dest所指的内存地址的起始位置中。返回指向dest的指针 |
memcpy和strcpy的区别:
- 复制内容不同。strcpy只能复制字符串,而且不仅复制字符串内容,也复制结束符'\0';memcpy可以复制任意内容,用途更广;
- strcpy不需要指定长度,memcpy需要指定长度
字符串拼接
1 | strcat(s1,s2); //将字符串s2拼接到s1后面(覆盖s1的'\0'),返回s1 |
1 | //自定义实现strcat: |
这个更加要注意,s1的大小要足够存放拼接后的s1+s2字符串的大小
两个char*不能直接相加,字符串拼接必须要用这个函数。(指针相加是什么操作啊(#`O′))
字符串查找
1 | strchr(s1,ch); //指向字符串s1中字符ch第一次出现的位置 |
内容替换
1 | //将s中的前n个字节用ch替换并返回s |
这个函数的作用是在一块内存中填充某个给定的值,是对较大的结构体或者数组进行清零的最快方法。
安全函数
C语言的字符串处理有其漏洞所在。上面的所有方法都无法做边界检查,如果不注意就会发生缓冲区溢出的问题,这个问题在编码时是很严重的事故。。现在我们往往在程序中使用更加安全的API函数:
上述所有API函数都有其_s版本,如strcpy_s(),在执行操作的同时要告诉系统当前可使用的缓冲区的大小。 strlen()的安全版本是strnlen_s(),传入字符串的同时要传入一个最大的边界,以防止某些字符串没有'\0'结束标志。
C++新型字符串--string类
C++标准库中提供了string类型专门表示字符串
1 | #include<string> |
使用string可以更加方便和安全的管理字符串,对性能要求不是特别高的场景可以使用。
定义
1 | string s; //定义空字符串 |
字符串长度
1 | cout<<s1.length()<<endl; //输出字符串长度 |
字符串比较
直接使用运算符== != < > >= < = 即可,通过ASCII码来比较。
转换为C风格字符串
1 | string s1 = "hello"; |
随机访问
字符串本身就是数组,可以使用下标的方式访问
1 | string s = "hello"; |
字符串拷贝
不需要使用函数,直接使用=赋值
1 | string s1 = "hello"; |
字符串拼接
string重载了+和+=,不需要使用函数
1 | string s1 = "hell0",s2 = "world"; |
基础容器--数组
数组
序列型容器
数组代表内存里一组连续的同类型的存储区,可以用来把多个存储区合并成一个整体。比如:int arr[10] = {1,2,3,4,5,6,7,8};
数组声明:
- int arr[10];
- 类型名int表示数组里所有元素的类型
- 整数10表示数组里包含的元素个数
- 数组元素个数不可以改变,是常量
使用注意:
- 每个元素都有下标,标识一个元素在当前数组容器中的位置。通过下标可以直接访问数组内任意元素
- 下标从零开始
- 超过范围的下标不可以使用,会内存错误。一定要注意,内存溢出是程序中经常出现的BUG
- 数组名和下标可以表示数组里的元素,如a[2]表示第三个元素
数组定义中的类型可以是除引用之外的任意类型,引用是不能赋值的,所以没有引用数组:int& a[10]错误
数组优点:
可以编写循环程序,依次处理数组里的所有元素;
- 循环变量依次代表所有有效下标;
数组使用常见错误:off-by-one error(差一错误)
考虑一个问题,假定整数x满足边界条件x>=16且x<=37,那么此范围内的整数x可能的取值有多少?这个问题思考有两个基本原则:
- 首先考虑最简单的情况(特例),然后将结果外推;
- 仔细计算边界问题;
特例:x的上界与下界重合,即x>=16与x<=16,显然其中的x个数为1;那么假定下界位low,上界位high;当low与high重合,个数为1,即共有high-low+1个元素。那么外推,这里共有37-16+1=22个元素。
最容易出错的地方就是+1,很容易就仅仅计算high-low。
我们可以抽象出一个编程技巧来规避这个错误:用数学上的左闭右开[,)区间表示,上述问题可以看作[16,38),即38-16=22。C++中,我们编程也遵循这个原则,从0开始,使用非对称区间,让下界可以取到值,上界取不到值。这样设计程序,可以直接用上界-下界来取得范围大小;当取值范围为空的时候,上界值=下界值;即使取值范围为空,上界值也永远不可能小于下界值。
1 | //推荐的方式: |
结论—C语言设计数组下标的原则:从0开始,使用非对称区间[,);让下界可以取到值,上界取不到值;这样设计的好处:
- 取值的范围大小可以直接上界-下界;
- 如果这个取值范围为空,上界值=下界值;
- 即使取值范围为空,上界值永远不可能小于下界值;
初始化
定义数组时,可以为其元素提供一组用逗号分隔的初值,用{}括起来,称为初始化列表。数组元素初始化时若没有显式提供元素初值,则元素会被向普通变量一样初始化:
- 全局的数组变量,元素初始化为0;
- 函数内部的局部内置类型数组,元素无初始化;如果只初始化部分元素,剩余元素也会被初始化为0;
- 数组类型不是内置类型,则无论在哪里定义,自动调用其默认的构造函数为其初始化,若该类无默认构造函数则会报错;
增删改查
- 在尾部添加和删除操作,时间复杂度为O(1)。只需要操作尾部元素即可,对与其他元素没有干扰。
- 在数组中间进行添加和删除操作,时间复杂度为O(n)。在中间操作,会对其他元素造成影响,操作元素后面的每一个元素都需要进一步操作
- 数组的访问用遍历很高效,时间复杂度为O(1);
- 数组的查找复杂度一般为O(n),取决于数组的容量(数组容量很大的时候并不适合遍历查找,时间复杂度太高,可以用二分查找);
1 | //下标访问 |
1 | //寻找a[]中第一个值为3的目标: |
二维数组
二维数组是包含行列两个维度的数组。二维数组的初始化既可以按行初始化,也可以顺序初始化:
1 | int ia[3][4] = { |
二维数组访问:
1 | int a[2][4] = {{1,2,3,4},{5,6,7,8}}; |
二维数组我们一般按照一行一行的遍历,虽然可以进行一列一列的遍历的,但是实际操作中不建议这么做:因为循环需要满足“空间局部性”:在一个小的时间窗口内,访问的地址越接近越好,这样执行的速度快;也就是说我们一般把最长的循环放在内层,最短的循环放在最外层,以减少CPU跨切循环的次数。
本质上所有数组在内存中都是一维线性的。不同的预言采用的存储方式不同,有的采用行有限存储,有的采用列有限存储。C/C++中采用行优先顺序存储。
二维数组动态声明:
1 | //a[m][n] |
C++新型数组—vector
Vector是面向对象方式的动态数组。
动态是指容量不固定:我们经常使用的简单的数组,因为定义的时候就有固定容量,所以无法实现动态扩容插入元素。使用vector容器,可以轻松实现动态扩容添加元素。
面向对象是C++的特性,vector封装了一系列的方法,我们创建vecor的对象可以方便的使用。
添加
使用vector容器,可以轻松实现动态扩容插入元素,传统的C数组容量有限,vector可以动态管理扩容。
- push_back,尾添加
- insert,任意位置添加(效率不高)
1 | #include<vector> |
遍历
1 | for(int index = 0;index < vec.size(); ++index) |
我们可以使用vector中的capacity()方法来查看vector当前的容量,用size()的方法来查看已经存储的元素的个数。这两者有区别,容量是指容器可以容纳元素的个数,数量是已经存储的数据个数;
删除
- vec.pop_back(); //尾删除
- vec.eraser(pos); //指定位置删除
要注意如果打算使用eraser的方法进行尾删除,要注意end()的位置。数组的区间往往是左闭右开,end()指向的是尾元素的后面的地址,并不是尾元素自身。
1 | vec.pop_back(); |
调试技巧——assert()
编写代码时,我们总会做出一些假设,断言就是用在代码中捕获这些假设。断言表示为一些布尔表达式,我们相信在程序中的某个特定点该表达式的值为真,可以在任意时刻启用和禁用断言来验证。
举个例子,在离散数学中有个德摩根定律,我们在C++语言中可以验证:
1 | #include<iostream> |
这种代码方式在开发中并不常见,而是使用以下断言的方式:
1 | #include<iostream> |
在这个程序中,并不会有任何输出结果,但是程序正常运行。
假如assert()函数中表达式出错(非真),整个程序在运行的时候就会报错,并指出哪里出了问题。
所以今后在我们开发的时候可以运用这一特性,完成开发测试用例的编写:
1 | assert(函数返回值 == 预期结果); |
只要函数运行符合预期结果,程序正常运行,一旦不符合就会出错。
注意assert()不是函数,而是一个宏定义。
C++运算符与表达式
运算符是一种告诉编译器执行特定的数学或逻辑操作的符号。C++内置了丰富的运算符,并提供了以下类型的运算符:
- 算数运算符
- 关系运算符
- 逻辑运算符
- 位运算符
- 赋值运算符
- 杂项运算符
在程序中,运算符是用来操作数据的,因此,这些数据也被称作操作数。使用运算符将操作数连接而成的式子称为:表达式。 表达式的特点:
- 变量和常量都可以认为是表达式;
- 运算符的类型对应了表达式的类型,如算术运算符对应算数表达式;
- 每一个表达式都有自己的值,即表达式都有运算结果;
算数运算符
A=10,B=20
运算符 | 描述 | 实例 |
---|---|---|
+ | 两个操作数相加 | A+B=30 |
- | 第一个操作数减去第二个操作数 | A-B=-10 |
* | 两个操作数相乘 | A*B=200 |
/ | 分子除以分母 | B/A=2 |
% | 取模运算符,整除后的余数 | B%A=0 |
++ | 自增运算符,整数值增加1 | ++A = 11 |
-- | 自减运算符,整数值减少1 | - -A=9 |
除法运算中整数和浮点数的运算结果不太一样,整数除的话结果就是整数,要想输出完整整型数:需要用浮点数去除:
1 | int A = 10; |
自增/自减运算符放在变量的前面和后面是不一样的。放在变量前面称为前缀运算,先取变量的地址,做运算后再把值放入寄存器(先变后用);放在变量后面称为后缀运算,先取变量的地址中的内容放入寄存器,然后对内存中的信息做运算(先用后变)。因为前缀运算返回的是操作数本身,所以前缀运算可以作为左值表达式;后缀运算返回的是临时变量,只能用于后缀表达式。
自增和自减运算符只能用于变量,不能用于表达式:6++、(i+j)++、(&p)++这些都是不合法的。
C/C++编译器对程序编译时,从左到右尽可能多的将字符组成一个运算符或者标识符,因此"i+++j++"是合法的,因为编译器会理解为"(i++)+(j++)",这两个自增运算符作用的对象都是变量;但是"++i+++j"是不合法的,编译器会理解为"++(i++)+j",其中第一个自增运算符作用的对象是"i++",这是一个表达式,不合法。
1 | int A = 10; |
关系运算符
A=10 ;B=20
运算符 | 描述 | 实例 |
---|---|---|
== | 检查两个操作数是否相等,如果相等则条件为真 | (A == B)不为真 |
!= | 检查两个操作数是否相等,如果不相等则条件为真 | (A!=B)为真 |
> | 检查左操作数是否大于右操作数,如果是则条件为真 | (A>B)不为真 |
< | 检查左操作数是否小于右操作数,如果是则条件为真 | (A<B)为真 |
>= | 检擦左操作数是否大于等于右操作数,如果是则为真 | (A>=B)不为真 |
<= | 检查左操作数是否小于等于右操作数,如果是则条件为真 | (A<=b)为真 |
关系运算符返回的都是bool类型的值。千万不要连起来用:"i< j < k"这种写法有问题,"i < j"运算完成后直接返回true或false,是拿这个true或false来和k做比较的。
逻辑运算符
A = true; B = false;
运算符 | 描述 | 实例 |
---|---|---|
&& | 逻辑与运算符。如果两个操作数不为零,则条件为真 | (A && B)为假 |
|| | 逻辑或运算。两个操作数任意一个非零,则条件为真 | (A || B)为真 |
! | 逻辑非运算,用来逆转操作数的逻辑状态,是单目运算符 | !(A && B)为真 |
可以用逻辑运算符来表示德摩根律:\(\neg(A \land B)\) 等价于 \(\neg A \lor \neg B\); \(\neg(A \lor B)\) 等价于 \(\neg A \land \neg B\)
1 | cout << (!(A || B) == (!A && !B)) << endl; |
逻辑运算符本身也是有优先级的 1
2auto a = true || true && false; //true
auto b = (true || true) && false; //false
逻辑与和逻辑或求值策略都是“短路求值”:先计算其左边的操作数,只有再仅靠左操作数无法确定逻辑表达式的值的时候,才会求解右操作数。
赋值运算符
把右侧的值赋给左侧。注意左侧的值一定要是一个变量。
运算符 | 描述 |
---|---|
= | 赋值运算 |
+= | 加且赋值运算符 |
-= | 减且赋值运算符 |
*= | 乘且赋值运算符 |
/= | 除且等于运算符 |
%= | 求模且等于运算符 |
<<= | 左移且赋值运算符 |
>>= | 右移且赋值运算符 |
&= | 按位与且赋值运算符 |
^= | 按位异或且赋值运算符 |
|= | 按位或且赋值运算符 |
位运算符
位运算符作用于位(bit),并逐位进行操作。
p | q | p&q | p | q | p^q |
---|---|---|---|---|
0 | 0 | 0 | 0 | 0 |
0 | 1 | 0 | 1 | 1 |
1 | 1 | 1 | 1 | 0 |
1 | 0 | 0 | 1 | 1 |
位运算符还包括取反操作"~"和移位运算"<<"和">>",都是以bit为单位运算。
与、或、异或都是双目运算符,结合性从左到右,优先级高于逻辑运算符,低于关系运算符,且从高到低为&、^、|
使用移位运算符需要注意,左移运算还比较简单,移走的位自动填充0,但右移运算有两种情况,逻辑右移时移走的位填充0,但算数右移时移走的位与符号位有关。底层到底是逻辑右移还是算数右移取决于编译器,而不是程序员,所以对于有符号数,尽可能不要使用右移运算!!!
1 | // 位运算 |
异或操作有特性:两个相同的数异或后结果为0,且满足交换律,即"ABCDFB"等价于"ACDEF"。这个特性常用来寻找成对出现的数据时缺失的哪一个数:如对于一组数【A、B、C、D、A、B、C】,直接做异或运算"ABCDAB^C=D"找出缺失的D。
异或操作还可以交换两个变量的值,利用了异或操作的自反性(aa=0)、恒等性(a0=a)以及交换律(ab=ba、(ab)c=a(bc))。不过要注意两个变量不能相等,相等后结果为0:
1 | a = a ^ b; //步骤1 |
杂项运算符
运算符 | 描述 |
---|---|
sizeof | sizeof运算符,返回变量的大小,即这个变量的类型所占用的byte的长度 |
Condition ?X:Y | 条件运算符,唯一的三目运算符。如果Condition为真,则值为X,否则值为Y |
, | 逗号运算符,会执行一系列运算,整个逗号运算符表达式的值是以逗号分隔的列表中的最后一个表达式的值 |
.(点)和->(箭头) | 成员运算符,用于引用类、结构体和共用体的成员 |
Cast | 强制类型转换运算符,把一种数据类型转换成另一种数据类型,如int(2.20)将返回2。C++中不建议使用强制转换 |
& | 指针运算符&,返回变量的地址 |
* | 指针运算符*,指向一个变量 |
一定要注意,sizeof是运算符,不要理解为函数!!!sizeof的操作数可以是一个表达式或者是类型名。需要牢记sizeof的计算发生在编译时期,所以它可以被当作常量表达式使用,且会忽略括号内的运算。比如sizeof(a++)中的++不会执行。
如果sizeof中传递的是个函数调用,则返回函数返回类型的大小,函数不会调用。这里只能传递函数调用,不能传递函数名(Func()这个是函数调用,Func是函数名)。且如果函数返回的是void,不能确定类型,也不可以使用sizeof运算符。
运算符优先级
下表从高到低列出各个运算符,较高的运算符会被优先计算:
类别 | 运算符 | 结合性 |
---|---|---|
后缀 | () [] ++ -- | 从左到右 |
一元 | + - ! ~ ++ -- (type)* & sizeof() | 从右到左 |
乘除 | * / % | 从左到右 |
加减 | + - | 从左到右 |
移位 | << >> | 从左到右 |
关系 | < <= > >= | 从左到右 |
相等 | == != | 从左到右 |
位与AND | & | 从左到右 |
位异或XOR | ^ | 从左到右 |
位或OR | | | 从左到右 |
逻辑与 | && | 从左到右 |
逻辑或 | || | 从左到右 |
条件 | ?: | 从右到左 |
赋值 | = += -= *= = %= >>= <<= ^= |= | 从右到左 |
逗号 | , | 从左到右 |
只需要记住两点:
- 一般来说,一元运算符优先级高于对应的二元运算符;
- 弄不清就加括号