首页 > 编程语言 >c++ std::string能否存储二进制字符以及'\0'字符?

c++ std::string能否存储二进制字符以及'\0'字符?

时间:2024-04-18 10:33:32浏览次数:25  
标签:std 字符 string ss gdb rax size

c++的字符串类std::string能否存储二进制字符以及字符'\0'?


要解决这个问题,我们首先要了解c++的std::string的存储结构。
(注意不同的平台下C++规范对std::string的实现不完全一致,例如sizeof(std::string)在linux x64 gcc-4.4下的输出是8,而在mac gcc 4.2下的输出是24; 这篇文章以Linux x64 gcc Red Hat 4.4.4为运行环境。)

首先检查std::string类的实例大小, 即一个std::string对象占用空间大小。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss("1234567890");

    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());
    printf("data  =[%s]\n", ss.data());

    return 0;
}

运行结果如下:

sizeof=[8]
size()=[10]
data  =[1234567890]

我们可以看到sizeof(ss)的输出大小为固定8字节,和string的内容无关,不管内容字符串有多少长度,这个大小都正好是一个地址长度,这说明std::string实例只有一个成员变量即指向字符串内容的指针,而并没有别的成员变量来记录实际字符串长度了。其类成员内存分配模型如下:

  1.jpg

总结起来std::string的成员只有一个指向字符串值的指针。

再看函数size()的输出,正好是字符串内容的长度10个字符,所以size()返回就是10,这个size()函数类似于C语言里返回char *类型数据的长度,即strlen()的返回值(??? 先这么理解)。

下面我们用程序来验证这个问题,即std::string只有一个指针成员变量,这个指针正好指向字符串内容的内存地址。

int main(int argc, char * argv[])
{
    std::string ss("1234567890");
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("&ss=[%p]\n", pv);
    printf("*(ss)=[%p]\n", ps);
    printf("&data=[%p]\n", ss.data());
    printf("data=[%s]\n", ss.data());
    return 0;
}

输出结果如下:

&ss=[0x7fffc8d43ff0]
*(ss)=[0x1ba8028]
&data=[0x1ba8028]
data=[1234567890]

可以看到ss对象的地址是0x7fffc8d43ff0,这个地址上存储的值是0x1ba8028,这个值和data()的值是一样的,也就是说明ss的唯一成员变量就是一个地址,这个地址是一个指向字符串内容的指针。
至此我们已经了解的std::string对象的存储模式。


接下来我们再讨论std::string能否存储二进制字符以及'\0'字符的问题。还是通过一个例子说明。

#include <stdio.h>
#include <string.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";

    printf("strlen=[%d]\n", strlen(ss.data()));
    printf("data  =[%s]\n", ss.data());
    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());

    return 0;
}

依据前面的经验,我们可以很快得出:strlen输出应该是2,data输出应该是"12",sizeof输出应该是8,可是size()输出应该是多少呢?有两种可能:
a). 输出2,即和strlen一样,因为data的第三个字符为'\0'。
b). 输出11,因为总的字符长度为11。
如果a)是正确的,那么相当于剩下的"34", "\255", "56",以及"78"都找不到了,无法引用了,是个严重的memory leak问题;而如果b)是正确的,那么这个size=11是如何计算出来的呢,尽管在"78"之后有一个'\0’字符, 从'1'开始到"78"之后的'\0'长度正好是11,现在的问题是在"12"和"34"之后也有一个'\0'字符,std::string如何得知字符串内容已经结束了呢?

先看上述代码的实际运行结果:

strlen=[2]
data  =[12]
sizeof=[8]
size()=[11]

我们看到size()的实际输出值是11,可见第二种可能性是正确的,所以memory leak的问题是不存在的,那么剩下的问题是size()如何得出正确的值。


通过前面分析我们已经知道两点,1.这个size肯定是需要记录下来的,存在某一个地方;2.类std::string的实例大小是8,即一个指针大小,而这个指针正好确实是指向了字符串内容的地址;貌似没有地方存储这个size大小的值了。

做过应用程序内存分配库函数API的同学估计已经猜到了,std::string可能会把这个size存在什么地方了:),另外如果学习过C++ new数组操作的童鞋估计也猜到了,例如char * ch = new char[50],c++会在ch地址的前面位置存储这个长度50 。
下面我们再给出一个例子来验证这个猜测。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[]) {
    std::string ss = "1234567890";
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("pv=%p\n", pv);
    printf("ps=%p\n", ps);

    size_t len = ss.size();

    return 0;
}

用GDB单步调试

(gdb) b _ZNKSs4sizeEv
Breakpoint 1 at 0x400688
(gdb) r
pv=0x7fffffffe030
ps=0x601028
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
   0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) info register rdi
rdi            0x7fffffffe030   140737488347184
(gdb) si
(gdb) info register rax
rax            0x601028 6295592
(gdb) si
(gdb) info register rax
rax            0xa      10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
   0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

单步来分析这些指令的含义

(gdb) b _ZNKSs4sizeEv

设置程序断点std::string::size(),这个是mangle的函数名。

(gdb) r
pv=0x7fffffffe030
ps=0x601028

执行到断点的时候,程序中的两个print语句已经执行完成,我们记住这两个值,下面会用到。

(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>: mov (%rdi),%rax
0x000000388f49c053 <+3>: mov -0x18(%rax),%rax
0x000000388f49c057 <+7>: retq
End of assembler dump.

反汇编std::string::size()代码,我们可以看到它只有三条指令。

(gdb) info register rdi
rdi 0x7fffffffe030 140737488347184

查看rdi寄存器的值,我们看到是0x7fffffffe030,这和前面打印出来的pv的值是一样的,也就是说%rdi存储的是ss对象的地址。
在之前介绍x64函数传参规范的时候,我们知道函数的第一个参数使用%rdi传递的,有人可能会问了size()没有参数啊,其实C++的实例函数都是默认把this指针作为函数的第一个参数;std::string::size()可理解成C代码的size(std::string * ss);

(gdb) si
(gdb) info register rax
rax 0x601028 6295592

执行完指令mov (%rdi),%rax,把(%rdi)的值load到%rax寄存器;我们看到此时%rax寄存器的值和前面打印出来的ps的值是一样的,就是ss的内容字符串的地址。

(gdb) si
(gdb) info register rax
rax 0xa 10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
0x000000388f49c050 <+0>: mov (%rdi),%rax
0x000000388f49c053 <+3>: mov -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>: retq

执行完指令mov -0x18(%rax),%rax,把-0x18(%rax)的值load到%rax寄存器,我们可以看到此时%rax的值就是字符串的长度。再把字符串内容地址前后64字节内容打出来看看:

(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

据此我们可以推测std::string对象使用字符串内容地址的前面0x18开始存储的是size的值,也就是字符串地址前面的第24字节开始的8字节长度存储size的值;类字符串buffer内存分配模型如下:

  2.jpg

最后通过几个例子验证一下:

#include <stdio.h>
#include <string>

void foo(const std::string & ss) {
    char * ps = *((char **)&ss);
    printf("size=%d,*(ps - 0x18)=%d\n", ss.size(), *((long *)(ps - 24)));
}

int main(int argc, char * argv[])
{
    std::string ss("");
    foo(ss);

    ss = "1";
    foo(ss);

    ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";
    foo(ss);

    return 0;
}

运行结果

size=0,*(ps - 0x18)=0
size=1,*(ps - 0x18)=1
size=11,*(ps - 0x18)=11

 

标签:std,字符,string,ss,gdb,rax,size
From: https://www.cnblogs.com/lidabo/p/18142967

相关文章

  • 处理特殊字符
     某文档操作后得到的字符,由于Oracle11g的字符集原因,当前数据库的字符集为 ZHS16GBK.部分数据内容存储到数据库之后会丢失. SELECTvalueFROMNLS_DATABASE_PARAMETERSWHEREparameter='NLS_CHARACTERSET'; 根据网上的资料,一部分常用的字符 比如数字,......
  • The request was rejected because the URL contained a potentially malicious Strin
    org.springframework.security.web.firewall.RequestRejectedException:TherequestwasrejectedbecausetheURLcontainedapotentiallymaliciousString"%2e"org.springframework.security.web.firewall.RequestRejectedException:Therequestwasrej......
  • pwn知识——(x86)格式化字符串中利用fini_array及拓展
    导言这类题型还是我复现CISCN_2019_西南的PWN1的时候遇见的,算是涨知识了前置知识我们都知道,在程序中最先调用的不是main,也不是__libc_start_main,而是_start,我们来看一下再x86下的_start.text:08048420public_start.text:08048420_start......
  • shell vi 文本替换字符串
     在shell中使用vi或vim编辑器进行文本替换可以通过以下步骤完成:打开终端。使用vi或vim命令打开目标文件,例如:vifilename.txt。进入替换模式,可以通过按:%s/old_string/new_string/g进行全局替换。 : 进入命令模式。% 表示文件中的所有行。......
  • 新手大白话 UUCTF 2022 新生赛ezpop 字符串逃逸
    今天做个字符串逃逸的题目,这个题还挺不错的,不多bb直接看源码。点击查看代码<?php//flaginflag.phperror_reporting(0);classUUCTF{public$name,$key,$basedata,$ob;function__construct($str){$this->name=$str;}function__wakeup(){......
  • python3字符串格式化用format()好还是 % 表达式好
    左手编程,右手年华。大家好,我是一点,关注我,带你走入编程的世界。公众号:一点sir,关注领取python编程资料在Python中,使用format()方法是更推荐的方式来进行字符串格式化,特别是在Python3中。虽然%表达式仍然可以在Python中使用,但已经不推荐使用了,新的项目中能不用就不用,谁知道哪......
  • leedcode-字符串中的第一个唯一字符
    自己写的,easyclassSolution:deffirstUniqChar(self,s:str)->int:mydict={}#创建一个空字典来存储每个字符的出现次数foriins:#遍历给定的字符串sifnotmydict.get(i):#如果当前字符不在字典中mydic......
  • 字符串专题
    字符串专题B-YetAnotherLCPProblem相似题目差异题目主要内容就是求$\sumlcp(T_i,T_j)$利用后缀自动机,并求height数组。我们发现,统计答案的先后顺序是没有影响的,我们不妨用排序后的顺序统计。\[lcp(i,j)=\min_{k=i}^{j}\{height[k]\}\]发现这是具有单调性的。......
  • 如何将带有连字的字体改为无连字的字体 / 如何删除某个指定连字符
    最近浏览内容的时候看见有人提到:有些带连字字体不适合某些语法场景,用了反而会影响阅读。其实目前主流的IDE都支持关闭或者开启连字,但也有不支持关闭连字功能的IDE,要解决这个问题,就得想办法去改字体了。所以这里提供一个直接修改字体来关闭的连字的思路,也可以用于删除某个你不喜......
  • 【做题纪要】冲刺NOIP逆天题单之字符串篇
    幽默题目,冲刺NOIp全是SA和SAM,冲刺NOIp一不小心把p冲没了,成NOI了甚至有上个题单没有出现的CF评分*3300,幽默YetAnotherLCPProblem题意给出一个长度为\(n\)的字符串\(S\)和\(q\)次询问,每次询问给出一个集合\(A\)和\(B\)求\(\sum\limits_{i\inA}\sum\limits_{j\in......