暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

彻底弄懂为什么不能把栈上分配的数组(字符串)作为返回值

程序员跑路笔记 2019-10-13
324

背景

最近准备一个教程,案例的过程中准备了如下代码碎片,演示解析 scheme

  1. #include <stdio.h>

  2. #include <stdlib.h>

  3. #include <string.h>


  4. char *parse_scheme(const char *url)

  5. {

  6. char *p = strstr(url,"://");

  7. return strndup(url,p-url);

  8. }


  9. int main()

  10. {

  11. const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";

  12. char *scheme = parse_scheme(url);

  13. printf("%s\n",scheme);

  14. free(scheme);

  15. return 0;

  16. }

上面是通过 strndup
的方式,背后也依托了 malloc
,所以最后也需要 free
。有人在微信群私信 parse_scheme
能用 char[]
来做返回值吗?我们知道栈上的数组也能用来存储字符串,那我们可以改写成下面这样吗?

  1. char *parse_scheme(const char *url)

  2. {

  3. char *p = strstr(url,"://");

  4. long l = p - url + 1;

  5. char scheme[l];

  6. strncpy(scheme, url, l-1);

  7. return scheme;

  8. }

大多数人都知道不能这样写,因为返回的是栈上的地址,当从该函数返回之后,那段栈空间的操作权也释放了,当再次使用该地址的时候,值就是不确定的了。

那我们今天就一起探讨下出现这样情况的背后的真正原理。

基础预备

每个函数运行的时候因为需要内存来存放函数参数以及局部变量等,需要给每个函数分配一段连续的内存,这段内存就叫做函数的栈帧(Stack Frame)。因为是一块连续的内存地址,所以叫帧;为什么叫要加一个
呢?想必大家都熟悉了函数调用栈,为什么叫函数调用栈呢?比如下面的表达式

  1. array_values(explode(",",file_get_contents(...)));

函数的执行顺序是最内层的函数最先执行,然后依次返回执行外层的函数。所以函数的执行就是利用了栈的数据结构,所以就叫栈帧。

x86_64 cpu上的 rbp
寄存器存函数栈底地址, rsp
寄存器存函数栈顶地址。

实验

  1. #include <stdio.h>


  2. void foo(void)

  3. {

  4. int i;

  5. printf("%d\n", i);

  6. i = 666;

  7. }


  8. int main(void)

  9. {

  10. foo();

  11. foo();

  12. return 0;

  13. }


  1. $gcc -g 2.c


  2. $./a.out

  3. 0

  4. 666

为什么第二次调用 foo
函数输出的结果都是上次函数调用的赋值呢?先看下反汇编之后的代码

  1. 000000000040052d <foo>:

  2. #include <stdio.h>


  3. void foo(void)

  4. {

  5. 40052d: 55 push %rbp

  6. 40052e: 48 89 e5 mov %rsp,%rbp

  7. 400531: 48 83 ec 10 sub $0x10,%rsp

  8. int i;

  9. printf("%d\n", i);

  10. 400535: 8b 45 fc mov -0x4(%rbp),%eax

  11. 400538: 89 c6 mov %eax,%esi

  12. 40053a: bf 00 06 40 00 mov $0x400600,%edi

  13. 40053f: b8 00 00 00 00 mov $0x0,%eax

  14. 400544: e8 c7 fe ff ff callq 400410 <printf@plt>

  15. i = 666;

  16. 400549: c7 45 fc 9a 02 00 00 movl $0x29a,-0x4(%rbp)

  17. }

  18. 400550: c9 leaveq

  19. 400551: c3 retq


  20. 0000000000400552 <main>:


  21. int main(void)

  22. {

  23. 400552: 55 push %rbp

  24. 400553: 48 89 e5 mov %rsp,%rbp

  25. foo();

  26. 400556: e8 d2 ff ff ff callq 40052d <foo>

  27. foo();

  28. 40055b: e8 cd ff ff ff callq 40052d <foo>

  29. return 0;

  30. 400560: b8 00 00 00 00 mov $0x0,%eax

  31. }

  32. 400565: 5d pop %rbp

  33. 400566: c3 retq

  34. 400567: 66 0f 1f 84 00 00 00 nopw 0x0(%rax,%rax,1)

  35. 40056e: 00 00


理论分析

第一次进入 foo
函数前后

在进入 foo
函数之前,因为 main
里没有参数也没有局部变量,所以,main 的栈帧的长度就是0, rbp
rsp
相等( 0x7fffffffe2c0
)。当执行

  1. callq 40052d <foo>


会把 main
函数的在调用 foo
之后需要返回执行的下一行代码的地址压栈,因为是64位机器,地址8字节。进入 foo
之后

  1. push %rbp

rbp
的值压栈,因为也是存的地址,所以又占了8字节,所以当初始化 foo
函数的 rbp
的时候

  1. mov %rsp,%rbp

rsp
已经在原来的基础上加了 16
字节,所以从 0x7fffffffe2c0
变成了 0x7fffffffe2b0

  1. sub $0x10,%rsp

因为 foo
函数里面局部变量,编译的时候就预留了 16
字节,所以 rsp
变为了 0x7fffffffe2a0
最后执行了

  1. movl $0x29a,-0x4(%rbp)

666
放在了 0x7fffffffe2ac
,当第二次调用的时候,打印 i
的汇编代码如下

  1. printf("%d\n", i);

  2. 400535: 8b 45 fc mov -0x4(%rbp),%eax

  3. 400538: 89 c6 mov %eax,%esi

  4. 40053a: bf 00 06 40 00 mov $0x400600,%edi

  5. 40053f: b8 00 00 00 00 mov $0x0,%eax

  6. 400544: e8 c7 fe ff ff callq 400410 <printf@plt>

第二次进入 foo
函数前后

因为上次 -0x4(%rbp)
存了 666
,而第二次调用 foo
rbp
的值又和第一次一样,所以是一个地址。所以 666
就被打印出来了。

回到主题

  1. #include <stdio.h>

  2. #include <stdlib.h>

  3. #include <string.h>


  4. char *parse_scheme(const char *url)

  5. {

  6. char *p = strstr(url,"://");

  7. long l = p - url + 1;

  8. char scheme[l];

  9. strncpy(scheme, url, l-1);

  10. printf("%s\n",scheme);

  11. return scheme;

  12. }


  13. int main()

  14. {

  15. const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";

  16. char *scheme = parse_scheme(url);

  17. printf("%s\n",scheme);


  18. return 0;

  19. }


调试信息如下,当从 parse_scheme
返回时,打印 scheme
的结果还是 http
,但是当我们调用 printf
之后,和上面样例中一样, parse_scheme
出栈, printf
入栈,则栈上内存就又替换了,所以打印出来的结果则不再是 http
了。


文章转载自程序员跑路笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论