数值分析 发表于 2022-9-24 23:042 {% _% J |( W" [4 ]
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33! x8 D! I( k2 T/ ]
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)4 c+ E! l: R6 x: A" s0 _( j7 S
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
0 r! V; x& N, q) @4 p* B* ^; M
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。2 a% u. C0 v5 L4 a8 j
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:203 ~8 y6 ^7 u' |& i
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48, ^: L: c* Q5 [$ Z
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47! z3 \- q) C# x0 t6 S( Z& s
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:470 y" X/ K0 ~0 M! E( C& G
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);2 L# s9 W8 [6 Z8 W: {
float* b1 = new float[N];
float* b2 = new float[N];, S) Q' f8 X7 V* [9 e
4 l v. C- \$ ^2 L' `; f
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;7 R! C8 x0 L0 x
});
- z6 V; P* P1 N. ~
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;! M4 ^8 Q0 B6 g3 n D
});/ Z: U; j# o; ~% [- N* w8 F
for (size_t jj = 0; jj < vec1.size(); jj++)* O# e2 c2 W3 l1 q; J5 }
{
b1[jj] = vec1[jj];* \. e7 R' c8 I% h1 H/ J
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];* O" a2 X4 F8 A9 j4 B+ ?/ M* |
}
//Method - 1 N=100000 247s * |% [4 [* a1 y) w3 J1 J
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
) L. F6 q+ f) U- ^% T! a$ W# a
//Method - 2 N=100000 237s+ [1 G; ]! M2 N; y0 I g& Q7 i
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
} x0 `! T7 b' M
*/
//Method - 3 N=100000 204s h& J9 H9 n. M+ @) T: J6 x0 H
/*0 [# m4 F7 [; p3 l1 h# l+ z4 v
for (int jj = 0; jj < N; jj++)5 P' \1 \0 z. C6 w* }$ t! E
{
fresult += b1[jj] * b2[jj];
}+ `- D' @. i5 M0 [( B9 N
*/
2 m) k# s$ Q2 u9 {
//Method - 4 202s
/*) W% s3 i8 ^& C. u+ G
for (int jj = 0; jj < N; jj++)
{. h* t7 U1 H# W* y4 s
}
*// {( O$ a3 W& ?1 |. X2 R) a, n& v
//comment out all methods, N=100000 202s
} O: O" k2 w) w" s+ [9 B
0 E6 G% D6 M g l& @* m9 @' w# Q. G
delete []b1;" a* G6 K) ]' Z( r+ V1 U3 Q0 V' q$ U
delete []b2;
机器猫 发表于 2022-9-27 00:152 I. v [) e, x- g* k6 r" e$ ~: e, k
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?# f( f3 y, n; l0 f' \% i3 z
8 ~1 V. L+ S& J! P7 U
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16* M0 p+ Z8 M3 D* q
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
$ h, F1 ^' F V7 R
不和它 ...
& J" A+ \0 l/ `雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)" ]: T" |1 s$ l6 ^
{6 l6 k, b- Z. D, X; X/ ?$ ` U: g
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:545 d- c/ L0 I7 Z$ z7 V" X( [# v V
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{+ h4 M3 E! Q# C
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗" i8 j) b* m, K: S. ^( f( }9 X& y
...
。

3 Q7 ^1 x5 j4 L$ M8 Q- F| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |