数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33" i* \& K" } W T) D2 |; q% q- M
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{3 {7 X9 i- `% z, J3 i
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。& g: i+ A3 T2 I' U8 i
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:462 p" o4 P2 ^) |) b( V# a
有道理。 C4 ]- u, k2 u5 ]& Z
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:201 k( o" a" g) _0 l' y% B6 ?3 o
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48! P- t5 |8 x T P) M$ D
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];5 Z5 ^( w& a; ]* P! ~$ E3 `( Y) K$ v
float* b2 = new float[N];
. Y. a+ W& w* z: R
for (int j = 0; j < 6000; j++)
{* C+ B& y- q$ ~8 Q: r. y
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});1 f# I0 u" R/ J2 B6 p
* x! s9 U& H* z
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;( v, \2 [; U H4 ]# w& R9 i% o8 D
});' q7 y" [* d6 G: c$ S
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];6 y$ U" f: G4 c
}
! P2 i. v% U6 p# d4 Y3 `
for (size_t jj = 0; jj < vec2.size(); jj++)
{2 m" U$ {. v( A! l" D9 k
b2[jj] = vec2[jj];; b& C& g9 v0 e- s$ E0 Z+ ~! R: D
}
//Method - 1 N=100000 247s " N1 k: l& Z1 g! n+ g
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
) r9 ?9 N4 Z$ L
//Method - 2 N=100000 237s* j! p3 |2 q0 [2 t) z7 s
/*; p* |/ {+ p1 r( I8 i( Y$ u
for (int jj = 0; jj < N ; jj++)3 v+ [% t8 z- @: n, C3 p
{
fresult += vec1[jj] * vec2[jj];
}
*/% u1 Y: a! F, C& }5 X
//Method - 3 N=100000 204s: D: U' p. {/ R: Z4 C" N
/*
for (int jj = 0; jj < N; jj++)
{ ]: B$ q. B9 f# X8 N8 R
fresult += b1[jj] * b2[jj];
}
*/5 [& _( `: w9 t" s' c6 Z1 v: C" y
//Method - 4 202s" k! |% O" @* @5 o
/*
for (int jj = 0; jj < N; jj++)" E# D, c2 d7 M1 t" k
{
}. U' r+ t5 U% i& Y4 D& v
*/6 g! e( ~" J' g. u
//comment out all methods, N=100000 202s ) g! b% k+ y' k. x$ Z- R3 t
}
8 p. J+ Z' Q' \, Z [/ I; S
delete []b1;" J6 d, x$ k7 G: E# i v& l
delete []b2;
机器猫 发表于 2022-9-27 00:15 E9 x$ K. t4 q q9 {
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?1 e2 v" u2 J+ {
) B, u8 g) K+ @8 t1 J7 z
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL7 \- Q$ D) d, e8 B! _6 v! U, T
, x) f) R6 K; L3 O# _# F
不和它 ...
3 [3 C$ M( b) f" [. [雷达 发表于 2022-9-24 23:548 L" w+ u: N0 J$ L. }# |/ {! w
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)& ^4 ~6 L( A7 k3 C$ \5 T
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?. e( h. X- V( ^( R: ~6 b
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54. u2 Z5 Y1 n# l. u
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
) ^& T' D6 |6 ]1 m4 m: e9 {0 L
...
。


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |