数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?4 ?% o3 j) e K9 t7 P
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) N5 n& p/ x# l. b2 P* u
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20( D1 Y! v7 K4 j! n% D9 y( n
这个不是这么比的吧。。。, d; n# `) d' w3 \9 \- [
* |$ ?6 _7 z7 y2 I6 M
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。# r9 Q% h3 t: a# v5 d5 O
+ u: M0 ^4 S- c p6 w7 E) d2 T: F7 j
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27+ R3 Y) x2 J m* T' `* M+ h4 c
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47# Y3 N, z2 C$ s2 R6 p) P
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);# }* F2 h3 X# V
std::vector < float > vec2(N);
float* b1 = new float[N];& \/ m9 b8 G$ U9 x( W
float* b2 = new float[N];, m0 a6 L: J" O+ r* u
" @" O. Q4 f: O
for (int j = 0; j < 6000; j++)
{3 y" F, q& q$ ^7 D' U# L. ]4 l
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});( i1 n L) n# q( X- o# @! W
M0 S* r) u( ]. O% C
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;. i+ ^0 M( g4 V
});6 w. H& j+ h2 J/ N" J* C' u: h% @
for (size_t jj = 0; jj < vec1.size(); jj++)
{: X2 {# [. J5 T
b1[jj] = vec1[jj];
}8 A" M3 _: s. C" Z
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}
! I# `. O4 }( p9 \9 f( G S+ o
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);) h4 q: f: p- u4 b5 C3 p& M5 P
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{5 Q2 c& V2 |3 Y4 Y2 P; q
fresult += vec1[jj] * vec2[jj];
}( o. R$ E9 J: j4 a B
*/
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)6 G) g+ a: d4 z' S, ~1 p# @1 p" g- l
{
fresult += b1[jj] * b2[jj];
}! c% Z) _7 r, P+ s. p
*/
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)
{/ q l, N& ~# F- G2 ~$ `0 N
. J2 R# [: L, A+ `
}$ j3 I. j, H9 f& j+ m
*/
//comment out all methods, N=100000 202s e# G* k/ S& d! {0 G' g
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30+ l1 \6 B5 y3 T7 d' N, H$ W! R
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54 o6 }4 P/ j* `" z
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB); E& z9 ^( s, T. y# G5 c7 @; G
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:290 O/ Y9 n7 e: A1 r7 T
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |