数值分析 发表于 2022-9-24 23:04 u: R$ X+ u- U) G4 {, W6 x0 L
拉下来?拉多少?7 m! p/ c5 o x6 k# m& A5 ^
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:337 k. e6 \. q6 T5 F) \; g: E7 J* V$ H
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54! Y" J3 i7 n- @
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)6 l0 F0 x5 X z3 p, D9 T
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:200 A3 U. N) l2 y M3 t
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:465 ~" M+ P0 G7 a5 [
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:483 N1 {# ?6 Z# P5 c* A
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27* f( J! I; H' Z+ s
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47$ w/ r4 ^, E/ V P. @$ z4 b
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:477 q2 M' c0 a& `% p4 J* @9 C( N6 [
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N); |0 M( ~5 \" E j z
float* b1 = new float[N];: @2 |' X+ A9 x2 W+ ?& z
float* b2 = new float[N];
( h0 t9 n+ M' W G6 w7 \% J: P
for (int j = 0; j < 6000; j++)) L7 d' t M/ }# y8 ~0 E: W! _" u
{3 `, j1 c" e8 l5 f: B" P' s# N
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {6 C5 b; I q- j3 p
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;7 j ?4 A9 F& [4 b" a7 F- q
});
/ @/ w0 z1 x, S( F+ I
for (size_t jj = 0; jj < vec1.size(); jj++)5 B9 ?9 G- d5 s
{9 T H" `7 s6 U7 s
b1[jj] = vec1[jj];- A1 c! E! O& P& I
}2 Z; v8 w, k0 N, N9 D
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];5 n' y) h/ m( c5 `: M
}
//Method - 1 N=100000 247s 9 K% b' s' ~2 o/ R' P
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);* Z% t2 F) E9 P; K5 ^( W
//Method - 2 N=100000 237s
/*! N; O9 f8 Q. f
for (int jj = 0; jj < N ; jj++)
{1 b; S, s2 E& L" k: g. `
fresult += vec1[jj] * vec2[jj];
}
*/& X8 J. F& W x" Y" y9 Y
( X& q: a5 n# `8 ?: M% i2 }
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj]; M& o/ @( ~# L: I; i/ S& ?
}1 _; Y# r1 N# W W
*/
$ F0 R6 E2 t! h; T
//Method - 4 202s0 p! A0 g$ \ M8 S8 V
/*
for (int jj = 0; jj < N; jj++)
{' J& X' d8 B" u3 T7 t
}& a% G6 r3 x8 o
*/7 G9 S% H7 d6 g3 J! V' H
//comment out all methods, N=100000 202s
}. M2 U" N8 j# _
6 D2 A2 K# }* h0 o
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15' A L* E( }1 y, ]. a' M
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)' Q6 A; z2 v6 P
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。4 W; o: J$ y! \/ F0 u
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39' A( _6 ^- ~+ i6 v( B
这个时间是从哪里开始算的?) t" g/ g3 }4 L; j* h
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29+ D$ R7 |# _) x+ {, x, C# f
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
1 W+ t& B* S4 {2 F
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |