设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 7733|回复: 25
打印 上一主题 下一主题

[信息技术] C++ 提速的新发现

[复制链接]
  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    跳转到指定楼层
    楼主
     楼主| 发表于 2022-9-24 22:54:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    C++ 比 Octave 慢好多,怎么破?9 Z( d! Y( x: E' G6 ^
    - J7 }6 J) J# u/ k
    自相关两层循环,内层循环涉及浮点数计算,试验了一下把内层循环内部全都 comment out 只留个壳子,  但空的内层循环本身就把速度拉下来了,看来问题并不在浮点计算。5 K2 e' [$ Z% C( X% `

    ' S( [* w+ f" a- }% {速度优化问题真的很有意思啊。
    ( ~8 P* t+ e7 }* c7 R7 H
    $ p0 M- }5 p8 N5 g" v欢迎大家继续讨论

    评分

    参与人数 2爱元 +8 收起 理由
    helloworld + 4
    住在乡下 + 4 涨姿势

    查看全部评分

  • TA的每日心情
    开心
    2026-2-7 02:13
  • 签到天数: 1955 天

    [LV.Master]无

    沙发
    发表于 2022-9-24 23:04:16 | 只看该作者
    拉下来?拉多少?
      n$ d# b8 H6 `! b- E7 @# @把代码贴上来看看?8 H: b' s. {. Q5 o; Y6 z
    3 I4 v4 \( _  }. S6 K/ N/ I
    难道分支预测不准破坏流水线执行?不该啊。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
    发表于 2022-9-24 23:15:41 | 只看该作者
    会不会代码本身的缺陷阻止了自动优化?另外,硬件配置和开发环境可能也有关系。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2026-2-24 07:04
  • 签到天数: 126 天

    [LV.7]分神

    地板
    发表于 2022-9-24 23:33:02 | 只看该作者
    Maybe Debug mode?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    5#
     楼主| 发表于 2022-9-24 23:54:10 | 只看该作者
    本帖最后由 雷达 于 2022-9-24 23:57 编辑 ! Y0 M2 Y' I) y3 N
    数值分析 发表于 2022-9-24 23:04
    2 ~4 ]: z) `- y# X1 R% A! _拉下来?拉多少?
    ) s! G5 y, ~' F* l把代码贴上来看看?
    6 X3 P3 `  ?# s1 j3 M3 f

    # P7 \$ z4 v7 l8 b! @3 {void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)8 D1 o* ?1 S  i6 X  d" t1 ~. t' Y3 c
    {
    . g7 i# p8 q& A' E) ^' U        comp temp, xtimesy;2 v' T  x3 u2 m) U' w6 L( _& Y6 W
            xtimesy.re = 0;
    % r$ L3 r, V* B  f5 }        xtimesy.im = 0;  B0 r+ E+ Y+ m+ _9 E' c! g( e" e
            int j0 = lenB - 1;
    , m2 D" I  M4 }3 Q1 d        int    i, j, i1, reali;
    " ^* r+ F( ?" c/ A( i8 x  L        if (lenA % 2 == 1)3 s& @; L) s$ b  H5 G
                    reali = lenA + 1;) o2 T" A4 }6 h" Q
            else; l# R$ v, W- g: d# Y. ], R( p
                    reali = lenA;2 V. K  K7 v" X
            reali /= 2;( C. o6 }. C! m* I
    ; E3 S% N9 S3 I, b
            int nconv = reali + lenB;
    8 ~1 @3 X  k6 ?1 k9 {  Q9 |        //#pragma omp parallel for
    $ A; [" T% z0 ^. z: B7 C5 r. Q$ ]        for (i = reali; i < nconv; i++). k7 d$ p1 B$ T" m. g
            {# x2 ~$ r' l7 l4 n% H# P( h
                    temp.re = 0;
    0 V' |$ Z* E6 Z4 J( p                temp.im = 0;
    # V; f' l7 y' [0 K                i1 = i;
      U3 R; i! p' p  Q7 ]                for (j = j0; j >= 0; j--)+ x! d7 a6 _7 x0 e
                    {
    9 l3 J# |7 W  Q0 H                        /* floating date operation */9 ?3 c: V* V  o! R6 d- b4 K( a1 _7 W
                    }
    ! q  I) R7 c0 I8 L% j
            }0 N5 V7 ]* E! v7 `. f
    }
    % E) Z8 o: Y5 Z. k' x* h; B
    1 l" C+ H5 K/ n! |) k4 q) Mxcorr函数代码如上,comp是复数struct, 做过长度为11、19两个矢量的测试,和octave结果完全一样
    : y. o& Q. v* g; G
    8 u, K* L/ q4 |( J- {8 `( N; b红色部分是内循环,现在其内部操作都comment out 了, j0大概是 6000。6 r" k; z' j+ `5 W5 k! }% {( N5 s* o
    现在call xcorr 100次,耗时78s.  g' C/ O1 I! {; a! ~, n+ }
    ; v% P+ {. T" U& A
    如果把红色部分内循环本身完全comment out, call xcorr 1000次,耗时 <1s. 7 D' L' A# b& f) `# p

    & Y+ f* `8 @  J" s3 `
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    6#
     楼主| 发表于 2022-9-25 00:17:17 | 只看该作者
    风雨无阻 发表于 2022-9-24 23:33
    4 C  a, d" K8 c3 ]4 aMaybe Debug mode?

    - L/ P2 d+ n5 j) j/ c4 [
    # A# H: h. B: Z$ @) x; z9 f; H: n不应该,看我上面的回复。: L) Q5 ?% K6 K* m
    ' C+ V1 Y9 a; }; H5 P, t6 C
    我更怀疑是 VS 社区版的问题
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2026-2-7 02:13
  • 签到天数: 1955 天

    [LV.Master]无

    7#
    发表于 2022-9-25 00:20:10 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 00:24 编辑
    ) v  H" }2 ^  O
    雷达 发表于 2022-9-24 23:54$ G8 z* \$ e% @1 J6 m) r, a8 I
    void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)- d5 z9 e: J( {9 M; p  p
    {
    / B' d8 Y$ l" [, E: I5 h        comp temp, xtimesy;
    : `4 [# f6 L- ~5 K

    1 y% a1 F! ]0 I2 L/ p这个不是这么比的吧。。。
    : h" a; _" ~1 \% m& X6 Z: n! l! w. d7 p" h( Q
    您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。. U# d6 \9 T" C7 w6 m+ r$ W

    # G  w$ U/ u! H6 n) v1 T& D而加上内循环,光jmp和dec指令就至少多执行了6000个,慢个几十倍不是正常的么?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    8#
     楼主| 发表于 2022-9-25 00:46:56 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 01:09 编辑
    * m* X1 ?6 W0 N( Y
    数值分析 发表于 2022-9-25 00:20
    " z$ _. A/ n7 h9 U* o) d这个不是这么比的吧。。。
    * l! L# A3 `$ T: K" R6 i( i- ^7 f% i) L. l+ l' R' }) {$ C+ H; T; O
    您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    & l& I3 X; l8 z" n% M/ c. h' X

    % g% G7 i0 U4 |有道理。
    $ Q9 @& f- u0 @+ Z所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,记得 numeric 库里有算向量内积的,我回头试试。  r5 }. |9 ^2 m4 K  r( h
    + o! C7 C4 i- d7 H7 u
    我先尝试尽量用标准库,一个小程序,不想搞得太复杂。多谢了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
    发表于 2022-9-25 01:27:53 | 只看该作者
    雷达 发表于 2022-9-25 00:46
    0 O8 @9 z! t6 t4 O! A# ~  d2 ?有道理。( U1 }( C4 W4 w2 ^: x, C( y4 s
    所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
    7 w. \0 K3 p% p% ?
    你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子,把循环本身翻译成机器指令loop或dec/jnz,两者速度上会差很多# L/ H: g# k" D: X' i% R" N
    Why is the loop instruction slow? Couldn't Intel have implemented it efficiently?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    10#
    发表于 2022-9-25 01:48:51 | 只看该作者
    数值分析 发表于 2022-9-25 00:20& G3 h1 n3 [5 H0 D  g* F; ^$ m' a
    这个不是这么比的吧。。。
    4 \% E* h/ t1 d! F1 v! l0 }2 A" m9 h
    1 ]1 P* U' A, Z您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    而加上内循环,光jmp和dec指令就至少多执行了6000个
    ' G& ^% F! ~( C6 V% J

    3 x% M8 m. q  Q- }& M7 v现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果循环这样跑,花不了多少时间。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2026-2-7 02:13
  • 签到天数: 1955 天

    [LV.Master]无

    11#
    发表于 2022-9-25 02:06:44 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 02:16 编辑
    ; V1 ]' u- X. R
    沉宝 发表于 2022-9-25 01:48) D. x) g5 q% ]! a$ l) B
    现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
    8 Z) L9 ]5 u% L+ x5 L

    $ j0 r" Z0 Q/ D8 d* S) |是的,兄台说的对。* @  U+ U; |7 n
    : U3 W9 v! D! e, n) r# Q! T
    其实我想说的是 真正数值计算部分和代码中其他不直接计算的overhead的比值这个事儿。
    ; q' S5 c' K. z& f3 [" h! D3 E$ D# B: A7 F9 C) i- x* j9 l' E. e+ A
    雷达兄构造测试用例的时候,屏蔽掉了所有计算的部分,使得剩下的都是overhead,这样run time比较的结果就显得好像不合理了。如果把计算加回去,计算部分的run time会dominate,结果就不那么离谱了。因为不好说,所以用指令数对比的方式试图直观地说明这一点。
    % y0 e: M' D% g* W( T4 K9 t& a* w
    , |6 F7 r/ v7 P3 X: [比如说,如果有计算,那么跑六千个循环相对于计算应该用不了多少时间。但是如果一边是什么都不做,另一边是六千个循环,那六千个循环比什么都不做慢几十倍了,就不是那么不合理了。# D* l# `# u( i

    9 ?. y( e( [1 M3 L' g1 }% |" G当然也有可能像兄台说的,是优化参数的问题,但我觉得更多地是测试用例设计的不合理。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    12#
     楼主| 发表于 2022-9-25 04:47:43 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 04:49 编辑
    ; }$ r& l$ o: g+ `# S
    沉宝 发表于 2022-9-25 01:277 T6 v0 i2 g  ~8 D% ~$ d
    你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...

    ; v. C+ s; Q" e+ e& |" N/ J6 \
    $ u' X" x! `' F* C: l2 I0 Q又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差一倍,我上面这个差的太多了。
    9 M8 x/ c2 H, E% }+ q; X1 t$ N  `2 F" O& Y  o
    我已经完全懵了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
    发表于 2022-9-25 05:51:23 | 只看该作者
    雷达 发表于 2022-9-25 04:47
    ! x9 z1 p+ j; P4 T0 f又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
    3 j" W! _2 i- C
    时间差一倍的结果可以接受。2 d3 ~' V, ^  Z8 o
    * F: _3 D" z; \  x9 V" h. u6 H
    你还是用profile工具看看吧。现在大家都主观瞎猜。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2026-2-7 02:13
  • 签到天数: 1955 天

    [LV.Master]无

    14#
    发表于 2022-9-25 14:58:59 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 15:38 编辑
    ! {; b3 n# l! P9 ]
    雷达 发表于 2022-9-25 04:47
    3 `# z1 Z9 W! F9 }6 U9 w又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
    5 t* {4 Y. x. e$ B
    % A. {6 g' L: j
    & z6 g8 e0 w0 `9 J# w5 g

    & w& W/ r! |2 ~4 n# x# }能不能把这个也贴上来,看看和上一个有什么不同?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    15#
     楼主| 发表于 2022-9-26 01:30:03 | 只看该作者
    本帖最后由 雷达 于 2022-9-27 01:17 编辑
    5 x) w, K4 c9 i+ `' ^) V
    数值分析 发表于 2022-9-25 14:581 [$ M  U- z, L0 i
    能不能把这个也贴上来,看看和上一个有什么不同?

    2 z9 A. U2 _8 t0 S& Y  o: e( W理了理思路,重新做了一个测试。/ @( M# f8 }# [' I
    做了两个 vector 和 两个 float *, 都长 1000005 l6 Q  c  p4 r% Y4 y& X7 j& R5 K
    外循环 6000,里面先做随机数生成,模拟真实环境,避免数据的 cache.& ^2 s$ W, G2 R, W8 U
    ! l2 K5 c' u) n) p
    内循环试了4种方法,
    ( |) f$ _0 u" Y1 w1. 直接调用 vector inner_product 247s
    7 p) P; t* Z  h. w2 N' k2. vector 循环点乘累加 237s0 l" \: n6 l+ _, ~' L+ ?9 v, I! E4 \. y
    3. float * 循环点乘累加 204s
    3 C! o+ U' E! C9 Y" S4 F  W4. 空循环 100000 次 202s
    7 k9 Q9 G% d) }1 u, e7 m& x% o2 E# p$ j  d7 {0 C3 q2 Y
    不做内循环 200s
    9 l7 \- S. h7 l7 m: i
    " Y  o) O" t8 G+ X你昨天说的对,内循环本身占比是很小的,大头在其他处理。" N+ v$ j8 x3 x/ V- H
    另外可以看到, float * 循环点乘累加 并不差,比用vector 还更快。* {" d( k4 h9 e- H. d" _+ S$ U

    5 e( z; o) Y  H  `+ ^至于我那个原始程序,还有一些疑问,见5楼,其他都不变仅仅是有无空的内循环就有很大不同,这是不对的,也许有一些其他缺陷我没有看到。(也许可以改成 while 试试)' O* N7 @8 J8 j: p3 n( R
    ' G: W& u/ }* E9 c) r' y
    (为什么下面我贴的  b1 加 方括号里的 i , 显示出来却是 b1 ?方括号 i 消失了。 LOL . 改成  jj 好了,原来 方括号里的 i 是斜体标志  LOL)0 n$ C6 C5 ^! }+ h2 Z2 x# U$ d

    / k& @; f" F3 Z8 H* m7 n. X
            std::vector < float > vec1(N);
    9 a! O5 V+ P$ o7 h1 N        std::vector < float > vec2(N);7 b# n0 }  w: s# L
            float* b1 = new float[N];
    3 ?0 P; Y+ ?; e( S9 Z7 ?) g        float* b2 = new float[N];" S+ @1 t7 Y# x% i+ Q
    & o3 o; _+ A/ F* d& ^1 M6 W7 |! z7 Z
            for (int j = 0; j < 6000; j++)
    9 a4 q! {: v$ O% F$ X        {+ J  r4 l0 C6 C
                    std::generate(vec1.begin(), vec1.end(), []() {# ]" Y& Q- h, ]8 B# ~
                            return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;0 r8 ^" T9 _6 o% v4 n5 Y3 ^
                            });
    0 s# R+ c# V* ]$ J1 {7 N0 W
    . i8 ~' N& z5 C* c. P3 a  k/ [                std::generate(vec2.begin(), vec2.end(), []() {5 _+ k, u6 l# G3 U( G" j
                            return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;: M$ p: K/ x3 O
                            });, J; w( E% p8 v7 i
    . A& B: [9 n; t( g; g5 ^
                    for (size_t jj = 0; jj < vec1.size(); jj++)$ t* r7 A# E- s" h
                    {1 m  U; c  Q  V( `
                            b1[jj] = vec1[jj];
    1 A; C7 X  ~0 ]) Q' y! s& T/ g6 r1 J% s                }  H$ A! ?: s1 ]8 t4 i

    / X' f# J! O4 X                for (size_t jj = 0; jj < vec2.size(); jj++)# d; I+ h: x; v
                    {6 V+ T8 N# j* t$ e, p
                            b2[jj] = vec2[jj];5 Z/ v4 J  W; @. ]0 t
                    }
      k% ~* _# N3 h, I# ^6 |# A& b' W/ D0 z8 h" G
                    //Method - 1  N=100000 247s  9 F  C/ X, x1 a. f$ j
                    //fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
    . T+ L9 M* Z9 O1 U2 n# f6 d' U                                $ B& |; s7 B9 U# n% O4 y  c7 J; F
                    //Method - 2  N=100000  237s
    5 w0 ?: W/ @8 B5 w/ p3 l                /*
    . T3 J3 t: R9 n; \4 J- F/ p) {2 I                for (int jj = 0; jj < N ; jj++)% [5 z, u/ Z, n3 y, O1 c; p
                    {
    ( T" ^8 T$ Q1 r" d                        fresult += vec1[jj] * vec2[jj];
    " T, L$ L4 i" e/ j5 X                }& n& W1 _) B/ ^/ j- ]) K
                    */
    ( \+ f: _& k6 ~% x1 R, c9 V                                , }4 G0 g7 l2 m4 y
                    //Method - 3  N=100000 204s
    # K& K/ ^$ D% h5 u7 F                /*9 P+ q8 k* M! w$ k$ Y7 ]
                    for (int jj = 0; jj < N; jj++)
    8 {, S% Q; T7 d$ u                {
    ! a. s4 {, `' h; ^9 K                        fresult += b1[jj] * b2[jj];
    * ~( j" g1 S, ?, K; X) H                }2 [: i5 K# u9 o! N5 @4 J
                    */
    & u2 K2 s7 Y9 z
    0 Z( h( {0 m6 ~/ n                //Method - 4   202s- X  }& B5 A2 j5 r7 a
                    /*
    , `- B" f; ?  }  c7 j% A                for (int jj = 0; jj < N; jj++)9 ^8 n3 W& r5 K9 Z8 Z2 g, T" J
                    {
    ) ]- r0 {: I( k3 A, ?* M: r                        
    ) m( ^6 C  j* [                }
    4 w' t5 _5 e7 w8 K( H; P2 a9 b                */' N- S( Z; c$ R
                    //comment out all methods, N=100000  202s                . s6 N: q, k6 x8 F+ J* c6 Y
            }0 O9 b, x5 n) S+ y
    : a( _+ T8 z2 ?# h4 f6 J9 ~  }
            delete []b1;
    . u. `* g3 q9 q% n$ M        delete []b2;
    5 k% }8 S" }/ y6 l
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    16#
    发表于 2022-9-27 00:15:38 | 只看该作者
    瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?) w5 C, c4 k* g6 ^( g: g( {

    3 o4 y+ U+ V- R4 M6 \你第二个试验里面的j在循环里面又重新定义了啊,你确定真的跑了6000次?* u  H2 I6 z+ U/ r4 O
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    17#
     楼主| 发表于 2022-9-27 01:16:03 | 只看该作者
    机器猫 发表于 2022-9-27 00:15
    8 U& h6 z' \. U  u0 }' y. C+ H瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?( N5 o9 s% @3 E5 _; t* f
    9 a  a9 d6 ]6 z  d
    你第二个试验里面的j在循环里面又重新定义 ...
    2 K( B) m0 A% Z  ^5 N6 A* f5 ]
    内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
    * w4 M  a* V3 H  F- h
    ) k: g8 {. t: f# h2 p不和它较劲了,瞎耽误工夫,我已经转到 ubuntu, 也准备顺便试试 avx2 向量化。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    18#
    发表于 2022-9-27 02:06:58 | 只看该作者
    雷达 发表于 2022-9-27 01:16
    6 ?  ^( Q. T+ g  ?7 v8 k内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL% [! R. D, m2 Q; v( X+ ^
    5 Z; {/ o2 [5 u2 q# v+ q
    不和它 ...
    + l# [9 @& l/ R5 ^- n& ~* A

    * `) u: j- i1 h/ h" b不过可以试试我说的register变量。前一个试验j是混在一堆其它变量里一起定义的,很有可能是在stack上,这样内存读写会更多,要是再碰上每次都需要加载cache就更慢了。
    # L2 q2 G4 ]! b& e后面一个是在循环那里定义的,说不定编译器就把它优化成register变量了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    19#
    发表于 2022-9-27 07:25:57 | 只看该作者
    一个无关问题,为什么爱坛的帖子里在我这里有好些奇怪的东东在里面,是防拷贝措施吗?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    20#
    发表于 2022-9-27 20:29:50 | 只看该作者
    雷达 发表于 2022-9-24 23:54
    ; Y0 I, n6 w# ?. Y+ T! F6 Ovoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
    ) D  ^, ^8 }: t{
      g5 o- K% T4 e2 [& }; o        comp temp, xtimesy;

    . p$ Z: R7 u. z2 T& H( w这个code里面如果Openmp没有被注释掉的话,那么temp那个变量应该是定义在循环里面,否则线程之间会存在争夺写入那个temp的风险。
    9 V& o1 l4 p( q! l7 _7 `( R+ h内层for循环如果没有内部操作的话,编译时应该被优化掉了,和你完全注册掉整个循环是一回事。可能你的编译设置没有打开优化?
    3 c- [% V0 B6 L2 _' k( zVS社区版没有问题,我工作用的就是社区版,设置正常的话不会比商业版差。以前游说头头用Intel Compiler,他说不想花钱,而且差不了多少,就一直用到现在。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-23 14:55 , Processed in 0.076070 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表