Leistung

Vision Software Benchmark SSE- und Multicore-Optimierung CPU-Benchmarking Deep Learning

Die Werkzeuge der Zebra Aurora Vision-Software sind hochoptimiert für moderne Multi-Core-Prozessoren mit SSE / AVX-Technologie. Die folgende Tabelle zeigt die Ergebnisse eines Leistungsbenchmarks für Vision-Software.

Benchmark von Vision-Softwares

Filter	Zebra Aurora Vision Studio 4.12	ein Anderes Produkt	OpenCV 4.2
Invertieren eines Bildes	0.030 ms	0.032 ms	0.025 ms
Addition von zwei Bildern (Pixel-weise)	0.029 ms	0.047 ms	0.036 ms
Subtraktion von zwei Bildern (Pixel-weise)	0.036 ms	0.045 ms	0.030 ms
Transformation vom RGB- zu HSV-Farbraum (3xUINT8)	0.127 ms	1.026 ms	0.129 ms
Gauß-Filter 3x3	0.031 ms	0.035 ms	0.037 ms
Gauß-Filter 5x5	0.033 ms	0.073 ms	0.052 ms
Gauß-Filter 21x21 (σ = 4.3)	0.311 ms	0.355 ms	0.240 ms
Mittelwert-Filter 3x3	0.100 ms	0.102 ms	0.291 ms
Verdünnung (Erosion) 3x3	0.030 ms	0.035 ms	0.050 ms
Verdünnung (Erosion) 5x5	0.030 ms	0.036 ms	0.059 ms
Sobel gradient magnitude (sum)	0.032 ms	0.035 ms
Sobel gradient magnitude (hypot)	0.034 ms	0.040 ms
Schwellenwertsegmentation	0.043 ms	0.076 ms
Region auf Blobs Aufteilung	0.119 ms	0.206 ms
Bilineare Bildskalierung	0.131 ms	0.108 ms	0.052 ms

Die obigen Ergebnisse entsprechen einer Auflösung von 640 x 480, 1 x UINT8 auf einem Intel Core i5 - 3,2 GHz-Computer. Um die nicht zufällige Komponente des Messfehlers zu eliminieren, wird die Wiederholungszahl jeder Operation angegeben wurde um den Faktor 10, 30 erhöht. Dies führt zu folgender Wiederholungssequenz: 10, 20, 30, ..., 300. Später wurde für die erhaltenen Ausführungszeiten eine gerade Linie angepasst. Bei diesem Ansatz beziehen sich konstante Fehler zum Start und Stopp von Messungen wird durch die Linienverschiebung reflektiert, während die Ausführungszeit ausgedrückt wird in Liniensteigung. Um die Genauigkeit der Messungen zu erhöhen, wurden große Bilder getestet und die Ergebnisse normalisiert. Beachten Sie auch, dass die Funktionen aus den verschiedenen Bibliotheken nicht immer genau die gleichen Ausgabedaten erzeugen.

SSE- und Multicore-Optimierung

Die Filter von Zebra Aurora Vision Studio sind für die SSE / AVX / NEON-Technologie und für Multi-Core-Prozessoren optimiert. Beschleunigungsfaktoren, die mit diesen Techniken erreicht werden können, hängen jedoch stark davon ab der jeweilige Betreiber. Einfache pixelweise Transformationen, nachdem SSE-basierte Optimierungen bereits den Speicher erreicht haben Bandbreitenbeschränkungen. Auf der anderen Seite können komplexere Filter wie die Gauß-Glättung erreicht werden sogar 10-mal kürzere Ausführungszeiten als nur bei C ++ - Optimierungen.

CPU-Benchmarking

Die folgende Tabelle zeigt, wie gut verschiedene Prozessoren bei der Ausführung unserer Softwaretools arbeiten (je höher desto besser). Sie können es als Referenz verwenden, wenn Sie Hardware für Ihre Anwendung auswählen.

Benchmark category

Overall result

Device description

Executor Engine

Image processing

Image analysis

Region processing

Applications

Intel Atom D525
1.80GHz / 1MB cache / 2 cores / 4 GB RAM

54.9

32.7

41.1

61.7

53.1

48.7

Intel Core 2 Duo T6400
2.00GHz / 2MB cache / 2 cores / 3 GB RAM

54.9

79.4

87.1

108.2

105.4

87.0

Intel Atom E3845
1.91GHz / 2MB cache / 4 cores / 4 GB RAM

100.0

Intel Pentium N4200
1.10 GHz / 2MB cache / 4 cores/ 4 GB RAM

193.5

204.2

157.3

143.6

167.3

173.2

AMD FX-4100 Quad-Core
3.60 GHz / 8MB cache / 4 cores/ 8 GB RAM

112.3

213.4

164.8

218.7

174.6

176.7

AMD Athlon II X2 270
3.40 GHz / 2MB cache / 2 cores/ 8 GB RAM

311.6

136.8

171.6

210.0

212.0

208.4

Intel Core-i7 3612QM
2.10GHz / 6MB cache / 4 cores/ 4 GB RAM

427.8

534.6

303.6

295.9

352.6

382.9

Intel Core-i7 2600K
3.40GHz / 8MB cache / 4 cores/ 8 GB RAM

507.6

593.4

346.8

345.9

393.1

437.4

Intel Core-i5 3470
3.20GHz / 6MB cache / 4 cores/ 16 GB RAM

545.3

628.1

355.1

324.7

403.6

455.0

Intel Core-i5 3570K
3.40GHz / 6MB cache / 4 cores/ 8 GB RAM

554.6

645.5

359.0

360.4

416.5

467.2

Intel Core-i5 4460
3.20GHz / 6MB cache / 4 cores/ 16 GB RAM

611.6

667.6

366.6

356.9

421.3

484.8

Intel Core-i7 4800MQ
2.70GHz / 6MB cache / 4 cores/ 12 GB RAM

628.3

678.7

380.5

378.9

420.8

483.5

Intel Core-i7 6700HQ
2.60GHz / 6MB cache / 4 cores/ 16 GB RAM

641.8

710.0

365.9

366.8

416.3

500.2

Intel Core-i7 4800MQ
2.70GHz / 6MB cache / 4 cores/ 16 GB RAM

640.2

699.1

380.9

378.8

412.6

502.3

Intel Core-i5 6500
3.20GHz / 6MB cache / 4 cores/ 16 GB RAM

663.7

794.0

395.7

390.2

458.1

540.3

Intel Core-i5 7500
3.40GHz / 6MB cache / 4 cores/ 16 GB RAM

684.3

830.1

422.0

406.8

492.6

567.1

Intel Core-i7 4790K
4.00GHz / 8MB cache / 4 cores/ 16 GB RAM

798.2

887.5

474.7

461.1

550.1

634.3

AMD Ryzen 7 2700X
3.70GHz / 20MB cache / 8 cores/ 16 GB RAM

667.9

1407.1

535.9

439.0

419.6

693.9

Intel Core-i7 8700K
3.70GHz / 12MB cache / 6 cores/ 16 GB RAM

862.5

1364.7

587.8

491.3

594.3

780.1

Ein höherer Wert bedeutet eine bessere Leistung.
Der Test misst die Ausführungszeit für eine konstante Anzahl von Vorgängen. Die Ergebnisse sind normalisiert.
Zurück nach oben

Deep Learning Benchmark

Die folgende Tabelle zeigt, wie gut verschiedene Hardwarekonfigurationen bei der Ausführung unserer Deep Learning-Tools funktionieren (je höher desto besser).
Sie können es als Referenz verwenden, wenn Sie Hardware für Ihre Anwendung auswählen.

Hardware configuration

Deep Learning Network

Overall result

CPU / RAM / GPU / Compute Capability/ NVIDIA Driver

Classify Object (CO)

Detect Anomalies 2 (DA2)

Detect Anomalies 1 Global (DA1G)

Detect Anomalies 1 Local (DA1L)

Detect Features (DF)

Instance Segmentation (IS)

Locate Points (LP)

Intel Core-i5 9400F 2,90GHz / 16 GB RAM
GeForce GT 730 2GB / 3.5 / 452.06

35.7

5.7

24.0

6.3

6.9

15.0

7.0

7.4

AMD Ryzen 7 2700X Eight-Core / 16 GB RAM

118.2

30.1

64.3

12.4

13.6

92.7

18.4

20.2

Intel Core-i5 7500 3,40GHz / 16 GB RAM

122.8

26.9

58.2

14.8

13.3

83.9

15.0

20.5

Intel Core-i7 9750H 2,60GHz / 16 GB RAM (Laptop)

58.9

26.6

59.1

18.8

13.6

88.3

16.3

22.6

Intel Core-i7 8700K 3,70GHz / 16 GB RAM

186.0

32.6

75.6

17.6

14.9

102.9

19.1

24.4

Intel Core-i5 9400F 2,90GHz / 16 GB RAM

164.3

34.9

82.6

22.2

18.9

105.3

21.6

29.1

Intel Core-i9 11900KF 3,50GHz / 32 GB RAM

245.5

43.9

70.5

40.3

43.2

172.7

68.6

53.1

Intel Core-i7 9750H 2,60GHz / 16 GB RAM
GeForce RTX 2060 6GB / 7.5 / 445.87 (Laptop)

68.5

135.1

108.5

94.8

85.4

96.5

69.2

96.5

AMD Ryzen 7 2700X Eight-Core / 16 GB RAM
GeForce GTX 1060 6GB / 6.1 / 452.06

102.2

99.1

92.8

102.8

99.5

97.8

100.0

99.6

Intel Core-i5 7500 3,40GHz / 16 GB RAM
GeForce GTX 1060 6GB / 6.1 / 445.87

100.0

Intel Core-i7 8700K 3,70GHz / 16 GB RAM
GeForce GTX 1060 6GB / 6.1 / 452.06

101.6

103.9

90.0

101.0

100.5

96.0

105.8

100.5

Intel Core-i7 8700K 3,70GHz / 32 GB RAM
GeForce GTX 1070 8GB / 6.1 / 452.06

82.7

136.0

90.9

129.6

133.6

106.3

134.6

124.1

Intel Core-i5 7500 3,40GHz / 16 GB RAM
GeForce RTX 2060 6GB / 7.5 / 441.87

102.7

157.7

135.4

142.8

148.8

133.1

134.7

143.3

Intel Core-i5 7500 3,40GHz / 16 GB RAM
GeForce GTX 1080 8GB / 6.1 / 452.06

109.0

158.9

108.4

161.5

167.7

127.3

161.4

150.5

Intel Core-i5 9400F 2,90GHz / 16 GB RAM
GeForce RTX 2060 SUPER 8GB / 7.5 / 452.06

99.4

192.5

167.7

173.8

182.4

155.5

168.6

173.7

Intel Core-i5 9400F 2,90GHz / 16 GB RAM
GeForce RTX 3060Ti 8GB / 8.6 / 465.21

99.7

244.3

201.7

249.8

556.0

172.8

511.7

259.9

Intel Core-i9 11900KF 3,50GHz / 32 GB RAM
GeForce RTX 3070 8GB / 8.6 / 457.51

161.6

276.8

134.3

274.2

569.7

175.8

594.9

270.8

Ein höherer Wert bedeutet eine bessere Leistung.
Der Test misst die Ausführungszeit für ausgewählte Deep Learning-Tools. Die Ergebnisse sind normalisiert.
Zurück nach oben