Watchdog: Bug: Lockup Soft - On Ryzen 9 3950x CPU -- vidia campo con cpu campo con systemd-journald camp askubuntu Relacionados El problema

Watchdog: BUG: soft lockup - on Ryzen 9 3950X CPU


0
vote

problema

Español

Recientemente construimos una máquina equipada con:

Especificaciones CPU amd ryzen 9 3950x ram 128GB DDR4 3000MHz ssd 1tb + 2xhhd 6tb gpu NVIDIA GEFORCE RTX 3090 24GB os Ubuntu 20.04 LTS psu 850W Certified

Utilizamos la máquina de forma remota para hacer una investigación basada en AI. Tuvimos varios problemas relacionados con un insecto molesto cuando tenemos una carga en la CPU. Específicamente, los errores se congelan completamente la máquina y la consola devuelve:

  Message from syslogd@machinename at Feb 13 09:37:16 ... kernel:[ 348.578682] watchdog: BUG: soft lockup - CPU#4 stuck for 22s! [systemd-journal:660]   

Después de una impresión del problema anterior, la máquina no se puede alcanzar en SSH. Solo es posible reiniciar fisicamente la máquina. Ejecutamos experimentos durante semanas en la GPU sin ningún problema, una vez que cargemos la CPU para algunas tareas, se congela e informa sobre el problema anterior.

¿Alguien ha experimentado el mismo problema? ¿Cómo podemos resolverlo?

Original en ingles

We recently built a machine equipped with:

Specifications
CPU AMD Ryzen 9 3950X
RAM 128GB DDR4 3000MHz
SSD 1TB + 2xHHD 6TB
GPU NVIDIA GEFORCE RTX 3090 24GB
OS Ubuntu 20.04 LTS
PSU 850W Certified

We use the machine remotely for doing AI-based research. We had several issues related to an annoying bug when we have a load on CPU. Specifically, the errors are freezing completely the machine and the console returns:

Message from syslogd@machinename at Feb 13 09:37:16 ... kernel:[ 348.578682] watchdog: BUG: soft lockup - CPU#4 stuck for 22s! [systemd-journal:660] 

After some print of the above issue, the machine is not reachable in ssh. It is only possible to phisically restart the machine. We run experiments for weeks on GPU without any problem, once we load the CPU for some tasks, it freezes and report the above issue.

Has anyone experienced the same problem? How can we solve it?

        
 
 

Lista de respuestas


Relacionados problema

2  Journald se detiene con SigBreak  ( Journald stops with sigbreak ) 
Tengo un conocimiento deficiente de cómo funciona Journald. Tengo varias preguntas junto con el problema principal. Yo uso siguiente ABCDEFGHIJKLMNABCDEFGH...

0  Diario está lleno de mensajes de "auditoría" pero no hay auditD  ( Journalctl is full of audit messages but there is no auditd ) 
Tengo varios servidores de 18.04 que comenzaron la vida como 14.04 máquinas. La mayoría (no todos, curiosamente) tiene su journalctl logs llenos de mensajes...

1  Enviar registros buffer a PC remota  ( Send logs buffer to remote pc ) 
¿Cómo puedo simplemente leer todos los diferentes búferes (registros del sistema, registros de usuario, registros de aplicaciones, etc.) de Ubuntu 16.04 y ree...

2  ¿Cómo puedo ver el historial anterior (antes de este inicio) en DiarioCl?  ( How can i see previous history prior to this boot in journalctl ) 
Hace un problema hace dos semanas el 28 de marzo. En el momento en que no noté la versión del kernel que se estaba utilizando. ¿Cómo puedo averiguar qué versi...

0  Cómo dejar de seguir el comando en el archivo de registro de Diario sin CTRL + C y guardar la salida en un archivo  ( How to stop follow command on journalctl log file without ctrlc and save the ou ) 
Estoy ejecutando el siguiente comando y guardando la salida a un archivo: sudo journalctl -u iotedge -f >> sub.txt El problema es que tengo que detener...

0  La compresión de la revista no funciona  ( Journal compression not working ) 
Parece que los archivos de la revista en mi servidor Ubuntu 18 LTS no están comprimidos a pesar de que la compresión está habilitada de forma predeterminada (...

29  Ubuntu 18.04 SystemD-UDEVD usa CPU alta, conflicto con WiFi  ( Ubuntu 18 04 systemd udevd uses high cpu conflict with wifi ) 
Recientemente cambió de Kubuntu 17.10 a Kubuntu 18.04 (Fresh Installed). El problema es el proceso ABCDEFGHIJKLMNABCDEFGHIJKLMN0 está ejecutando y consume c...

2  Ubuntu 18.04 se estrella con ERROR EXT4-FS y Systemd-diario  ( Ubuntu 18 04 crashes with ext4 fs error and systemd journald ) 
Actualización de oct 22: Hace mi SSD hace dos semanas desde Liteon CV3-8D256 a Samsung 970 EVO Plus, y el problema que se describe a continuación no ha ocur...

11  Systemd-Journald USAL High CPU  ( Systemd journald high cpu usage ) 
Hace unos días, instalé Ubuntu 17.04 en mi computadora portátil ASUS Dual-Boot con Windows 10 y poco después, noté que el proceso abcdefghijklmn5defghijklmn5...

0  Xubuntu 20.04, Systemd-Journald High CPU Uso  ( Xubuntu 20 04 systemd journald high cpu usage ) 
No estoy seguro de si este es el mismo problema que aquí Systemd-Journald High CPU Uso de la CPU Porque estaba usando Ubuntu 18.04 por estos 2 años y todo e...




© 2022 respuesta.top Reservados todos los derechos. Centro de preguntas y respuestas reservados todos los derechos