En las operaciones del sistema Linux, si hay demasiados datos en el archivo, es muy difícil eliminar las filas de datos duplicados. Si la búsqueda es inconveniente, ¿hay alguna forma de eliminar archivos rápidamente? ¿Duplicar filas de datos? La siguiente pequeña serie le presentará cómo eliminar líneas de datos duplicadas, echemos un vistazo.
a, eliminar datos duplicados filas adyacentes
código es el siguiente:
$ data1.txt gato |
Uniq
Salida:
beijing
wuhan
beijing
wuhan
Segundo, elimine todos los datos duplicados Línea
El código es el siguiente:
$ cat data1.txt |
Ordenar |
Uniq
Nota:
Solo el comando uniq, simplemente elimine las líneas de datos duplicadas adyacentes.
Si ordena primero, todas las filas de datos duplicados se convertirán en filas de datos adyacentes, y si es uniq, se eliminarán todas las filas de datos duplicados.
Salida:
beijing
wuhan
Adjunto: data1.txt
El código es el siguiente:
[raíz @syy ~] # cat data1.txt
beijing
beijing
wuhan
wuhan
wuhan
Beijing
beijing
beijing
wuhan
wuhan
Nota: La dirección IP en el registro del filtro es útil.
Eliminando una fila de campos duplicados en un archivo de big data en Linux
Un programa de recopilación de datos escrito recientemente generó un archivo que contiene más de 10 millones de filas de datos. Los datos constan de 4 campos. De acuerdo con los requisitos, debe eliminar las filas duplicadas del segundo campo. Si lo encuentra, no puede encontrar la herramienta correcta en Linux. Las herramientas de procesamiento de flujos como sed /gawk solo pueden procesar una línea por línea y no pueden encontrar las filas con campos repetidos. Parece que tengo que crear un programa en Python, y de repente pensar en usar mysql, así que me moví al grande:
1. Use mysqlimport --local dbname data.txt para importar datos a la tabla, el nombre de la tabla y el nombre del archivo Consistente
2. Ejecute la siguiente instrucción sql (requiere que un campo único sea uniqfield)
El código es el siguiente:
use dbname;
alter table tablename add rowid Int auto_increment no nulo;
crea la tabla t selecciona min (rowid) como rowid del grupo nombre de tabla por uniqfield;
crea la tabla t2 selecciona tablename. * De tablename, t donde tablename.rowid = t .rowid; "/p" "p" soltar tabla nombre de tabla;
cambiar el nombre de tabla t2 a nombre de tabla;
Lo anterior es la forma de eliminar filas de datos duplicadas en Linux, este artículo presenta una variedad de En el caso de eliminar la línea de datos duplicados del archivo, espero poder ayudarle.
Hay un concepto en los sistemas Linux, es decir, todo es un archivo. Entonces, cuando se trata de la
Grub es un programa de arranque del proyecto GNU, que es una aplicación multi-inicio de la especific
Hay muchos comandos en el sistema Linux. Una gran parte del sistema Linux de Linux
El sistema Linux, además de PHP puede ver el directorio del archivo, los comandos del shell también
¿Cómo utiliza Linux el comando arping para detectar conflictos de direcciones IP?
¿Cómo construye Ubuntu la tarjeta de red virtual
Linux VirtualBox instalación Win8.1 error 0x000000C4 ¿cómo hacerlo?
CentOS 6.4 usa un script para deshabilitar el touchpad
Ubuntu instala los pasos del controlador Nvidia Optimus
¿Cómo implementar la función ioctl en el sistema Linux?
Análisis conceptual de las particiones de disco y los sistemas de archivos de Linux
Pasos para crear paquetes RPM para sistemas Linux
Linux rechaza los pasos de acceso de IP extranjeros
La versión de CentOS en python es demasiado baja ¿Cómo actualizar manualmente?
Linux cómo instalar y configurar MQ
Cómo resolver los problemas encontrados cuando la migración de Unix al sistema Linux capacita
Después de la actualización de Win10, el inicio se vuelve muy lento y demora 30 segundos.
¿Win10 sistema de arranque emergente error de secuencia de comandos de solicitud de cómo resolver?
¿Dónde se restaura el sistema Win8? Abrir el método de restauración del sistema Win8
¿La memoria solo se puede cargar con Win8.1?
¿Cuál es el uso del centro de operaciones win7?
Win7 versión pura de 64 bits del sistema cómo configurar la lupa de arranque
Sistema Win10 cómo borrar rápidamente el portapapeles
Win8 no reconoce la solución de disco en U
¿Qué pasa si la captura de pantalla del video es negro? Resuelve deshabilitando DirectDraw!