0% encontró este documento útil (0 votos)

25 vistas4 páginas

FindFilesDuplicated Python

Este script bash analiza una o dos rutas para identificar archivos duplicados mediante el cálculo de su hash MD5. Genera listados temporales con los hashes, tamaños y rutas de los archivos, y luego ejecuta un script de Python que filtra los hashes duplicados para mostrar las rutas correspondientes.

Cargado por

Deric Chan

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

25 vistas4 páginas

FindFilesDuplicated Python

Cargado por

Deric Chan

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 4

#!

/bin/bash

#crear carpeta y ficheros temporales para analisis de MD5 e identificar los

duplicados
mkdir -p /tmp/temporal/

#funciones o metodos del script

rutaUnica(){
echo 'ingrese ruta unica: '
read rutaUnica

find "$rutaUnica" -type f -exec ls -lhpR {} \; | awk '{$1=$2=$3=$4=$6=$7=$8="";

print $0}' > /tmp/temporal/listTamanoPath.txt
sleep 1

#fichero que solo tiene el path de cada archivo para que lo use el script .py
(awk '{$1=""; print $0}' /tmp/temporal/listTamanoPath.txt) >
/tmp/temporal/listPath.txt

#encuentra el md5 de cada fichero

find "$rutaUnica" -type f -exec md5sum {} \; | awk '{print $1}' >
/tmp/temporal/listMD5.txt
sleep 1

#une resultados de ambos ficheros creados con las columnas necesarias

(paste /tmp/temporal/listMD5.txt /tmp/temporal/listTamanoPath.txt | awk '{print
$0}') > /tmp/temporal/listMD5TamanoPath.txt

#muestra los md5 que pertenecen a los ficheros q estan repetidos o duplicados
partiendo de un listado existente
(awk '{print $1}' /tmp/temporal/listMD5.txt | sort | uniq -d >
/tmp/temporal/listMD5-Duplicados.txt)

# ------------------------

rutaAB(){
echo 'ingrese ruta 1: '
read ruta1
echo 'ingrese ruta 2: '
read ruta2
echo
#encuentra el tamaño de cada fichero y el path de cada fichero
find "$ruta1" -type f -exec ls -lhpR {} \; | awk '{$1=$2=$3=$4=$6=$7=$8=""; print
$0}' > /tmp/temporal/listTamanoPathA.txt
sleep 1

#fichero que solo tiene el path de cada archivo para que lo use el script .py
(awk '{$1=""; print $0}' /tmp/temporal/listTamanoPathA.txt) >
/tmp/temporal/listPathA.txt

#encuentra el md5 de cada fichero

find "$ruta1" -type f -exec md5sum {} \; | awk '{print $1}' >
/tmp/temporal/listMD5A.txt
sleep 1
#une resultados de ambos ficheros creados con las columnas necesarias
(paste /tmp/temporal/listMD5A.txt /tmp/temporal/listTamanoPathA.txt | awk '{print
$0}') > /tmp/temporal/listMD5TamanoPathA.txt

#muestra los md5 que pertenecen a los ficheros q estan repetidos o duplicados
partiendo de un listado existente
#$ awk '{print $1}' fileMD5.txt | sort | uniq -d ;

#similar al anterior, pero muestra el path completo del fichero

#$ awk '{print $1}' fileMD5.txt | sort | uniq -c | while read num dupe; do [[ $num
> 1 ]] && grep -n -- "$dupe" fileMD5.txt; done

#********* PARA RUTA 2

#encuentra el tamaño de cada fichero y el path de cada fichero

find "$ruta2" -type f -exec ls -lhpR {} \; | awk '{$1=$2=$3=$4=$6=$7=$8=""; print
$0}' > /tmp/temporal/listTamanoPathB.txt
sleep 1

#fichero que solo tiene el path de cada archivo para que lo use el script .py
(awk '{$1=""; print $0}' /tmp/temporal/listTamanoPathB.txt) >
/tmp/temporal/listPathB.txt

#encuentra el md5 de cada fichero

find "$ruta2" -type f -exec md5sum {} \; | awk '{print $1}' >
/tmp/temporal/listMD5B.txt
sleep 1

#une resultados de ambos ficheros creados con las columnas necesarias

(paste /tmp/temporal/listMD5B.txt /tmp/temporal/listTamanoPathB.txt | awk '{print
$0}') > /tmp/temporal/listMD5TamanoPathB.txt

#muestra los md5 que pertenecen a los ficheros q estan repetidos o duplicados
partiendo de un listado existente
#$ awk '{print $1}' fileMD5.txt | sort | uniq -d ;

#similar al anterior, pero muestra el path completo del fichero

#$ awk '{print $1}' fileMD5.txt | sort | uniq -c | while read num dupe; do [[ $num
> 1 ]] && grep -n -- "$dupe" fileMD5.txt; done

(cat /tmp/temporal/listPathA.txt /tmp/temporal/listPathB.txt) >

/tmp/temporal/listPathAB.txt

(cat /tmp/temporal/listMD5A.txt /tmp/temporal/listMD5B.txt) >

/tmp/temporal/listMD5AB.txt

(cat /tmp/temporal/listMD5TamanoPathA.txt /tmp/temporal/listMD5TamanoPathB.txt)

> /tmp/temporal/listMD5TamanoPathAB.txt

# extraer listado de MD5 duplicados combinando ambas carpetas A y B

cat /tmp/temporal/listMD5AB.txt | sort | uniq -d > /tmp/temporal/listMD5AB-

Duplicados.txt

cp /tmp/temporal/listMD5AB-Duplicados.txt /tmp/temporal/listMD5-Duplicados.txt
cp /tmp/temporal/listMD5AB.txt /tmp/temporal/listMD5.txt
cp /tmp/temporal/listMD5TamanoPathAB.txt /tmp/temporal/listMD5TamanoPath.txt
}

# metodo para crear script python filtrarMD5Duplicados.py

filtrarMD5Duplicados(){

rm -R /tmp/temporal/filtrarMD5Duplicados.py
echo '#! /usr/bin/env python' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '# -*- coding: utf-8 -*-' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '#Deric 13/08/2019' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'import os' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '#os.system("clear")' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '#este fichero python compara un listado de MD5 contra un listado de MD5
que se encuentran repetidos, y por cada coincidencia verdadera concatena el path de
ese MD5.' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '#luego que genera un listado "PathRepetidos.txt" que es donde se
compara las /rutas/fichero, las lineas que se conserven en el fichero es para su
eliminacion apoyandose con el comando rm -R' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo '# coloca el contenido de un archivo , linea por linea en cada elemento
de array' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile1=open("/tmp/temporal/listMD5-Duplicados.txt","r")' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile2=open("/tmp/temporal/listMD5.txt","r")' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile3=open("/tmp/temporal/listMD5TamanoPath.txt","r")' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo 'ResultadoTemporal=open("/tmp/temporal/ResultadoTemporal.txt","w")'
>> /tmp/temporal/filtrarMD5Duplicados.py
echo 'listMD5Duplicados=pfile1.readlines()' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo 'listMD5=pfile2.readlines()' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'listMD5TamanoPath=pfile3.readlines()' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo '#listRep=pfile2.readlines()' >> /tmp/temporal/filtrarMD5Duplicados.py
echo '#listIndice=pfile4.readlines()' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo 'listIndice=[]' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'for j in listMD5Duplicados:' >> /tmp/temporal/filtrarMD5Duplicados.py
echo ' var=0' >> /tmp/temporal/filtrarMD5Duplicados.py
echo ' for i in listMD5:' >> /tmp/temporal/filtrarMD5Duplicados.py
echo ' if (i == j ):' >> /tmp/temporal/filtrarMD5Duplicados.py
# echo ' print "i es: "+i' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo ' # metodo index para obtener la posicion de un
elemento q exista en un array' >> /tmp/temporal/filtrarMD5Duplicados.py
# echo ' indiceA=listMD5.index(i)' >>
/tmp/temporal/filtrarMD5Duplicados.py
# echo ' print indiceA' >>
/tmp/temporal/filtrarMD5Duplicados.py
echo ' # alimenta a un array de tamano indefinido y
conservando lo que contiene, partiendo de otro array ya existente y accediendo a
algun indice especifico' >> /tmp/temporal/filtrarMD5Duplicados.py
echo ' # almacena lo que contiene un array en proceso de
llenado a un fichero .txt' >> /tmp/temporal/filtrarMD5Duplicados.py
echo ' ResultadoTemporal.write(listMD5TamanoPath[var])'
>> /tmp/temporal/filtrarMD5Duplicados.py
echo ' var=var+1'>> /tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile1.close()' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile2.close()' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'pfile3.close()' >> /tmp/temporal/filtrarMD5Duplicados.py
echo 'ResultadoTemporal.close()' >> /tmp/temporal/filtrarMD5Duplicados.py
chmod +x /tmp/temporal/filtrarMD5Duplicados.py
}

#-------------------------------------------------------------------------------

#indicar si analizar una o dos rutas

echo '1. para analizar una sola ruta.'
echo '2. para analizar dos rutas.'
read NroRutas
# llamando a metodo para crear script .py
filtrarMD5Duplicados

#------------------

# opcion de elegir ruta unica a analizar

if [ $NroRutas = 1 ];
then
#llamar a metodo
rutaUnica

/tmp/temporal/filtrarMD5Duplicados.py

(awk '{print $0}' /tmp/temporal/ResultadoTemporal.txt | sort | uniq -c | awk

'{$1=""; print $0}' | sort -k2 -r -h) > /tmp/temporal/TotalRepetidos.txt
echo ""
echo "el resultado se almaceno en: /tmp/temporal/TotalRepetidos.txt"
echo ""
cat /tmp/temporal/TotalRepetidos.txt
echo ""
echo ""

echo "listo"

# opcion de elegir dos ruta a analizar, la de origen y la de destino

else
#echo "ruta 2"
rutaAB
/tmp/temporal/filtrarMD5Duplicados.py
(awk '{print $0}' /tmp/temporal/ResultadoTemporal.txt | sort | uniq -c | awk
'{$1=""; print $0}' | sort -k2 -r -h) > /tmp/temporal/TotalRepetidos.txt
echo ""
echo "el resultado se almaceno en: /tmp/temporal/TotalRepetidos.txt"
echo ""
cat /tmp/temporal/TotalRepetidos.txt
fi

#pedir ruta de analisis

También podría gustarte

Practico Big Data Hadoop
Aún no hay calificaciones
Practico Big Data Hadoop
5 páginas
Operaciones y Respuesta A Incidentes CompTIA Security
Aún no hay calificaciones
Operaciones y Respuesta A Incidentes CompTIA Security
16 páginas
05 AdministracionDeLinux
Aún no hay calificaciones
05 AdministracionDeLinux
75 páginas
76 - BASH - Repaso
Aún no hay calificaciones
76 - BASH - Repaso
6 páginas
Informe 1
Aún no hay calificaciones
Informe 1
10 páginas
ABM y Listado de Una Tabla de SQL Server Con
Aún no hay calificaciones
ABM y Listado de Una Tabla de SQL Server Con
44 páginas
Examen
Aún no hay calificaciones
Examen
5 páginas
Combined
Aún no hay calificaciones
Combined
15 páginas
HI tp6CORREG
Aún no hay calificaciones
HI tp6CORREG
8 páginas
Laboratorio 06 - Uso de Subconsultas
Aún no hay calificaciones
Laboratorio 06 - Uso de Subconsultas
10 páginas
Oracle 12c - Introducción A La Auditoría Unificada
Aún no hay calificaciones
Oracle 12c - Introducción A La Auditoría Unificada
43 páginas
M. Alumno 2 Linux Introduccion
Aún no hay calificaciones
M. Alumno 2 Linux Introduccion
28 páginas
Base de Datos - 1 - 2 - PDF
Aún no hay calificaciones
Base de Datos - 1 - 2 - PDF
37 páginas
Actividad 3 Grupal Aministrasción de Sistemas
Aún no hay calificaciones
Actividad 3 Grupal Aministrasción de Sistemas
13 páginas
Ejercicios Tema 9 - Ficheros
Aún no hay calificaciones
Ejercicios Tema 9 - Ficheros
11 páginas
Tablas en Documentum
Aún no hay calificaciones
Tablas en Documentum
4 páginas
Actividad 3.4
Aún no hay calificaciones
Actividad 3.4
16 páginas
Actividad Semana 4
Aún no hay calificaciones
Actividad Semana 4
9 páginas
Practica 2 Base de Datos Fi Unam
Aún no hay calificaciones
Practica 2 Base de Datos Fi Unam
11 páginas
SOM UD5 Contenidos PDF
Aún no hay calificaciones
SOM UD5 Contenidos PDF
97 páginas
Curso Mysql - Mysql Ya
Aún no hay calificaciones
Curso Mysql - Mysql Ya
314 páginas
Microsoft Business Intelligence 2011 (008-025) PDF
Aún no hay calificaciones
Microsoft Business Intelligence 2011 (008-025) PDF
18 páginas
Actividades ShellScript - Gestión Ficheros y Directorios
Aún no hay calificaciones
Actividades ShellScript - Gestión Ficheros y Directorios
6 páginas
SATI Salazar Vázquez Tarea7 27042023
Aún no hay calificaciones
SATI Salazar Vázquez Tarea7 27042023
10 páginas
Test 1
Aún no hay calificaciones
Test 1
1 página
Examen Full Soluciones
Aún no hay calificaciones
Examen Full Soluciones
4 páginas
Practica Base de Datos II
Aún no hay calificaciones
Practica Base de Datos II
2 páginas
Laboratorio de Uso de Comandos Cron Find Grep
Aún no hay calificaciones
Laboratorio de Uso de Comandos Cron Find Grep
7 páginas
Practica Solucion Trabajando Con El Contenido
100% (1)
Practica Solucion Trabajando Con El Contenido
2 páginas
Guia Comandos UNIX
Aún no hay calificaciones
Guia Comandos UNIX
2 páginas
Buenas Prácticas en Lenguajes de Programacion PHP y Python Bajo Servidor Web
Aún no hay calificaciones
Buenas Prácticas en Lenguajes de Programacion PHP y Python Bajo Servidor Web
80 páginas
Definición de Procedimiento Almacenado
Aún no hay calificaciones
Definición de Procedimiento Almacenado
26 páginas
Tema Iii - Listas Circulares-Java
Aún no hay calificaciones
Tema Iii - Listas Circulares-Java
14 páginas
Sesion 2 Solucion BI
Aún no hay calificaciones
Sesion 2 Solucion BI
62 páginas
A ACTIVIDAD6-COMPLETAawdasdasd
Aún no hay calificaciones
A ACTIVIDAD6-COMPLETAawdasdasd
23 páginas
Actividad 3.4
Aún no hay calificaciones
Actividad 3.4
26 páginas
listarTamañoPath Origen Destino Shell
Aún no hay calificaciones
listarTamañoPath Origen Destino Shell
3 páginas
Actividad 3.1
Aún no hay calificaciones
Actividad 3.1
25 páginas
Repaso Comandos Linux
Aún no hay calificaciones
Repaso Comandos Linux
11 páginas
Actividad Semana 3 Base de Datos
Aún no hay calificaciones
Actividad Semana 3 Base de Datos
4 páginas
Soluciones Ejercicios Shell Script PDF
Aún no hay calificaciones
Soluciones Ejercicios Shell Script PDF
6 páginas
Resumen Practico
Aún no hay calificaciones
Resumen Practico
3 páginas
Estructuras de Datos
Aún no hay calificaciones
Estructuras de Datos
2 páginas
Solucionario ComandosLinux
Aún no hay calificaciones
Solucionario ComandosLinux
19 páginas
FindFilesDuplicated Shell
Aún no hay calificaciones
FindFilesDuplicated Shell
2 páginas
Sistem 4
Aún no hay calificaciones
Sistem 4
2 páginas
10 Herramientas Linux. Enunciados
Aún no hay calificaciones
10 Herramientas Linux. Enunciados
5 páginas
En Que Consiste El Esquema Constelación
100% (1)
En Que Consiste El Esquema Constelación
4 páginas
ProblemasUnix Bis
Aún no hay calificaciones
ProblemasUnix Bis
81 páginas
Tarea 2 Base de Datos 1
Aún no hay calificaciones
Tarea 2 Base de Datos 1
7 páginas
UT10 - 04. - Linux - Filtros
Aún no hay calificaciones
UT10 - 04. - Linux - Filtros
14 páginas
Actividad 5 Familiarizarse Con El Shell de Linux
Aún no hay calificaciones
Actividad 5 Familiarizarse Con El Shell de Linux
6 páginas
Ejercicios Con Comandos de Linux
Aún no hay calificaciones
Ejercicios Con Comandos de Linux
6 páginas
ActCap3. Archivos. El Árbol de GNU - Linux
Aún no hay calificaciones
ActCap3. Archivos. El Árbol de GNU - Linux
12 páginas
Cuadro Comparativo
0% (1)
Cuadro Comparativo
6 páginas
Práctica FB y HE
Aún no hay calificaciones
Práctica FB y HE
6 páginas
Chuletas de Linea de Comandos de Linux - Chuleta1
Aún no hay calificaciones
Chuletas de Linea de Comandos de Linux - Chuleta1
4 páginas
Esquema Base de Datos
Aún no hay calificaciones
Esquema Base de Datos
6 páginas
Comandos Linux Cristian Ligña
Aún no hay calificaciones
Comandos Linux Cristian Ligña
3 páginas
Test Linux
Aún no hay calificaciones
Test Linux
3 páginas
Mejores Prácticas SQL Server
Aún no hay calificaciones
Mejores Prácticas SQL Server
6 páginas
Md5sum - Verificar La Integridad de Las Descargas
Aún no hay calificaciones
Md5sum - Verificar La Integridad de Las Descargas
3 páginas
Awk y Otros Comandos
Aún no hay calificaciones
Awk y Otros Comandos
4 páginas
Apuntes SOO
Aún no hay calificaciones
Apuntes SOO
6 páginas
Examen SQL
Aún no hay calificaciones
Examen SQL
2 páginas
Eva Dist Sem 04 Ubuntu
Aún no hay calificaciones
Eva Dist Sem 04 Ubuntu
12 páginas
EJERCICIOS DE SHELLResueltos
25% (4)
EJERCICIOS DE SHELLResueltos
10 páginas
Shells
Aún no hay calificaciones
Shells
5 páginas
Comandos Linux
Aún no hay calificaciones
Comandos Linux
12 páginas
Tuberias y Filtro
Aún no hay calificaciones
Tuberias y Filtro
17 páginas
Monografía Sentencias SQL
Aún no hay calificaciones
Monografía Sentencias SQL
6 páginas
Comandos Linux (Básicos) y Matlab (Netcdf)
Aún no hay calificaciones
Comandos Linux (Básicos) y Matlab (Netcdf)
3 páginas
Guía para Recuperar Empresas de CONTPAQi Sin El Respaldo
Aún no hay calificaciones
Guía para Recuperar Empresas de CONTPAQi Sin El Respaldo
3 páginas
Base de Datos
Aún no hay calificaciones
Base de Datos
4 páginas
Bases de Datos Contenedor y Conectables
Aún no hay calificaciones
Bases de Datos Contenedor y Conectables
8 páginas
Qué Es Documentum
Aún no hay calificaciones
Qué Es Documentum
2 páginas
Linuz
Aún no hay calificaciones
Linuz
1 página
Comandos Linux
Aún no hay calificaciones
Comandos Linux
27 páginas
Ejercicios Linux
Aún no hay calificaciones
Ejercicios Linux
6 páginas
Kali Linux-Terminal
Aún no hay calificaciones
Kali Linux-Terminal
6 páginas
Segundo Certamen Programación Aplicada
Aún no hay calificaciones
Segundo Certamen Programación Aplicada
2 páginas
Practica Función Hash
Aún no hay calificaciones
Practica Función Hash
5 páginas
Examen Resuelto Unix
Aún no hay calificaciones
Examen Resuelto Unix
81 páginas
Chuleta Comandos Linux
Aún no hay calificaciones
Chuleta Comandos Linux
1 página
Cuestionario de Sistema de Archivos
Aún no hay calificaciones
Cuestionario de Sistema de Archivos
4 páginas
Un Pequeño Script Util
Aún no hay calificaciones
Un Pequeño Script Util
4 páginas
Autocad Conexion Base de Datos
Aún no hay calificaciones
Autocad Conexion Base de Datos
6 páginas
Bash Shell: De Cero a Experto. Guía Práctica de un SRE para la Terminal, Scripts y Automatización
De Everand
Bash Shell: De Cero a Experto. Guía Práctica de un SRE para la Terminal, Scripts y Automatización
Nolan Reeves
Aún no hay calificaciones
Administración de sistemas operativos
De Everand
Administración de sistemas operativos
Marife Aldea Jiménez
3.5/5 (8)