torrents.csv/scripts/prune.sh

# This prunes torrents.csv, removing those with too many columns, and sorts it
echo "Pruning torrents.csv ..."
cd ..
torrents_csv="`pwd`/torrents.csv"
torrents_csv_tmp="`pwd`/torrents_prune_tmp.csv"
scanned_out="`pwd`/infohashes_scanned.txt"

cp $torrents_csv $torrents_csv_tmp

# Remove lines that don't have exactly 7 ';'
rg "^([^;]*;){7}[^;]+$" $torrents_csv_tmp > tmp_adds
mv tmp_adds $torrents_csv_tmp

# Remove random newlines
sed -i '/^$/d' $torrents_csv_tmp 

# Extract the header
header=$(head -n1 $torrents_csv_tmp)
sed -i '1d' $torrents_csv_tmp

# Sort by seeders desc (so when we remove dups it removes the lower seeder counts)
# TODO this should actually probably do it by scraped date
# sort --field-separator=';' --key=5 -nr -o $torrents_csv_tmp $torrents_csv_tmp

# Remove dups, keeping the last ones
sort -r -t';' -k1,1 -o $torrents_csv_tmp $torrents_csv_tmp
sort -r -u -t';' -k1,1 -o $torrents_csv_tmp $torrents_csv_tmp
# sort -u -t';' -k2,2 -k8,8 -o $torrents_csv_tmp $torrents_csv_tmp


# Same for the infohashes scanned
sort -u -o $scanned_out $scanned_out

# Remove torrents with zero seeders
awk -F';' '$5>=1' $torrents_csv_tmp> tmp
mv tmp $torrents_csv_tmp

# Sort by infohash asc
sort --field-separator=';' --key=1 -o $torrents_csv_tmp $torrents_csv_tmp

# Add the header back in
sed  -i "1i $header" $torrents_csv_tmp
#truncate -s -1 $torrents_csv # Removing last newline

mv $torrents_csv_tmp $torrents_csv

echo "Pruning done."
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00			`# This prunes torrents.csv, removing those with too many columns, and sorts it`
Adding some logging to prune, fixing scan torrents. 2018-11-25 23:53:55 +00:00			`echo "Pruning torrents.csv ..."`
Moving scripts to their own directory, except for search 2018-10-11 22:27:47 +00:00			`cd ..`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00			torrents_csv="`pwd`/torrents.csv"
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			torrents_csv_tmp="`pwd`/torrents_prune_tmp.csv"
Using new tracker health for torrent scanner. Fixes #34 2019-01-24 22:45:18 +00:00			scanned_out="`pwd`/infohashes_scanned.txt"

Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`cp $torrents_csv $torrents_csv_tmp`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
			`# Remove lines that don't have exactly 7 ';'`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`rg "^([^;]*;){7}[^;]+$" $torrents_csv_tmp > tmp_adds`
			`mv tmp_adds $torrents_csv_tmp`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
			`# Remove random newlines`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`sed -i '/^$/d' $torrents_csv_tmp`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
			`# Extract the header`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`header=$(head -n1 $torrents_csv_tmp)`
			`sed -i '1d' $torrents_csv_tmp`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
Adding a resort based on infohash, not seeders descending, since were sorting by seeders descending before caching to sqlite. 2018-12-02 18:39:57 +00:00			`# Sort by seeders desc (so when we remove dups it removes the lower seeder counts)`
			`# TODO this should actually probably do it by scraped date`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`# sort --field-separator=';' --key=5 -nr -o $torrents_csv_tmp $torrents_csv_tmp`

			`# Remove dups, keeping the last ones`
			`sort -r -t';' -k1,1 -o $torrents_csv_tmp $torrents_csv_tmp`
			`sort -r -u -t';' -k1,1 -o $torrents_csv_tmp $torrents_csv_tmp`
			`# sort -u -t';' -k2,2 -k8,8 -o $torrents_csv_tmp $torrents_csv_tmp`
Adding a resort based on infohash, not seeders descending, since were sorting by seeders descending before caching to sqlite. 2018-12-02 18:39:57 +00:00
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
Using new tracker health for torrent scanner. Fixes #34 2019-01-24 22:45:18 +00:00			`# Same for the infohashes scanned`
			`sort -u -o $scanned_out $scanned_out`

			`# Remove torrents with zero seeders`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`awk -F';' '$5>=1' $torrents_csv_tmp> tmp`
			`mv tmp $torrents_csv_tmp`
Using new tracker health for torrent scanner. Fixes #34 2019-01-24 22:45:18 +00:00
Adding a resort based on infohash, not seeders descending, since were sorting by seeders descending before caching to sqlite. 2018-12-02 18:39:57 +00:00			`# Sort by infohash asc`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`sort --field-separator=';' --key=1 -o $torrents_csv_tmp $torrents_csv_tmp`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
			`# Add the header back in`
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`sed -i "1i $header" $torrents_csv_tmp`
Adding some torrents. 2018-10-15 21:02:47 +00:00			`#truncate -s -1 $torrents_csv # Removing last newline`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`mv $torrents_csv_tmp $torrents_csv`
Import of TPB Jan 2017 backup. Updating search and add scripts. Adding prune.sh 2018-10-08 05:43:12 +00:00
Bunch of fixes to scanning and pruning 2019-01-28 23:01:03 +00:00			`echo "Pruning done."`