sort | uniq -c はイマイチなので、代わりに awk だけで高速な代替処理を書いてみる。
あるテキストデータの母集団に重複する行がいくつ出現するかを追いかけたい場合に、普通は "sort | uniq -c" するわけですが、母集団のデータ量が大きい場合は sort のコストがバカにならない。
こういう場合は awk で以下のように書くと、事前にソートせずに uniq -c 相当の結果が得られて大変便利です。
awk '{ count[$0]++ } END { for ( i in count ) print count[i]"\t"i; }'
自分の作業環境では、これを "fastuniq" という名前で使えるようにしております。