pslaboが試したことの記録

はてなダイヤリーからはてなブログに引っ越してきました

この日記は現在実行中の減量記録を含む個人的なメモとして始めましたが、最近はコンピュータやガジェット、ハック、セキュリティネタのほうがメインになっております。

はてなダイヤリー時代はカテゴリ分けが適当だったのですが、これはそのうち直します。

あるテキストデータの母集団に重複する行がいくつ出現するかを追いかけたい場合に、普通は "sort | uniq -c" するわけですが、母集団のデータ量が大きい場合は sort のコストがバカにならない。

こういう場合は awk で以下のように書くと、事前にソートせずに uniq -c 相当の結果が得られて大変便利です。

awk '{ count[$0]++ } END { for ( i in count ) print count[i]"\t"i; }'

自分の作業環境では、これを "fastuniq" という名前で使えるようにしております。