求文本批量去重复的技巧

z6045670 13天前 12

mjj=全球主机交流&aaa交流区ccc
mjj=全球主机&aaa灌水区ccc
mjj=全球主机&aaa交流区ccc
mjj=全球梅吉吉&aaa交流区ccc
mjj=你是梅吉吉&aaa交流区ccc
文本格式如上
第二行和第三行的mjj=的参数相同了 但aaa和ccc之间又不同
我的目的是把mjj参数的内容(行)批量去重复 只保留上面一行的
有没有什么办法能搞定?
记事本txt文件 百万行内容
最新回复 (17)
  • 楼主 z6045670 13天前
    引用 2
    jshkk 发表于 2021-7-19 01:10
    sort命令?
    反正就是记事本里的  什么方法都行 只要达到目的 别太高深的 适合菜鸟的哈
  • jshkk 13天前
    引用 3
    sort命令?
  • beng 13天前
    引用 4
    可以给你写个脚本
  • zixi 13天前
    引用 5
    几百万行。。。我建议用TXTkiller先把txt分割好几部分再一一去重复,不然我怕你电脑承受不住
  • 楼主 z6045670 13天前
    引用 6
    zixi 发表于 2021-7-19 01:20
    几百万行。。。我建议用TXTkiller先把txt分割好几部分再一一去重复,不然我怕你电脑承受不住 ...
    如果分割开了 还能去重吗 a和b两个txt的重复呢
  • zixi 13天前
    引用 7
    z6045670 发表于 2021-7-19 01:30
    如果分割开了 还能去重吗 a和b两个txt的重复呢
    这个应该看脚本或者去重的软件了,反正你一下子打开几百万行代码,同时再一一对比,电脑基本承受不住。。。我这个只是个小建议,如果有其他更高效的方法那可以忽略了。
  • llyang 13天前
    引用 8
    如果&后面内容保留,你这第2、3行咋处理?保留哪个?
    如果&后面内容无关紧要,先RegEX删除&到行尾;然后去重就简单了,我用UltraEdit排序就完事。
  • iejr 13天前
    引用 9
    M级别的条目hash表应该还handle得住,mjj=的参数作为key,raw data作为value边扫边加表,遇重复的跳过; 遍历所有条目后再遍历hash表dump value到新文件
  • jshkk 13天前
    引用 10
    文件有多大啊?不太大的话 按照8楼的 UltraEdit就搞定了
  • yjsx86 13天前
    引用 11
    话说有段时间没写python了, 现在用golang用的比较多
    破论坛, 这段代码怎么也发不出去
  • pack 13天前
    引用 12
    梅吉吉  什么鬼
  • mubazhe 13天前
    引用 13
    额 用脚本吧
  • 无知灰灰 13天前
    引用 14
    自己写个简单的处理程序就行了。。。
  • SSDHD 13天前
    引用 15
    sort |uniq
  • 木易酱 13天前
    引用 16
    UltraReplace 超级批量文本替换5.0        支持正则替换,很好用
  • nebulabox 13天前
    引用 17
    用sublime text 或者 vscode 打开,然后查找替换
  • 楼主 z6045670 13天前
    引用 18
    木易酱 发表于 2021-7-19 08:25
    UltraReplace 超级批量文本替换5.0        支持正则替换,很好用
    谢谢大佬赐教 因为着急 用火车头给处理了
  • 游客
    19
返回