背景
程序员相亲的公众号最近也挺多的,但是因为微信平台的原因
导致无法搜索,不能更快的寻找需要的信息...
所以做了一个聚合 N 个相亲公众号信息的网站 https://xunta.today
网站名字叫 XUNTA

信息来源
目前只汇总以下公众号的文章
- CQ 脱单联萌
- 程序员脱单实验室
- 村姑的个人农场
- 单身青年自救平台
- 脱单吖
如果还有新的公众号也提供相亲信息的话 欢迎邮件告诉我
上面那几个还是发朋友圈问来的

原理
通过爬虫定期去爬取以上公众号的文章,下载网页源代码就好了
然后把源代码丢到pelican 里面
再放到 github 上面
源代码在:https://github.com/xunta-today/website
爬虫的没有公开,主要怕公开了微信限制接口,后面增加工作量,有需要可以邮件我.
碰到的问题
- 微信图片有防盗链
使用 nginx 转发一下就可以了,当然需要先把图片域名改成你的
如下
location /mmbiz{
proxy_set_header referer "https://mp.weixin.qq.com";
proxy_set_header origin "https://mp.weixin.qq.com";
proxy_set_header user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36";
rewrite /(.+)$ /$1 break;
proxy_pass http://mmbiz.qpic.cn;
}
location /mp{
proxy_set_header referer "https://mp.weixin.qq.com";
proxy_set_header origin "https://mp.weixin.qq.com";
proxy_set_header user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36";
rewrite /(.+)$ /$1 break;
proxy_pass https://mp.weixin.qq.com;
}
搜索
站内搜索
用的是 tipue_search

显示结果有点辣眼睛
因为源代码里面太多乱七八糟的东西了,所以我直接在创建搜索的时候,只保留了文章中的中文内容,其他全部去掉了...
用 Google 搜索
直接用 site:xunta.today 加上你要搜索的内容
搜索

后续计划
爬虫会每天更新一次
公众号也会每周汇总一次,有人有兴趣一起参与的话欢迎邮件我,(不限于讨论,排版,等等...)
投诉与建议
如果你觉得某篇文章有冒犯你,请直接邮件我 并且带上链接!
有好的建议也欢迎邮件!
邮件
[email protected]
一个彩蛋
删除一些不相关文章的时候发现的。。。
