我爬了一个豆瓣征友小组的帖子（完）

2024-06-12 04:58:59

这篇文章，算是对之前做的事情的一个收尾，有始有终。

只是完善了一下功能：

每次运行程序后，会将新增的帖子标识出来。
把精华帖标识出来

代码如下（具体使用方法，会用的自然会用，不会用的，看看就好）：

# -*- coding: utf-8 -*-import osimport timeimport requestsfrom bs4 import BeautifulSoup

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.3'

headers = { 'User-Agent': user_agent}

group_id = '628580'start = 0

result_md = 'result.md'

skipped_list = ['193662234', '198931411']

content = ''if os.path.exists(result_md): with open('result.md', 'r') as f: content = f.read()

with open(result_md, 'w') as f:

f.write('|标题|评论数|最后评论时间|本次新增|精华帖|\n') f.write('|----|------|------------|--------|------|\n')

while start < 150:

time.sleep(5) url = 'https://www.douban.com/group/{}/discussion?start={}'.format(group_id, start) start += 25 print(url)

r = requests.get(url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser')

table = soup.find('table', attrs={'class': 'olt'}) if not table: continue

rows = table.find_all('tr') if not rows: continue

for row in rows:

if 'class='th'' in str(row): continue

good = False if row.find('span', attrs={'class': 'elite_topic_lable'}): good = True

try: a = row.find('a', href=True) topic_url = a['href'] title = a['title'] count = row.find('td', attrs={'class': 'r-count'}).text last_reply = row.find('td', attrs={'class': 'time'}).text

should_continue = False for item in skipped_list: if item in topic_url: should_continue = True break

if should_continue: continue

is_new = True if topic_url in content: is_new = False

f.write('|[{}]({})|{}|{}|{}|{}|\n'.format(title.replace('|', ','), topic_url, count or 0, last_reply, 'Yes' if is_new else '', 'Yes' if good else '',))

except Exception as e: print(row) print(e)

赞 (0)

男子被推进古井，妻子嫁给村长，三年后井里爬出一个孩子

这个男人娶了一个懒惰的女人,但他非常爱她,并且愿意为她做所有的事情.在这一天,该名男子去了村子东部的一口古老的井里取水,而该名女子则跟随了. 这口井很旧了,不知道它是何时建造的或有多深.井口小,井壁光 ...
西安周边最好爬的一个高山牧场，流峪草甸，醉美星空露营极致圣地

流峪草甸位于流峪寺村,距离西安市80公里,自驾大概1.5小时,属于蓝田九间房镇. 导航直接到流峪寺村就行.高速在玉山口下,经过101省道,走十五公里左右,进乡道路况不太好,弯度特别大,错车很难,几公里 ...
从“豆瓣征友”到“两种自由”看：似乎都在真诚交流，依然无法实现对话是什么感受？

题图是在powerpoint搜索oasis跳出来的模版basis 我觉得还挺好看有艺术感的就用这个做系列题图吧我的这篇推送触发点是和菜头在「槽边往事」4.2更新的推送-- 临时加更:难得正常人推 ...
密西根州一个4人小组，买中了“超级百万彩”的头奖，共10.5亿美元

密西根州一个4人小组,买中了"超级百万彩"的头奖,共10.5亿美元 Lottery club of 4 hit jackpot of $1.05 billions Mega Mil ...
豆瓣四大小组今天开始封禁，真的有用吗

不会吧,不会吧,不会是因为我的文章吧,昨天我写文章截图的时候,这几个小组好像还呆在豆瓣上啊,怎么今天就消失了呢. 我不会是第一个发现豆瓣最大八卦小组搜索不到的人吧. 今天上豆瓣找资料的时候,突然就发现 ...
A TEAM:一个跨职能小组的生存指南

文/彭信之最近在热播一部TVB的电视剧:<飞虎之雷霆极战>,由乐易玲.查传谊监制,查传谊.邓衍成.李惠民联合执导,苗侨伟.黄宗泽.吴卓羲.LeePace.马国明.吴启华.汪明荃.蒙嘉慧. ...
黑龙江省齐齐哈尔市小升初历年数学真题一个学雷锋小组的大学生们每天到餐馆打工半小时，每人可挣3元钱．到11月11日，他们一共挣了1764元．这个小组计划到12月9日这天挣足3000元捐给“希望工程”．因此小组必须在几

黑龙江省齐齐哈尔市小升初历年数学真题一个学雷锋小组的大学生们每天到餐馆打工半小时,每人可挣3元钱．到11月11日,他们一共挣了1764元．这个小组计划到12月9日这天挣足3000元捐给"希 ...
奇案故事：女子写情书，约秀才绣楼相会，不料当晚爬上一个和尚

明朝时,开封大梁书院有个叫谭伦的秀才,长相俊朗.才华不凡.谭伦乃归德府人,半年前来书院攻读,准备一年后的乡试.谭伦好静,父亲与相国寺住持相识,于是就住在寺中. 书院旁边有个"沈记" ...
我宅家爬楼，24小时爬出一个“珠峰”

疫情期间这些勇于突破自我的行为真的太令人感动了.今天让我们一起来认识一下罗布·贝尔特,这个试图"攀登珠穆朗玛峰"的人.天空也许会限制我们所能到达的高度,但是在这个时代,楼梯的顶部也 ...