博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 正则表达式爬取浏览目录
阅读量:5964 次
发布时间:2019-06-19

本文共 446 字,大约阅读时间需要 1 分钟。

1 import requests 2 import re 3  4 content = requests.get('https://book.douban.com/').text 5 pattem = re.compile('
(.*?).*?year">(.*?).*?',re.S) 6 results = re.findall(pattem, content) 7 # print(results) 8 9 for result in results:10 name,url,author,date = result11 author = re.sub('\s','',author)12 date = re.sub('\s','',date)13 print(url,name,author,date)

 

转载于:https://www.cnblogs.com/Hunter-541695/p/9588602.html

你可能感兴趣的文章
Java DES 加解密("DES/CBC/PKCS5Padding")
查看>>
C#编程(七十六)----------使用指针实现基于栈的高性能数组
查看>>
PostgreSql 分页limit
查看>>
在MySQL中创建cm-hive使用的数据库及账号
查看>>
HDU 2503 a/b + c/d(最大公约数与最小公倍数,板子题)
查看>>
python总结
查看>>
hdu 5215 Cycle
查看>>
GCD学习(五) dispatch_barrier_async
查看>>
file_get_contents("php://input")的使用方法
查看>>
MeasureSpec学习
查看>>
Android View体系(五)从源码解析View的事件分发机制
查看>>
数据结构 之 并查集(Disjoint Set)
查看>>
枚举类的创建和使用
查看>>
如何改变Myeclipse编辑区背景色(转)
查看>>
深入浅出LVM on linux
查看>>
Eclipse+Maven创建webapp项目
查看>>
drill 数据库查询方式简单说明
查看>>
nodeJS之二进制buffer对象
查看>>
sql server 2008安装图解
查看>>
并查集图冲突hdu1272
查看>>