Java的正则表达式不仅可以用来匹配验证字符串是否符合标准类型,还可以用来解析字符串,获取自己想要得到的数据。在java.util.regex包下提供了系列的类来对字符串进行匹配。
之前有用到过在项目里删除本地文件,记录下代码。
cookie是保存http协议状态的一个重要手段,基本上所有网站都会使用到cookie机制,cookie是session的一个实现方式,当然现在还有token来代替cookie,但cookie依旧是很重要的一个模式,这里在js中实现设置cookie进而实现登陆访问。
scrapy中的item其实设计上使用的是面向对象的模式,将爬取的数据字段组合封装,进一步交由管道处理存储,这里对其机制做相关讲解。
python的dict和set设计上是很巧妙的,底层是用c语言编写,哈希表实现,这样确保了高效的数据处理。