首页 > 编程语言 >关于python网络爬虫——摘取新闻标题及链接

关于python网络爬虫——摘取新闻标题及链接

时间:2022-12-22 10:07:27浏览次数:46  
标签:python res 爬虫 新闻标题 soup text print news select


Python是最近流行的编程语言,最近学习了python编程,并在网络爬虫方面进行了研究,下面给出简单实例来实现网络信息的获取

步骤一:要有python开发环境,可下载python3.5版本,或anaconda3

步骤二:在命令行输入jupyter notebook 打开jupyter

步骤三:书写如下代码:

import requests
from bs4 import BeautifulSoup
res = requests.get(这里写上要获取的网页链接字符串)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('.news-item'):
if len(news.select('h2'))>0:
h2 = news.select('h2')[0].text
a = news.select('a')[0]['href']
print(h2,a)



摘取标题和文本内容:


import requests

from bs4 import BeautifulSoup

res = requests.get('http://news.sina.com.cn/c/nd/2017-09-04/doc-ifykqmrv9167659.shtml')#以新浪新闻为例

res.encoding = 'uth=f-8'#设置中文编码方式

#print(res.text)

soup = BeautifulSoup(res.text,'html.parser')

vname = soup.select('#artibodyTitle')#这是新闻标题的标签id

print(vname[0].text)

Text = soup.select('#artibody')#这是文本标签id

p = Text[0].select('p')#提取p标签内文本

for i in p:#for循环输出文本

print(i.text)

标签:python,res,爬虫,新闻标题,soup,text,print,news,select
From: https://blog.51cto.com/u_15919249/5962325

相关文章

  • Python之异常
    一、了解异常当检测到⼀个错误时,解释器就⽆法继续执⾏了,反⽽出现了⼀些错误的提示,这就是所谓的"异常"。例如:以r⽅式打开⼀个不存在的⽂件。open('test.txt','r')二、异常......
  • Python之模块和包
    一、模块Python模块(Module),是⼀个Python⽂件,以.py结尾,包含了Python对象定义和Python语句。模块能定义函数,类和变量,模块⾥也能包含可执⾏的代码。1、导入模块1、导入......
  • python爬虫如何模拟正常用户的访问行为?
    在Python爬虫抓取数据时,我们很容易被目标网站限制访问,这是目标网站阻止别人批量获取自己网站信息的一种方式,通常会采用封IP作为终极手段,效果非常好。针对此类情况,作为Py......
  • 腾讯大佬告诉你,写Python到底用什么IDE合适
    OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
  • Ceiling Division in Python
    ToperformceilingdivisioninPython,youcandefineyourownfunctionandutilizethefloordivisionoperator //.>>>defceiling_division(x,y):...ret......
  • Python 字符串
    目录Python字符串字符串基本特点字符串的编码引号创建字符串空字符串和len()函数转义字符字符串拼接不换行打印inputstr()实现数字转型字符串使用[]提取字符replace()实......
  • python第三方库的安装
    python安装第三方库的几种方法pip换源镜像源清华:https://pypi.tuna.tsinghua.edu.cn/simple豆瓣:http://pypi.douban.com/simple/阿里:http://mirrors.aliyun.com/pyp......
  • [oeasy]python0031_挂起进程_恢复进程_进程切换
    查看进程回忆上次内容上次修改了​​$PATH​​路径把当前用户shiyanlou的宿主文件夹​​~​添加到​​$PATH​​中这样​​sleep.py​​就可以被找到于是就可以被执......
  • 如何用python判断字符串包含多个字符串中的一个或多个?
    https://blog.csdn.net/weixin_42445362/article/details/109819677p="Tomisaboy,Lucyisagirl,TomlikemathandLucylikeenglish!"keywordslist=["englis......
  • [oeasy]python0031_挂起进程_恢复进程_进程切换
    ​ 查看进程回忆上次内容上次修改了$PATH路径把当前用户shiyanlou的宿主文件夹~添加到$PATH中这样sleep.py就可以被找到于是就可以被执行了还......