首页 > 智能网

如何用Python爬取上道网的赞助公司名称？

来源：智能网

时间：2021-01-18 20:10:33

热度：100

如何用Python爬取上道网的赞助公司名称？一、前言上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包，投资商以及IP授权商，IP合作、一站式

一、前言

上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包，投资商以及IP授权商，IP合作、一站式服务。并为之提供合作交易机会。

今天教如何去爬取上道网的赞助公司名称，方便有关人士投资。

二、实现目标

获取对应的公司名称，保存文档。

三、项目准备

软件：PyCharm

需要的库：requests，fake＿useragent，time

网址：http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－｛｝．html

四、项目分析如何网页访问？

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－1．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－2．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－3．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－4．html

点击下一页时，每增加一页p－｛｝．html自增加1，用｛｝代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

五、项目实现

1．定义一个class类继承object，定义init方法继承self，主函数main继承self。导入需要的库、请求地址。import requestsfrom lxml import etreefrom fake＿useragent import UserAgentimport time
class Shangdao（object）： def ＿＿init＿＿（self）： self．url ＝＂http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－｛｝．html＂＃网站 def main（self）： pass
if ＿＿name＿＿＝＝＇＿＿main＿＿＇： Siper ＝ Shangdao（） Siper．main（）2．随机产生UserAgent，防止反爬。for i in range（1， 50）： self．headers ＝｛＇User－Agent＇： ua．random，｝3．发送请求获取响应，页面回调，方便下次请求。
def get＿page（self， url）： res ＝ requests．get（url＝url， headers＝self．headers） html ＝ res．content．decode（＂utf－8＂） return html4．获取公司名称，for遍历。
def page＿page（self， html）： parse＿html ＝ etree．HTML（html） one ＝ parse＿html．xpath（＇／／h2／a／text（）＇） for i in one： print（i）5．写入文档。
f ＝ open（＇公司．doc＇，＇a＇， encoding＝＇utf－8＇）＃以＇w＇方式打开文件 f．write（str（i））6．调用方法，实现功能。
def main（self）： stat ＝ int（input（＂输入开始（2开始）：＂）） end ＝ int（input（＂输入结束：＂）） for page in range（stat， end ＋ 1）： url ＝ self．url．format（page） print（url） html ＝ self．get＿page（url） self．page＿page（html） print（＂＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝第％s页爬取成功！！！！＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＂％ page）项目优化：

1．设置时间延时。time．sleep（1．4）

六、效果展示

点击绿色小三角运行输入起始页，终止页（从0页开始）。

渠道公司名，结果显示控制台。

保存文档。

七、总结

1．不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。2．希望通过这个项目，能够帮助了解xpath解析页面的基本流程，字符串是如何拼接，format函数如何运用。3．本文基于Python网络爬虫，利用爬虫库，实现爬取上道网，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。

热门标签：公司名称项目请求

免责声明：此资讯系转载自互联网其它网站，登载此文出于传递更多信息之目的，并不代表本网赞同其观点和对其真实性负责，文章内容仅供参考。如涉及作品内容、版权等问题，请在30工作日内与本网联系，我们将在第一时间处理！

上一篇：协作机器人、复合型机器人、手术机器人，埃斯顿一个都不放过

下一篇：年度盘点：2020年汽车厂商在3D打印领域的七大作为

聚焦智慧化能力落地联想入围重庆“智慧名城风景眼”等重大项目顶层设计

2021-01-08
斯坦福大学新项目，让自动驾驶汽车安全地加塞

2021-01-06
保时捷最新3D打印项目：完全集成的电驱动器壳体

2020-12-31
健康中国行动患者体验评价项目专题研讨会在京举行

2020-12-30
总资高达56亿，繁昌区第四季度招商引资项目启动

2020-12-29
回盛生物投资建设年产1000吨泰乐菌素与年产600吨泰万菌素生产线扩建项目

2020-12-29
喜报易联众联合体中标河北省医疗保障信息平台建设项目

2020-12-24
拒绝收购特斯拉！苹果推进Titan项目，成特斯拉直接竞争对手

2020-12-23
SpaceX星链项目获澳大利亚许可，或将用于5G建设

2020-12-22
三元基因：精选层四大研发募投项目瞄准“世界级”难题

2020-12-17
金属3D打印专家铂力特中标4600万元金属3D打印项目

2020-12-09
前海生命健康产业论坛暨项目路演圆满结束

2020-12-07
喜报易联众电子健康卡项目又双叒叕获奖啦！

2020-12-07
“橙心优选”何以成为滴滴“投入不设上限”的重点项目？

2020-12-02
金龙机电拟投建生产基地项目总投资额达24亿元

2020-12-02