返回信息流rt
也就是把html转成txt,只保留里面的文本信息。
如果用的是form的话,有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗?
这是一条镜像帖。来源:北邮人论坛 / dot-net / #1624同步于 2010/4/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
dotNET机器人发帖
.net 中有没有提取html中文本的方法
ycline
2010/4/26镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
在命令行程序下手动添加webBrowser引用就可以了
【 在 ycline (line) 的大作中提到: 】
: rt
: 也就是把html转成txt,只保留里面的文本信息。
: 如果用的是form的话,有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗?
: ...................
具体怎么搞呢,我试了几次都有错。。
【 在 shooter 的大作中提到: 】
: 在命令行程序下手动添加webBrowser引用就可以了
: 【 在 ycline (line) 的大作中提到: 】
: : rt
: ...................
click solution explorer
right click references
click "Add Reference" menu item
select System.Windows.Forms in the ".NET" tab item, and click OK.
add "using System.Windows.Forms"
instance one WebBrowser object
【 在 ycline 的大作中提到: 】
: 具体怎么搞呢,我试了几次都有错。。
: 【 在 shooter 的大作中提到: 】
: : 在命令行程序下手动添加webBrowser引用就可以了
: ...................
CA的IP...回答都用E文了哈
【 在 shooter (加油 ≮雪域≯之雪神 ) 的大作中提到: 】
: click solution explorer
: right click references
: click "Add Reference" menu item
: ...................
自己写个函数,去除字符串里的html标签
比如
private static string delHtmlTag(string input)
{
string TAGLIST = "!--;!DOCTYPE;A;ACRONYM;ADDRESS;APPLET;AREA;B;BASE;BASEFONT;" +
"BGSOUND;BIG;BLOCKQUOTE;BODY;BR;BUTTON;CAPTION;CENTER;CITE;CODE;" +
"COL;COLGROUP;COMMENT;DD;DEL;DFN;DIR;DIV;DL;DT;EM;EMBED;FIELDSET;" +
"FONT;FORM;FRAME;FRAMESET;HEAD;H1;H2;H3;H4;H5;H6;HR;HTML;I;IFRAME;IMG;" +
"INPUT;INS;ISINDEX;KBD;LABEL;LAYER;LAGEND;LI;LINK;LISTING;MAP;MARQUEE;" +
"MENU;META;NOBR;NOFRAMES;NOSCRIPT;OBJECT;OL;OPTION;P;PARAM;PLAINTEXT;" +
"PRE;Q;S;SAMP;SCRIPT;SELECT;SMALL;SPAN;STRIKE;STRONG;STYLE;SUB;SUP;" +
"TABLE;TBODY;TD;TEXTAREA;TFOOT;TH;THEAD;TITLE;TR;TT;U;UL;VAR;WBR;XMP;" +
"APPLET;EMBED;FRAMESET;HEAD;NOFRAMES;NOSCRIPT;OBJECT;SCRIPT;STYLE;/";
string[] htmTag = TAGLIST.Split(';');
string output = input;
string contentToReplace = null;
for (int i = 0; i < htmTag.Length; i++)
{
//Console.WriteLine(htmTag[i]);
int start = input.ToUpper().IndexOf("<" + htmTag[i]);
int end = 0;
while (start > -1)
{
end = input.IndexOf(">", start);
if (end > -1 && end > start)
{
contentToReplace = input.Substring(start, end - start + 1);
output = output.Replace(contentToReplace, "");
}
else
{
break;
}
start = input.ToUpper().IndexOf("<" + htmTag[i], start + 1);
}
}
return output;
}
哥们,你这也太能挖坟了。。
后来我用正则表达式搞定了。。
【 在 AirSendoh 的大作中提到: 】
: 自己写个函数,去除字符串里的html标签
: 比如
: private static string delHtmlTag(string input)
: ...................